Google、TensorFlowベースの強化学習フレームワーク「Dopamine」（ドーパミン）、オープンソースで公開。脳の報酬系をインスパイヤ

2018年8月31日

機械学習のアルゴリズムのひとつである「強化学習」は、コンピュータが行動を選択した結果なんらかの報酬を得るとき、選択を繰り返していくなかでできるだけ多くの報酬を得るように学習していく、というものです。

この強化学習は、プロ囲碁棋士を破った初めてのコンピュータプログラムとなった「アルファ碁」で用いられたことで一気に注目されるようになりました。

Google Brainチームは、TensorFlowをベースにした強化学習のための新しいフレームワーク「Dopamine」（ドーパミン）をオープンソースで公開しました。

Dopamineは、下記のように脳の報酬系からインスパイヤを得たと説明されています。そしてドーパミンは人間にとっての報酬系である快感に関わる脳内物質のひとつとしてよく知られていますので、それにちなんでフレームワークの名前として採用されたようです。

Inspired by one of the main components in reward-motivated behaviour in the brain and reflecting the strong historical connection between neuroscience and reinforcement learning research, this platform aims to enable the kind of speculative research that can drive radical discoveries.

脳の報酬系の振る舞いの主要な要素にインスパイヤされ、また神経科学と教科学習の研究の歴史的な強い結びつきを反映して、このプラットフォームは大いなる発見を主導するような画期的な研究の実現を目指しています。

Dopamineが作られた背景には、これまでの強化学習フレームワークには柔軟性や安定性を両立させるようなフレームワークがなく、そのためにさまざまな強化学習をなんども繰り返して研究することが難しかったからだと説明されています。

そのため、Dopamineは簡単に試すことができ、柔軟に開発でき、コンパクトで高信頼、再現可能な以下の4つの特長を備えています。

Easy experimentation: Make it easy for new users to run benchmark experiments.
Flexible development: Make it easy for new users to try out research ideas.
Compact and reliable: Provide implementations for a few, battle-tested algorithms.
Reproducible: Facilitate reproducibility in results.

また、新しいアイデアに対してベンチマークを取りやすいように、あらかじめベンチマーク用のデータも用意されています。