強化学習の概要

強化学習の概要

強化学習とは

 強化学習(きょうかがくしゅう、英: reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。
強化学習 - Wikipedia

強化学習の起源

 強化学習という考え方は、学習心理学行動分析学)の見地に立ったB.F.スキナーの「強化理論」に由来する。「強化理論」とは、人間や動物の自由意思のように見える行動も、すべては過去の報酬や嫌悪刺激(罰)に基づいて決定づけられるとする理論であり、スキナー箱(※1)を用いた実験(オペレント条件づけ)が有名である。なお、強化理論は、行動療法やUI/UX設計、脱洗脳など様々な応用事例があり、それを機械学習に活用したものが強化学習である。

※1:スキナー箱とは、マウスが餌が出るレバーを押すように自発的に行動(operate)するようになることを観察する代表的な実験装置のこと。 オペラント条件づけ - Wikipedia

強化学習の要素

f:id:otsuba1:20200207165943p:plain

・Agent:強化学習における行動する主体のこと
・Environments:機械学習が実施される環境のこと
・at:ある時間tにおけるAgentの行動(action)のこと
・st:ある時間tにおける状態(state)のこと
・rt:ある時間tにおける報酬(reward)のこと
・πt:ある時間tにおいて、どういう行動(action)を取るかの方針のこと

強化学習の適用事例

・ゲーム
・自動運転
・火星探査機
・洗濯物の自動折りたたみマシン
・省エネ(Google DeepMind

Googleがデータセンター冷却電力を40%削減、DeepMindのAIを活用 | 日経 xTECH(クロステック)