アルファ碁のアルゴリズム

大船渡 碁石海岸(2016/03/12撮影)

goishi_01.jpg

googleのブログ(AlphaGo: マシンラーニングで囲碁を)にアルファ碁の仕組みについて以下のようにあった。

囲碁において、可能性のあるすべての指し手に対して探索木を割り当てる従来の AI 方式は通用しません。今回の挑戦を始めるにあたり、私たちはモンテカルロ木探索とディープニューラルネットワークを 組み合わせた AlphaGo (アルファ碁) というシステムを新たに開発しました。このシステムは、碁盤自体を入力と見立て、その情報を数百万のノードからなる 12 層構成のニューラルネットワークで処理します。1 つ目の「ポリシーネットワーク」が次の手を決定し、もう 1 つのニューラルネットワーク「バリューネットワーク」が勝者を予測します。


実装は大雑把に以下のような感じであろうか。

・「碁盤自体を入力」ということは、白/黒/なしの3種類、361が入力。
・ポリシーネットワークでは、敗者の各指し手直後の盤面を入力にして、勝者の指し手が出力になるようにネットワークを学習。
・バリューネットワークでは、両者の盤面全てを入力し、その勝ち負けを予想するように学習。
・対局時は、ポリシーネットワークの出力の上位候補複数とバリューネットワークの結果を使って、モンテカルロ木探索を行い勝率の高い指し手を選択。

原始モンテカルロ碁では、単純にランダムな着手によってプレイアウト(終局まで対局をシミュレーション)していたため弱かった。
それを改良したのが、ゲーム木探索とモンテカルロ法を融合した「モンテカルロ木探索」(勝率の高い着手により多くのプレイアウトを割り当て、プレイアウト回数が基準値を超えたら一手進んだ局面でプレイアウトを行う)。
しかしアルファ碁では終局まで行わず、途中まででもバリューネットワークで結果を予測できる。それにより探索できる幅が広がる。

Wiki(コンピュータ囲碁)には、

囲碁は将棋などに比べて最善手と次善手、三番手の差が小さく一本道の攻防が少ないという特徴から、ランダムなプレイを多数回行って勝率を調べることで形勢を評価することが可能である。…モンテカルロ碁の弱点として、死活やシチョウなど「正解手順はたった一つでかつ長手順だが、正解手順とそれ以外の手順に極めて大きな結果の差が生じるような」手順を見つけにくい点がある。

とある。ここにアルファ碁の弱点があるのかもしれない。

またgoogleブログに、

私たちは、このニューラルネットワークを、囲碁の達人たちによる 3,000 万を超す指し手を用いてトレーニングし、57% の確率で次の手を予測することが出来るようになりました。(AlphaGo 以前の記録は 44% でした。) しかし、私たちの目標は棋士の真似をさせることではなく、コンピューターが名人と競い、勝てるようにすることです。 そこで AlphaGo は、自らのニューラルネットワーク間で幾千もの対局を行い、強化学習と呼ばれる試行錯誤を繰り返しながらコネクションを調整、自ら新たな戦略を学び取りました。


とある。囲碁の達人たちの棋譜を学習後、ネットワーク間で対戦。その際一方はポリシーネットワークが出した指し手以外を稀に出力。ポリシーネットワークが出した指し手以外の方が勝った場合は、それも学習に使っているのではないか。

モンテカルロ木探索のランダムな差し手を、学習したニューラルネット(ポリシーネットワーク)に置き換え、評価関数もニューラルネット(バリューネットワーク)に置き換える。さらにネットワーク間の対戦で未知の差し手を発見するのがアルファ碁の正体ではなかろうか。

やはり賢くなったのはソフトではなく、プログラムを実装した人間(何が賢くなったのか)という感想にかわりはない。

強さではなく賢さ(AlphaGoの衝撃)とは何かを窮めたい。

tag : アルファ碁 コンピュータ囲碁

AlphaGoの衝撃

AlphaGo: マシンラーニングで囲碁を

DeepMind(google)やFacebookがすごい囲碁ソフトを作っているという噂は聞いていたが、DQN(DeepMind)がエアホッケーやブロック崩しには強くても、パックマンは苦手と聞いて、囲碁は難しいだろうとたかをくくっていたが、こんなにも速く名人並みの実力を実現するとは衝撃的だった。

今回の挑戦を始めるにあたり、私たちはモンテカルロ木探索とディープニューラルネットワークを組み合わせた AlphaGo (アルファ碁) というシステムを新たに開発しました。このシステムは、碁盤自体を入力と見立て、その情報を数百万のノードからなる 12 層構成のニューラルネットワークで処理します。


またまたディープラーニングの実力を見せ付けられた。

私たちは、このニューラルネットワークを、囲碁の達人たちによる 3,000 万を超す指し手を用いてトレーニングし、57% の確率で次の手を予測することが出来るようになりました。(AlphaGo 以前の記録は 44% でした。)


人ならばせいぜい、10回 × 一年365日 × 30年 = 109、500回程度の訓練しかできないと思うので、生物としてのハンディがある。

ここらで強さを競うのではなく、新しいゲームのルールを少ない試行回数で獲得するような新たな挑戦をしてみてはどうだろうか。
バックプロパゲーションのような膨大な試行回数を必要とするアルゴリズムではなく、即時マッピング的なアルゴリズムでなければ勝つことはできないであろう。

tag : アルファ碁 コンピュータ囲碁

将棋盤の中の三角形

NHKのサイエンスZEROという番組で「世界最強!?人間を超えた人工知能」というのをやっていた。

今年4月、史上初めてコンピューターが将棋の世界で現役プロを打ち負かし、関係者や将棋ファンを騒然とさせた。勝者は東京大学のチームが開発した人工知能プログラム。優勢と見られていたプロ棋士が、コンピューターの繰り出した「人間には想像も付かない一手」をきっかけに、攻める隙もなく完敗するという衝撃の展開となった。驚異の人工知能の内部を探ると、そこには意外にも人間の脳の秘密を解き明かすカギが隠されていた!


人間には想像も付かない一手」は、今後は「新定石」と呼ばれるであろうと他のプロ棋士が言っていた。定石による先入観で誰もが見落としていたのであろう。
人間の脳の秘密を解き明かすカギ」に関しては何も言っていない。
プロ棋士を負かしたコンピュータプログラムは「GPS将棋」でベースアルゴリズムは、ボナンザである。
ボナンザはそれまで実時間的に無理と言われていた全数探索で、見事初挑戦でコンピュータ将棋の大会で優勝した(と下記の本に書いてあったと思う)。



この番組では全数探索が勝利の要因であったということにはふれていなかった。
それとは別に、過去の棋譜から3つの任意のコマの三角形を選んで統計し、そのパターンと現在の状況を比較して、もっとも近い形のものを選ぶ(という評価関数)ことが勝利の要因とゲストの松原仁先生が解説していた。
この三角形は、おそらく単なる思い付き(プログラマの直感)で、理論的根拠はないと思われる。
人間のプロ棋士はこんなことはやっていないだろうとも言っていた。しかしコンピュータは三角形から四角形、五角形などいろいろ試すことによりもっと強くなる可能性もあると。

やはり人工知能というよりも、人間が賢くなったと言う感じである。

関連記事:
何が賢くなったのか
コンピュータ囲碁・将棋

tag : 将棋 三角形 人工知能

次の人工知能の闘いの場は「クロスワードパズル」 ?

クロスワードパズルを解く人工知能「Dr. Fill」はニューヨークで開催されたクロスワードパズルの大会に参加、600 人もの (人間の) 参加者たちと対戦することになった。しかし、「Dr. Fill」の参戦結果は 141 目の塗りつぶしでギブアップすることになった。


次の人工知能の闘いの場は「クロスワードパズル」

優秀な人材がこの手の課題に取り組むのは、非常に無駄なことだと思う。

tag : クロスワードパズル 人工知能

何が賢くなったのか

「囲碁ソフトがトッププロの棋士に勝利」

コンピューター囲碁では世界最強と言われる「Zen」が、碁盤に石を5子置くハンデをもらい、名人や本因坊などのタイトルを獲得した経験がある武宮正樹九段に勝利した。続けてハンデを4子に減らした2局目にも勝利した。
数年後にはハンデなしでも対等の勝負できるようになるのではないか。

コンピュータ囲碁が強くなったのは、モンテカルロ法の採用があげられるが(コンピュータ将棋では効果はないらしい)、初期の頃の「目数差」から「勝率」に、局面の評価を変更し大きく進展した。さらにヒューリスティックな手法を取り入れ、単にランダムではなく効率的な探索によるものと人工知能学会誌2012/3にあった。

賢くなったのはソフトではなく、プログラムを実装した人間のようだ。

関連記事:
コンピュータ囲碁・将棋

tag : コンピュータ囲碁 モンテカルロ法

新着図書情報
2013年11月発売
2013年6月発売
にほんブログ村
にほんブログ村 科学ブログ 脳科学へ
広告
最新記事
お勧めの本
カテゴリ
カレンダー
07 | 2017/08 | 09
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -
プロフィール

sai

Author:sai
宮城県出身。寅年生まれ。おうし座。B型。左利き。赤緑色盲。たそがれのプログラマー。

リンク
RSSリンクの表示
最新トラックバック
検索フォーム
ブロとも申請フォーム

この人とブロともになる

QRコード
QRコード
月別アーカイブ