MORIKAWA

森川くん、人工知能の本をここで再編集。

<考えない知能#2> 

近年、人工知能業界では、
「考える知能」と「考えない知能」などという
言い方がされることがあります。

「考える知能」とは、我々のような記憶、
推理、判断みたいな、一般的な言い方をすれば賢い、
知的、高度で複雑な考え方を意味し、
「考えない知能」とは、昆虫などの知能で、
一般的には、行き当たりばったり、
現場主義的、無知、低級、バカ、単純
といわれている考え方を意味しています。
それぞれの「考え方」をもう少し整理してみます。
我々が物事を判断する場合、
まず、目や耳から情報を入手し、
今、そこで何が起こっているのか、
何があるのかなど、状況をより詳しくつかもうとします。
その後、その状況からどんなことがこれから起こりそうか、
どのくらいの危険度があるか、などの状況の分析をして、
それに対して、どう対処すればいいか戦略を練ります。
そして、最後に、その戦略に従って、手足を動かす、
声を出す、心臓の鼓動を高める、
など末端の組織を動かします。
このように、我々の「考える知能」は、
頭脳(トップ)が状況判断、計画を出し、
末端(ダウン)がその計画に従って行動することから、
「トップダウン方式」と呼ばれます。
一方、昆虫はどうか。
昆虫は、何かしらの目的があって歩いているとします。
で、右足が何かにぶつかったとします。
すると、右足は上に上げたり、左右にずらしたりして、

ぶつかっている対象から離れようとします。
そのとき、右足以外は何をしているかとうと、
今まで通りに動いているだけです。
問題がある(何かにぶつかっていて動けない)のは、
右足だけのことで、
左足も頭も関係ないという発想というか方針です。
で、いよいよ右足だけでは
にっちもさっちも行かなくなったとなると、
初めて左足も何かしてみる。みたいなことになります。
このような、まず現場現場(ボトム)で行動して、
それでもダメなら上(アップ)にお伺いをたてる戦略を
「トップダウン方式」に対して、
「ボトムアップ方式」と呼びます。
今まで、私たちは、
我々の「トップダウン方式」だけが
知能だと思っていたわけです。
でも、我々の直接の祖先は
200万年程度しか生きていないのに対して、
ゴキブリなんてもう2億年もやってきているわけです
(モデルチェンジさえしていない!)。
実際、ゴキブリ型ロボットを作ってみると、
とても俊敏に動き、
且つ、結構障害物だらけのところでも
歩き回れたりすることがわかりました。
そうしたことから、どうやら、
彼らの「ボトムアップ方式」も結構いけてるんじゃないか、
いや彼らこそ知性がある!なんて話が出てきたのでした。



前置きが恐ろしく長くなってしまって恐縮です。
というわけで、今回は、
この「ボトムアップ方式」の典型であるような
「強化学習」というAIについての説明です。

以下、「マッチ箱の脳」の「ニューラルネットワーク」より抜粋

■マッチ箱強化学習

今までの章でもたびたび触れてきましたが、
学習のためにサンプルを必要とするAI
(教師付きAIと呼ばれます)は、
未知の世界での活躍となると、
やはりちょいと分が悪いようです。
未知の世界(例えば火星)において、
どういう行動を取ることが正しいのか、
そんなことは誰にもわからないからです。
わからない以上、
サンプルとなる模範解答を
あらかじめ用意して送り出すことはできません。

はるかかなたの宇宙は極端にしても、
最終的にはどういう結果が得られればいいか、
それはわかっている。
でも、そこにたどり着くまでの道のりがわからない。
そういう問題は、
我々の日常の世界でもたくさんあるような気がします。
というか、そちらのほうが多いという気すらします。
そうしたとき、問題解決への道のり
(アルゴリズム)を自分で探し出すAIというのは、
頼もしいですね。

<自分で自分を評価するAI>
●先生のいないAI
さて、自分で自分のしたことを評価して、
それを基に自分の行動を反省していく。
それを繰り返して、
だんだんと正しい手順で行動できるようになる。
そうした自分で学習する能力を持つAI
(前章NN+GAモデルなど)も、
上のような問題を解決してくれるAIの一つです。

しかし、こうしたので、こういう結果になった。
これは成功(もしくは失敗)とか、
その場で白黒はっきりするというような問題ばかりではない
気がします。
多くの場合は、
「あの場面であれをして、
 その結果ああなってそうなったとき、
 次にそれをしたがためにこんなことになって、
 そのときこういうことをした」
から「成功」した。
というように、
大概、一連の状況とその状況下での
判断の連続となっていて、
その連鎖の最後にようやく成功、
失敗という結果が返ってくるものですよね。

ですから、一つの場面で一つの行動を取ったけれど、
その時点では、それがいいのか、
悪いのか判断ができないという場合も多々あります。

よく、事業に成功した人などが、
「あのときの失敗が今日の私を作った」
なんて言いいますが、
こうなってくると、
その時点では失敗かなと思えたことも、
長い目で見れば
決して失敗ではなかったということになります。

そう考えると、
そのときの行動が正しかったかどうかの判断は、
その時点で下すのではなく、もう少し先延ばしにして、
その後何かしら成功、失敗がハッキリしてから、
ジャッジした方が正しいような気がします。

こういうイメージでもいいかもしれません。
見知らぬ山道を歩いている。
ともかく山頂に到着すればいい、
という最終的な目標だけは決まっている。
そんなとき、目の前の道が3本に分かれている。

もちろん、どっちの道を進むのが正しいのかわからない。
なんたって初めての道ですから。
しかも、きっとどの道に進んだとしても、
どの道の先にも、きっとまたこうして交差点があるだろう。

我々が現実に直面する問題の多くは、
こうした構造になっている場合が
多いんじゃないだろうかということです。

というわけで、あらかじめ何が正解かわからない、
しかも、一つの場面での行動だけから
成否の結果を出すのではなく、
一連の流れの中で成否を出し、それを基に勉強する。
そんなAIが欲しいところです。

そこで、登場したのが「強化学習法」というモデルです。
この強化学習法は、
以前からあっても不思議ではないような
非常にシンプルな考え方を採用しているのですが、
実は、1990年代から研究が始まったできたてほやほや、
今最もその将来性を期待されているホットなAIです。

2001-06-07-THU

BACK
戻る