2-2 知識表現
みかん
今回はG検定の第2章「人工知能をめぐる動向」の2節「知識表現」を解説します。第2次AIブームで中心的な役割を果たした知識表現の研究とエキスパートシステムについて学んでいきましょう。
1. 知識表現
1.1 人工無脳(知識なしでも知性があるように感じる人間心理の不思議)
みかん
人工無脳は、チャットボット、おしゃべりボットなどと呼ばれているコンピュータプログラムです。特定のルール・手順に沿って会話を機械的に処理するだけで、実際は会話の内容を理解しているわけではないので人工無脳と呼ばれています。
人工無脳
人工無脳 = チャットボットやおしゃべりボットとも呼ばれる。会話の内容を理解せず、ルールに沿って機械的に応答するプログラム。
みかん
人工無脳の元祖はイライザ(ELIZA)と呼ばれるコンピュータプログラムで、1964年から1966年にかけてジョセフ・ワイゼンバウムによって開発されました。相手の発言をあらかじめ用意されたパターンと比較し、パターンに合致する発言があると、そのパターンに応じた発言を返す仕組みになっています。
ELIZA
イライザ(ELIZA)= 1964〜1966年にジョセフ・ワイゼンバウムが開発した人工無脳の元祖。パターンマッチングで応答を返す。
みかん
イライザは自然な対話を行い、人間を相手に対話しているような錯覚(イライザ効果)に陥らせます。基本的にオウム返しに相手の発言を再利用して発言するだけですが、イライザが自分の発言を理解して応答してくれていると思い込んだユーザーもいました。
イライザ効果
イライザ効果 = 単純なルールに基づく機械的に生成された言葉でも、そこに知性があると感じてしまう人間の心理反応。
あいで
オウム返しなのに、本当に理解してくれていると思ってしまうんですね。人間の心理って面白いですね。
みかん
イライザの成功は、後のコンピュータゲームやスマートフォンの音声対話システムに影響を与え、会話ボットや人工無脳の研究につながっています。また、イライザは心理療法の分野にも影響を与え、オンラインセラピストのシステムにも発展しています。
1.2 知識ベースの構築とエキスパートシステム
みかん
ある専門分野の知識を取り込み、その分野のエキスパート(専門家)のように振る舞うプログラムをエキスパートシステムと呼びます。
エキスパートシステム
エキスパートシステム = 専門分野の知識をデータベースに蓄積し、専門家のように推論・判断するシステム。第2次AIブームの中心的存在。
みかん
初期のエキスパートシステムとして最も影響力が大きかったのは、1970年代にスタンフォード大学で開発されたマイシン(MYCIN)です。マイシンは血液中のバクテリアの診断支援をするルールベースのプログラムで、500のルールがあらかじめ用意されていました。
MYCIN
マイシン(MYCIN)= 1970年代にスタンフォード大学で開発された感染症診断支援のエキスパートシステム。500のルールで69%の正診率を達成。
あいで
500ものルールで診断するんですね。正確さはどれくらいだったんですか?
みかん
マイシンは69%の確率で正しい処方をすることができました。これは感染症の専門医が正しい処方をする確率80%よりも低い水準ですが、専門医ではない医師よりはよい結果でした。
みかん
スタンフォード大学で実用指向のAIを推進してきたエドワード・ファイゲンバウムは1960年代に未知の有機化合物を特定するDENDRALというエキスパートシステムを既に開発しており、1977年に実世界の問題に対する技術を重視した「知識工学」を提唱しました。
DENDRAL
DENDRAL = 1960年代に開発された有機化合物を特定するエキスパートシステム。知識工学の提唱につながった。
あいで
マイシンやDENDRALなど、専門知識をコンピュータに入れて活用する研究が1970〜80年代に盛んだったんですね。
1.3 知識獲得のボトルネック(エキスパートシステムの限界)
みかん
知識ベースを構築するためには、専門家、ドキュメント、事例などから知識を獲得する必要があります。しかし最大の知識源である人間の専門家からの知識獲得はとても困難でした。
みかん
専門家が持つ知識の多くは経験的なもので、その知識が豊富であればあるほど暗黙的であるため、自発的に述べてもらうことはほとんど不可能でした。このため知的なインタビューシステムなどの研究も行われました。
知識獲得のボトルネック
知識獲得のボトルネック = 専門家の知識は暗黙的であることが多く、コンピュータに取り込むことが極めて困難。エキスパートシステム衰退の主因。
みかん
さらに知識ベースの構築において、獲得した知識の数が数千、数万となると、お互いに矛盾していないか一貫していないものが出てきたりして、知識ベースを保守するのが困難になることも分かりました。
あいで
専門家から知識を引き出すのも大変だし、大量の知識を矛盾なく管理するのも大変だったんですね。それでAIの冬の時代になったわけですか。
みかん
その通りです。こうした問題を解決するために、コンピュータで知識を扱うための方法論が注目されるようになり、意味ネットワークやオントロジーなどの研究が活性化します。
1.4 意味ネットワーク
みかん
意味ネットワーク(semantic network)は、もともと認知心理学における長期記憶の構造モデルとして考案されたもので、現在では人工知能においても重要な知識表現の方法の1つになっています。
意味ネットワーク
意味ネットワーク = 「概念」をラベルの付いたノードで表し、概念間の関係をラベルの付いたリンク(矢印)で結んだネットワークとして知識を表現する手法。
みかん
意味ネットワークでは特に重要な関係性として、「is-a」の関係(「である」の関係)は継承関係を表し、「part-of」の関係(「一部である」の関係)は属性を表しています。
あいで
「動物 is-a 生物」とか「頭部 part-of 動物」のような関係ですね。直感的で分かりやすいです。
みかん
その通りです。意味ネットワークは人間にとって直感的で分かりやすく、またある概念に関連する知識のリンクを元にたどれるため知識の検索も容易です。
1.5 オントロジー(概念体系を記述するための方法論)
みかん
すべての一般常識をコンピュータに取り込もうというCycプロジェクトが、ダグラス・レナートによって1984年からスタートします。一般常識をひたすら入力していくのですが、人間の一般常識がいかに膨大か、また形式的に記述することがいかに難しいかということが分かります。
Cycプロジェクト
Cycプロジェクト = 1984年にダグラス・レナートが開始。すべての一般常識をコンピュータに取り込もうとする壮大な試み。人間の常識の膨大さと形式化の難しさを示した。
あいで
すべての常識を入力するなんて、途方もない挑戦ですね。それでうまくいったんですか?
みかん
知識を記述したり共有したりすることが難しいと分かってくると、知識を体系化する方法論が研究されるようになりました。それがオントロジーの研究につながります。
みかん
オントロジー(ontology)は、本来は哲学用語で「存在論(存在に関する体系的理論)」という意味です。人工知能の用語としては、トム・グルーバーによる「概念化の明示的な仕様」という定義が広く受け入れられています。
オントロジー
オントロジー = 「概念化の明示的な仕様」(トム・グルーバー)。知識を体系化し、他の人とも共有できるように明確な約束事(仕様)として定義しておくこと。
みかん
オントロジーの目的は知識の共有と活用です。特定の領域の言葉の定義やその関連性を形式化し、それを用いて新たな知識の創出や共有のさまざまな局面に役立てようという試みなのです。
1.6 概念間の関係(is-aとpart-ofの関係)
みかん
「is-a」の関係(「である」の関係)は、上位概念と下位概念の関係を表し、この関係には推移律が成立します。たとえば「哺乳類 is-a 動物」と「人間 is-a 哺乳類」が成り立てば、「人間 is-a 動物」も自動的に成立します。
is-aの関係
is-aの関係 = 「である」の関係。上位概念と下位概念の継承関係を表す。推移律が成立する(A is-a B、B is-a C → A is-a C)。
みかん
「part-of」の関係(「一部である」の関係)は、全体と部分の関係を表しています。たとえば「日本 part-of アジア」、「東京 part-of 日本」が成り立てば、「東京 part-of アジア」も成り立つように見えます。
みかん
しかし「part-of」の関係の場合は推移律が成立するとは限りません。たとえば「指 part-of 太郎」と「太郎 part-of 野球部」が成り立っていても、「指 part-of 野球部」という関係は成り立ちません。関係の種類によって推移律が成立するものと、成立しないものがあるのです。
part-ofの注意点
part-ofの関係 = 「一部である」の関係。全体と部分の関係を表す。推移律が成立する場合と成立しない場合がある点に注意。最低5種類の関係がある。
あいで
is-aは推移律が必ず成り立つけど、part-ofは必ずしもそうではないんですね。「指 part-of 野球部」は確かにおかしいですね。
みかん
「part-of」にはいろいろな種類の関係があり、最低5種類の関係があることが分かっています。コンピュータにこれを理解させるのは大変なのですが、そのようなツールはまだ存在していません。
1.7 オントロジーの構築
みかん
オントロジーの研究が進み、知識を記述することの難しさが明らかになってくると、次の2つの流れが生まれます。対象世界の知識をどのように記述すべきかを哲学的にしっかり考えて行うものと、とにかくコンピュータにデータを読み込ませてできる限り自動的に行うものです。
みかん
それぞれ、ヘビーウェイトオントロジー(重量オントロジー)、ライトウェイトオントロジー(軽量オントロジー)という2つの分類にほぼ対応しています。
ヘビーウェイトオントロジー
ヘビーウェイトオントロジー = 哲学的に構成要素や意味的関係を厳密に考えて構築。時間とコストがかかる。Cycプロジェクトが代表例。
みかん
ライトウェイトオントロジーの場合は、完全に正しいものでなくても使えるものであればいいという考え方で、構成要素の分類関係の正当性については深い考察は行わない傾向があります。
ライトウェイトオントロジー
ライトウェイトオントロジー = 実用性重視で自動的にデータから構築。厳密さよりも使えることを優先。ウェブマイニングやデータマイニングで利用。
あいで
厳密だけど大変なヘビーウェイトと、実用的だけどやや粗いライトウェイトがあるんですね。
みかん
こうしたオントロジーの研究は、セマンティックWeb(Webサイトが持つ意味をコンピュータに理解させ、コンピュータ同士で処理を行わせるための技術)や、LOD(Linked Open Data:コンピュータ処理に適したデータを公開・共有するための技術)などの研究として展開されています。
セマンティックWebとLOD
セマンティックWeb = Webサイトの意味をコンピュータに理解させる技術。LOD(Linked Open Data)= コンピュータ処理に適したデータの公開・共有技術。
みかん
ライトウェイトオントロジーは、Webデータを解析して知識を取り出すウェブマイニングやビッグデータを解析して有用な知識を取り出すデータマイニングで利用されています。
1.8 ワトソンと東ロボくん
みかん
IBMが開発したワトソン(Watson)は、2011年にアメリカのクイズ番組ジョパディーに出演し、歴代の人間チャンピオンと対戦して勝利したことで一躍有名になりました。ワトソンは基本的にはQuestion-Answering(質問応答)という研究分野の成果です。
ワトソン
ワトソン(Watson)= IBMが開発。2011年にクイズ番組ジョパディーで人間チャンピオンに勝利。ウィキペディアの情報をもとにライトウェイト・オントロジーを生成して質問に回答。
みかん
ワトソンは、まず質問を分析して解答候補を複数選び、それぞれの解答候補がどの程度満たしているかを複数の観点でチェックし、総合点を算出します。質問に含まれるキーワードと関連しそうな答えを高速に検索しているだけですが、その応用範囲も拡大しています。
あいで
クイズに勝てるなんてすごいですね。日本でも同じような挑戦があったんですか?
みかん
日本でも、「ロボットは東大に入れるか」(通称、東ロボ)というプロジェクトにおいて、東大合格を目指す人工知能「東ロボくん」の開発が2011年にスタートし、2020年まで続けられました。
東ロボくん
東ロボくん = 東大合格を目指す人工知能プロジェクト(2011〜2020年)。2016年の進研模試で偏差値57.1を達成したが、AI の限界から東大合格は断念。
みかん
2016年6月の進研模試では偏差値57.1をマークし、ほとんどの私立大学に合格できるレベルに達しました。しかし当時のAIの図解の限界から理科教科での改善が見込めなかったこと、古文・漢文に関する自由に使えるデジタルデータが少なすぎたことなどから、東大合格は断念しました。
あいで
偏差値57は十分すごいですけど、東大はさすがに難しかったんですね。知識表現の技術だけでは限界があることがよく分かります。
まとめ
みかん
今回のまとめです。知識表現の分野では、人工無脳(ELIZA)からエキスパートシステム(MYCIN、DENDRAL)、そして意味ネットワークやオントロジーへと研究が発展してきました。知識獲得のボトルネックという大きな課題がありましたが、セマンティックWebやLODなどの形で現在も研究が続いています。
確認クイズ
みかん
それでは、今回の内容の理解度を確認するクイズに挑戦してみましょう。