機械学習・深層学習

2-3 機械学習・深層学習

🍊

みかん

今回はG検定の第2章「人工知能をめぐる動向」の3節「機械学習・深層学習」を解説します

1. 機械学習

1.1 データの増加と機械学習

🍊

みかん

機械学習とは、人工知能のプログラム自身がデータから学習する仕組みのことです。コンピュータは与えられたサンプルデータを通してデータに潜むパターンを学習します。

機械学習とは

機械学習 = 人工知能のプログラム自身がデータから学習する仕組み。サンプルデータが多いほど望ましい学習結果が得られる。

💡

あいで

サンプルデータが多いほどいいんですね。何かデメリットはないんですか？

🍊

みかん

実はデータの特徴が増えると、学習に必要なデータ量が著しく増加する傾向があります。この現象は「次元の呪い」として知られています。

次元の呪い

次元の呪い = データの特徴（次元）が増えるほど、適切な学習に必要なデータ量が爆発的に増加する現象。

💡

あいで

特徴が増えれば増えるほどデータもたくさん必要になるんですね。なかなか大変だ。

🍊

みかん

十分なデータが蓄積されるまでは、人間がルールを事前に決めておく「ルールベースの手法」が主流でした。特定の用途に特化した場合は非常に高い精度を達成できます。

🍊

みかん

2000年以降、インターネットの普及によりデータが十分に蓄積されるようになり、機械学習は「ビッグデータ」というキーワードと共に注目を集めるようになりました。

ビッグデータ

ビッグデータ = インターネットの成長とともに蓄積された大容量のデータ。機械学習の実用化を加速させた。

🍊

みかん

ユーザーの好みを推測するレコメンデーションエンジンや迷惑メールを検出するスパムフィルタなども、膨大なサンプルデータを利用できるようになった機械学習によって実用化されたアプリケーションです。

💡

あいで

ビッグデータのおかげで機械学習が一気に実用化されたわけですね。

1.2 機械学習と統計的自然言語処理

🍊

みかん

インターネット上のWebページの爆発的な増加は、自然言語処理を利用したWebページ上の文字を扱う研究を加速させました。その結果、「統計的自然言語処理」という分野の研究が急速に進展しました。

統計的自然言語処理

統計的自然言語処理 = 文法や意味構造を分析して単語単位で訳を割り当てるのではなく、複数の単語をひとまとまりにした単位（句または文単位）で対訳データをもとに最も正解率が高い訳を選択する手法。

💡

あいで

従来の翻訳と何が違うんですか？

🍊

みかん

従来は文法構造を分析して単語単位で訳を割り当てていましたが、統計的自然言語処理では対訳データ（コーパスと呼びます）を大量に持つことで、文脈から確率的に正しい訳を選べるようになったんです。

💡

あいで

なるほど、大量の対訳データから「この文脈ならこう訳す確率が高い」って学習するわけですね。

1.3 特徴量設計

🍊

みかん

機械学習では、「注目すべきデータの特徴」の選び方が性能を決定づけます。注目すべきデータの特徴を量的に表したものを「特徴量」と呼びます。

特徴量とは

特徴量 = 注目すべきデータの特徴を量的に表したもの。機械学習の性能は特徴量の選び方で大きく変わる。

💡

あいで

具体的にどういうことですか？

🍊

みかん

例えば、ビールの売り上げ予測に「気温」を特徴量にすれば精度の高い予測ができますが、「店舗の壁の色」を特徴量にしても意味のある予測はできません。売り上げと関係がないからです。

🍊

みかん

そして重要なのは、従来の機械学習では特徴量の選択は人間が行うということです。特徴量の選び方は人間の経験と知識に依存する、いわば「職人芸」でした。

💡

あいで

機械学習って自動のイメージでしたけど、どの特徴に注目するかは人間が決めていたんですね。

🍊

みかん

そこで登場したのが「特徴表現学習」というアプローチです。人間の代わりに機械学習自身に特徴量を発見させるんです。

特徴表現学習

特徴表現学習 = 特徴量を人間ではなく、機械学習自身が発見するアプローチ。ディープラーニングはこの1つ。

🍊

みかん

ディープラーニング（深層学習）は、この「特徴表現学習」を行う機械学習アルゴリズムの1つです。与えられたデータの特徴量を階層化し、それらを組み合わせることで問題を解きます。

🍊

みかん

ただし、ディープラーニングはコンピュータが自動的に特徴量を抽出するため、特徴量が何を意味するのか人間には理解できません。これが「判断理由が示せないブラックボックス型の人工知能」と言われるゆえんです。

ブラックボックス問題

ディープラーニングは「ブラックボックス型AI」とも呼ばれる。特徴量を自動抽出するが、判断理由を人間が理解しにくい。

💡

あいで

便利だけど中身がわからない。そこが課題なんですね。

2. 深層学習（ディープラーニング）

2.1 ニューラルネットワーク

🍊

みかん

ニューラルネットワークは機械学習の1つで、生物の神経回路を真似することで学習を実現しようとするものです。

🍊

みかん

1943年、神経生理学者のウォーレン・マカロックと数学者のウォルター・ピッツが、生物の神経細胞を単純化した最初のニューロンモデル「形式ニューロンモデル」を発表しました。

🍊

みかん

学習可能なニューロンモデルの元祖は、1958年に米国の心理学者フランク・ローゼンブラットが提案した「パーセプトロン」です。各入力の「重み」を調整することで学習します。

パーセプトロン

パーセプトロン（1958年）= フランク・ローゼンブラットが提案。入力の重みを調整して学習する、学習可能なニューロンモデルの元祖。

💡

あいで

パーセプトロンで何でも解けるようになったんですか？

🍊

みかん

残念ながら、1969年にマービン・ミンスキーらによって「パーセプトロンは直線で分離できない分類問題に対応できない」という限界が明らかになりました。

パーセプトロンの限界

パーセプトロンの限界 = 直線で分離可能な分類問題しか解けない。1969年にミンスキーらが指摘し、第1次ニューラルネットワークブームは下火に。

💡

あいで

直線で分けられない問題は解けなかったんですね。それで研究が下火になったと。

🍊

みかん

そうです。これが原因で、1940年代から1970年代初期までの「第1次ニューラルネットワークブーム」は終わりを迎えました。

2.2 ディープラーニング（深層学習）

🍊

みかん

深く多層化したニューラルネットワークを使って、データに潜む特徴を自動的に学習する手法が「ディープラーニング（深層学習）」です。

🍊

みかん

1986年、ラメルハートらが多層パーセプトロンとその学習法「誤差逆伝播法（バックプロパゲーション）」を提案しました。これによりパーセプトロンの限界を解決でき、第2次ニューラルネットワークブームが起きます。

誤差逆伝播法

誤差逆伝播法（バックプロパゲーション）= 1986年にラメルハートらが提案。多層パーセプトロンの学習を可能にし、第2次ニューラルネットワークブームを起こした。

🍊

みかん

1979年に福島邦彦がネオコグニトロンというモデルを発表し、1989年にヤン・ルカンがそれと同等のアイデアを採用した「畳み込みニューラルネットワーク」の構造をLeNetと名付け、画像認識ニューラルネットワークの基礎を築きました。

💡

あいで

日本人の研究者も大きく貢献していたんですね。第2次ブームはずっと続いたんですか？

🍊

みかん

残念ながら、1992年から1995年にかけてヴァプニクらが開発した「サポートベクターマシン」が機械学習のアプローチとして人気を集め、第2次ニューラルネットワークブームは1990年代中頃に終焉してしまいます。

🍊

みかん

しかしブームが去った後も、ニューラルネットワークの可能性を信じる研究者たちによって研究は続けられました。オートエンコーダの研究や活性化関数の工夫などにより、ディープラーニングの躍進が始まります。

💡

あいで

冬の時代にも地道に研究を続けていた人たちがいたからこそ、今のAIがあるんですね。

🍊

みかん

ニューラルネットワークのブームをまとめるとこのようになります。第1次はパーセプトロンの限界で、第2次はSVMの台頭で終わり、第3次が現在進行中です。

2.3 新時代を切り開くディープラーニング

🍊

みかん

2012年、画像認識の精度を競い合う競技会ILSVRC（ImageNet Large Scale Visual Recognition Challenge）で、トロント大学のジェフリー・ヒントンが率いるSuperVisionが圧倒的な勝利を収めました。

🍊

みかん

2位の東大のISIのエラー率を10%以上も引き離し、エラー率15.3%という衝撃的な結果でした。この時に開発されたニューラルネットワークのモデルはAlexNetと呼ばれます。

ILSVRC 2012の衝撃

ILSVRC 2012 = トロント大学のSuperVision（AlexNet）がディープラーニングで圧勝。ジェフリー・ヒントンが中心。従来の機械学習を大幅に上回った。

💡

あいで

2位に10%以上の差をつけるなんて、まさに桁違いの勝利ですね。

🍊

みかん

それまで画像認識に機械学習を使う際は、特徴量を決めるのは人間でした。SuperVisionの勝因は、ディープラーニングという新しい方法で特徴量を自動的に学習させたことにあります。

🍊

みかん

2012年以降、ILSVRCのチャンピオンはすべてディープラーニングを利用しています。画像認識エラーは激減し、2015年には人間の画像認識エラーである4%を抜いたことが大きな話題になりました。

💡

あいで

人間よりも正確に画像を認識できるようになったんですか。すごい進歩ですね。

2.4 自然な文章を生成できる「大規模言語モデル」の登場

🍊

みかん

2022年11月、OpenAIが公開した革新的な対話システム「ChatGPT」がAI界に新たな旋風を巻き起こしました。前例のないスピードでユーザー層を拡大し、「生成AI」という言葉を広く社会に浸透させました。

🍊

みかん

ChatGPTは大量の文章を学習しており、文章の次に続く最も適切な単語を確率的に選ぶことが可能です。その選択を次々と繰り返すことで自然な文章を生成できる「生成AI」なのです。

💡

あいで

ChatGPTを支えている技術って何なんですか？

🍊

みかん

生成AIの核となる技術は「トランスフォーマー（Transformer）」です。2017年にGoogleの研究者が中心になって発表した「Attention Is All You Need」という論文で提案されました。

Transformer

トランスフォーマー（Transformer）= 2017年にGoogleの研究者らが提案。「アテンション（注意力）」の仕組みで単語と単語の関係性を広範囲にわたって効率的に学習できる。

🍊

みかん

トランスフォーマーの重要な仕組みが「アテンション（注意力）」です。文章中の単語の位置を考慮し、単語と単語の関係性を広範囲にわたって学習します。これにより文脈の意味やニュアンスを深く理解できるようになりました。

🍊

みかん

大量の言語データを学習する能力を持つ、大規模なニューラルネットワークを「大規模言語モデル（Large Language Model、略称LLM）」と呼びます。LLMは大量の文章を学習することで、言語の構造、文法、語彙などの基本を学びます。これを「事前学習」と言います。

LLMとは

LLM（大規模言語モデル）= 大量の言語データを学習した大規模ニューラルネットワーク。事前学習で言語の基本を習得する。

💡

あいで

事前学習だけでChatGPTみたいに賢くなるんですか？

🍊

みかん

事前学習だけでは学習した文章を再現するだけになってしまいます。そこで「ファインチューニング（微調整）」と呼ばれる学習を追加し、特定のタスクに焦点を当てた訓練で論理的かつ適切な回答を生成する能力を向上させます。

ファインチューニング

ファインチューニング（微調整）= 事前学習済みのLLMに追加の訓練を行い、特定のタスクに対する回答能力を向上させること。

🍊

みかん

ChatGPTはトランスフォーマーをベースとした「GPT（Generative Pre-trained Transformer）」をベースにしています。パラメータ数はGPT-2で約15億個、GPT-3で約1750億個、GPT-4では1兆個を超えると言われています。

🍊

みかん

興味深いことに、LLMが特定の規模に達すると、事前に想定されていなかった能力を獲得することが報告されています。例えばプログラムを生成する能力などです。

💡

あいで

モデルを大きくしたら、教えてもいない能力が勝手に生まれるなんて、まさに知能のようですね。

まとめ

🍊

みかん

1つ目、機械学習はAI自身がデータから学習する仕組み。サンプルデータが多いほど性能が上がる。ビッグデータの普及で実用化が加速した。

🍊

みかん

2つ目、従来の機械学習では特徴量を人間が選んでいたが、ディープラーニングは特徴量を自動で抽出する「特徴表現学習」の一種。

🍊

みかん

3つ目、ニューラルネットワークはパーセプトロンから始まり、誤差逆伝播法の発明で多層化が可能に。2012年のILSVRCでディープラーニングが圧勝し、新時代が始まった。

🍊

みかん

4つ目、2017年にTransformerが登場し、2022年にChatGPTが公開。LLMは事前学習とファインチューニングで能力を高め、生成AIの時代を切り開いた。

🍊

みかん

ということで今回は機械学習・深層学習について解説しました

💡

あいで

このチャンネルでは情報に関することを発信しています。

💡

あいで

よければチャンネル登録、高評価よろしくお願い致します。