4-5 誤差逆伝播法
みかん
今回はG検定の第4章「ディープラーニングの概要」の5節「誤差逆伝播法」を解説します
1. 誤差逆伝播法の導入
みかん
勾配降下法の更新式はパラメータごとに計算するので、ネットワークが深くなるほど探索すべきパラメータの数が膨大になり、計算コストの問題が生じます。
みかん
この問題を解決するために考えられたのが誤差逆伝播法(バックプロパゲーション)です。ネットワークの各層において、前の層に伝播してきた値にはその前の層のパラメータの値が含まれていることに着目しました。
誤差逆伝播法
誤差逆伝播法(backpropagation) = 合成関数の微分(連鎖律)を利用し、一度求めた微分計算を再利用することで計算コストを削減する手法。
みかん
これは微分における「変数を中継」する合成関数の微分、すなわち連鎖律を応用しています。一度微分値を求めた部分についてはその計算を再利用できるので、計算コストを削減できます。
みかん
ニューラルネットワークでは、最終層のパラメータで誤差関数の微分を計算するのが最も容易です。そこから出力層側から入力層側へと順番に計算していくのが最も効率が良い計算方法になります。
あいで
予測値を求めるときはネットワークを順向きに、学習のパラメータ更新は逆向きに計算するんですね。だから「逆伝播」なんだ。
みかん
その通りです。要約すると「勾配降下法でニューラルネットワークの学習をする際に、微分計算を連鎖律を用いて効率よく行う」というのが誤差逆伝播法です。
2. 誤差逆伝播法の副次的効果
みかん
誤差逆伝播法のメリットは計算の効率化だけではありません。各勾配値が逆伝播の過程で求められるので、どのニューロンが予測結果に影響するかを判定できるようになりました。
みかん
これは機械学習における「モデルのどの部分がその予測結果をもたらしているのか分からない」という信用割当問題を解決できるとも言えます。
信用割当問題
信用割当問題 = モデルのどの部分が予測結果に影響しているか分からない問題。誤差逆伝播法で「どこが」影響しているかは分かるが「なぜ」かは分からない。
みかん
一方で、誤差逆伝播法の導入により新たに出てきた問題が勾配消失問題と勾配爆発問題です。逆伝播の過程で勾配値が小さくなりすぎたり大きくなりすぎたりする問題です。
勾配消失・勾配爆発
勾配消失問題 = 逆伝播で勾配が小さくなりすぎて学習が進まない。勾配爆発問題 = 勾配が大きくなりすぎて学習が不安定に。特に深いネットワークで発生しやすい。
あいで
勾配消失や勾配爆発は解決できるんですか?
みかん
現在では様々な手法を組み合わせることで、これらの問題は発生しにくくなっています。特に勾配消失問題はネットワークが深いほど発生しやすく、ディープラーニングの発展を妨げてきましたが、活性化関数の工夫などで克服されました。
まとめ
みかん
1つ目、誤差逆伝播法は連鎖律(合成関数の微分)を利用して、微分計算を再利用することで計算コストを削減する手法。
みかん
2つ目、副次的効果として信用割当問題を解決。モデルのどの部分が予測に影響しているかを判定可能。
みかん
3つ目、勾配消失問題と勾配爆発問題が新たに生じたが、現在は活性化関数の工夫等で克服されている。
みかん
ということで今回は誤差逆伝播法について解説しました
あいで
このチャンネルでは情報に関することを発信しています。
あいで
よければチャンネル登録、高評価よろしくお願い致します。