4-3 正則化
みかん
今回はG検定の第4章「ディープラーニングの概要」の3節「正則化」を解説します
1. 誤差関数の改良
みかん
誤差関数を最小化することでモデルの学習が行われ、適切な予測ができるようになります。しかし、その過程で注意しなければならないのが過学習です。
あいで
過学習ってどういう状態なんですか?
みかん
過学習とは、訓練データに対してフィットしすぎてしまい、未知のデータに対する予測性能(汎化性能)が低くなってしまう状態のことです。特にディープラーニングはモデルの表現力が高いので過学習が起きやすいんです。
過学習とは
過学習 = 訓練データに対してフィットしすぎて、未知のデータへの予測性能(汎化性能)が低くなる現象。表現力が高いモデルほど起きやすい。
みかん
その対応策の1つが正則化(regularization)です。訓練データへの過剰な当てはまりを抑制し、より単純なモデルが当てはまるようにすることが求められます。
みかん
正則化の中でも広く用いられる手法が、誤差関数にペナルティ項を課すというものです。パラメータが取り得る範囲を制限するアプローチです。
みかん
有名な正則化にL1正則化とL2正則化があります。L1はパラメータの各成分の絶対値の和、L2は各成分の2乗和の平方根をペナルティとして加えます。
みかん
線形回帰にL1正則化を適用した手法をラッソ回帰、L2正則化を適用した手法をリッジ回帰と呼びます。両者を組み合わせた手法をElastic Netと呼びます。
回帰手法との対応
ラッソ回帰 = L1正則化を適用した線形回帰。リッジ回帰 = L2正則化を適用した線形回帰。Elastic Net = 両者の組み合わせ。
あいで
L1はいらないパラメータをゼロにして消す、L2は全体的にパラメータを小さくして滑らかにする、という違いですね。
2. ドロップアウト
みかん
表現力が高く過学習しやすいディープニューラルネットワークにおいては、L1・L2正則化以外にも正則化の手法が存在します。その1つがドロップアウトです。
みかん
ドロップアウトは、学習の際にランダムにニューロンを「除外する」手法です。学習のエポックごとにランダムに除外するニューロンを変えることで、毎回形の異なるネットワークで学習を行います。
ドロップアウト
ドロップアウト = 学習時にランダムにニューロンを除外する手法。毎回異なるネットワーク構造で学習することで過学習を防ぐ。
あいで
ランダムにニューロンを消しちゃうんですか?それで精度は大丈夫なんですか?
みかん
大丈夫です。むしろ、ドロップアウトは内部的にアンサンブル学習を行っていることになります。1つのネットワークだけだと過学習しやすいですが、別の形のネットワークを複数学習すればそのリスクを回避できます。
あいで
なるほど、いろんなパターンで学習するから、特定のデータにフィットしすぎるのを防げるんですね。賢い方法だ。
まとめ
みかん
1つ目、過学習は訓練データにフィットしすぎて汎化性能が低下する現象。正則化で対処する。
みかん
2つ目、L1正則化はパラメータをゼロにして不要パラメータを削減。L2正則化はパラメータをゼロに近づけて滑らかなモデルに。ラッソ回帰・リッジ回帰・Elastic Net。
みかん
3つ目、ドロップアウトはランダムにニューロンを除外する手法。内部的にアンサンブル学習を行い過学習を防止。
みかん
ということで今回は正則化について解説しました
あいで
このチャンネルでは情報に関することを発信しています。
あいで
よければチャンネル登録、高評価よろしくお願い致します。