4-2 誤差関数
みかん
今回はG検定の第4章「ディープラーニングの概要」の2節「誤差関数」を解説します
1. 平均二乗誤差関数
みかん
まずは平均二乗誤差関数です。モデルの予測値と正解値の差(誤差)の2乗の平均を取ったもので、そのまま誤差関数として使えます。
平均二乗誤差関数
平均二乗誤差関数 = 予測値と正解値の誤差の2乗の平均値。主に回帰問題の誤差関数として使用される。
みかん
訓練データを用いてこの関数を最小化する=モデルの予測値と正解値の誤差を小さくすることがモデルの予測性能の向上につながります。
みかん
誤差関数の最適化問題を解くには、誤差関数をパラメータで微分してゼロになるような値を求めればよいということになります。
あいで
平均二乗誤差関数は分類問題にも使えるんですか?
みかん
分類問題では別の誤差関数が用いられることが多く、平均二乗誤差関数は実際は回帰問題の誤差関数として用いられることが大半です。
2. 交差エントロピー誤差関数
みかん
交差エントロピーは2つの確率分布がどれくらい異なるかを定式化したもので、これを誤差関数として利用したのが交差エントロピー誤差関数です。分類問題で最も用いられます。
交差エントロピー誤差関数
交差エントロピー誤差関数 = 2つの確率分布の「ズレ」を測る関数。分類問題で最も用いられる誤差関数。
みかん
分類問題では、出力の最後でシグモイド関数やソフトマックス関数を活性化関数として用いることで、各クラスの予測値を確率として表現できます。
みかん
交差エントロピーの式には対数計算が含まれています。指数・対数の微分は計算が行いやすいという利点があります。
あいで
なるほど。回帰問題には平均二乗誤差、分類問題には交差エントロピーと使い分けるんですね。
3. その他の誤差関数
3.1 距離学習における誤差
みかん
世の中の問題は全てが回帰問題・分類問題の枠組みに当てはまるわけではありません。距離学習は、データ間の「距離」を測るための手法です。
みかん
距離学習自体はディープラーニング以前から存在していた手法ですが、これをディープラーニングに応用した手法を深層距離学習と呼びます。
みかん
深層距離学習ではSiamese NetworkとTriplet Networkが有名です。Siamese Networkは2つ、Triplet Networkは3つのデータを入力に使います。
あいで
顔認証や類似データの検索などに使われるんですね。2つか3つのデータを比較して似ているかどうかを学習するわけですか。
3.2 生成モデルにおける誤差
みかん
生成モデルは画像や文章などを生成する生成問題を解くモデルです。データの確率分布を学習し、その分布に基づいて新しいデータを生成します。
みかん
生成モデルでは確率分布の「ズレ」を測る指標としてカルバック・ライブラー情報量(KLダイバージェンス)やイェンセン・シャノン情報量(JSダイバージェンス)が使われます。
KL・JSダイバージェンス
KLダイバージェンス = 2つの確率分布のズレを測る指標。JSダイバージェンス = KLダイバージェンスを対称化した指標。生成モデルの学習に使用。
みかん
例えば変分オートエンコーダ(VAE)ではKLダイバージェンスをベースとした誤差関数を使用します。生成モデルでは純粋に「目的関数」と呼ぶこともあります。
あいで
誤差関数は問題の種類によって使い分けるんですね。回帰は平均二乗誤差、分類は交差エントロピー、距離学習や生成モデルではそれぞれ専用の誤差関数があると。
まとめ
みかん
1つ目、平均二乗誤差関数は回帰問題で使用。予測値と正解値の差の2乗の平均。
みかん
2つ目、交差エントロピー誤差関数は分類問題で最も使用。確率分布のズレを測定し、対数計算で微分が容易。
みかん
3つ目、距離学習ではContrastive LossやTriplet Loss、生成モデルではKLダイバージェンスやJSダイバージェンスが使われる。
みかん
ということで今回は誤差関数について解説しました
あいで
このチャンネルでは情報に関することを発信しています。
あいで
よければチャンネル登録、高評価よろしくお願い致します。