最近数学をやり直していてふと機械学習がどういう仕組みなのか知りたくなって、Courseraでスタンフォード大学が提供している機械学習講座を受けている。第6週まで終わったので思い出しながら軽くまとめる。講座はこちら Coursera Machine Learning

Week 6 機械学習のモデルの評価 - 交差検証、バイアスとバリアンス、学習曲線、適合率と再現率

交差検証 - Cross Validation

あるデータセットに学習アルゴリズムがよく適合しているからと言って、それがいいモデルであるとは言えない。なぜならそのモデルに新しいデータセットを与えた時、同じようによく適合するとは言えないからである。

この問題を改善するために、以下のように3つにデータセットを分ける。

そして、以下のようなステップで誤差を計算していく。

上の図から分かるように、次数が大きくなるほどトレーニングセットの誤差は小さくなる。
同時に、交差検証の誤差は、ある点までは次数が大きくなるにつれて減少し、さらに次数が大きくなると増加する。つまり、以下のように次数$d$と$J(\Theta)$の関係をグラフにした場合、下に凸曲線を形成する。

次に正則化項$\lambda$との関係について考える。
$\lambda$は大きくなればなるほどunderfitし、小さくなればなるほどoverfitする。

$\lambda$と$J(\Theta)$の関係をグラフにすると以下のようになる。

ごく少数のデータセットでアルゴリズムをトレーニングすると誤差が0になりやすくなる。なぜなら、例えばデータセットが2つや3つの場合、そのデータセットには二次関数がぴったりフィットするから。一般に、トレーニングセットが大きくなるほど誤差が大きくなる。そして一定まで達すると安定する。

高バイアスの場合、

グラフにすると以下のようになる。

つまり、高バイアスの場合トレーニングセットを増やすのはあまり効果的ではない。

高バリアンスの場合、

グラフにすると以下のようになる。

つまり、高バリアンスの場合トレーニングセットを増やすことは効果的である。

例えば、腫瘍を良性か悪性か分類する時、実際には悪性である患者が100人中2人いる場合に全ての人を良性に分類する予測を立てたとする。その予測は結果として98%の的中率を持つことになる。さて、これはいい予測と言えるだろうか。

予測の精度を図るために用いられる指標が適合率と再現率である。
予測した結果と実際の値を以下のような表にする。

予測されたクラス \ 実際のクラス	1	0
1	True Positive(TP)	False Positive(FP)
0	False Negative(TN)	True Nagative(TN)

適合率と再現率は以下のように表される。

$Precision(適合率)=\frac{TP}{TP+FP}$

$Recall(再現率)=\frac{TP}{TP+FN}$

0-1の値をとり、高くなるほど精度が高いと言える。
上にあげた全ての腫瘍を良性と予測する場合は再現率が0になる。

適合率と再現率はトレードオフの関係にある。どちらもいい具合に高くないと良いアルゴリズムとは言えない。それを判断するためにF値を使用する。

$F=2\frac{PR}{P+R}$