scikit-learn の機械学習パイプライン

scikit-learn の機械学習パイプライン
CRANK

はじめに機械学習で予測モデルを作るときはデータの分割データの前処理予測モデルの学習クロスバリデーションによるハイパーパラメータチューニングといった手順を踏む必要がある。慣れるまではこれらの手順に対応する scikit-learn のクラスをひとつひとつ呼び出して自分で一連の処理をやってみるのが勉強になるが、慣れてしまうと似たような手続きを毎回書くのは非常に面倒くさい。scikit-learn には、この一連の処理を簡潔に記述するためのパイプラインの仕組みがあるので、その使用方法について説明する。一連のコードは Google Colab 上にアップロードしてある。 3 つに分割することになる。検証データへの当てはまりを見てモデルをチューニングしてもよいが、テストデータへの当てはまりを見てモデルをチューニングするのはズルである。データの分割は sklearn.model_selection.train_test_split で行う。検証データはクロスバリデーションのときに訓練データから一部を取り出して作るので、最初は訓練データとテストデータに分割しておけばよい。データをシャッフルした上で分割するので、分割後のデータが元のデータの何行目のデータなのかを管理するのが面倒になる…

zenn.dev 3 years ago

Open page

https://zenn.dev/wsuzume/articles/c44d187817f883

1 comments

kohki yamagiwa

@tamanobi

3 years ago