Dataikuについて
【オフィシャル】
https://www.dataiku.com/
【環境周りと、簡単なDataikuに対する簡単な概要】
https://qiita.com/kinuga/items/a6be89eb564630dd6f98
目的
Titanicのクラス分類モデルをDataikuでさくっと作る
作業過程
ログイン直後
初めてログインすると、以下のような画面になると思います、
最初にプロジェクトを作るところから始めます。
プロジェクト作成
左のNew projectをクリックして、名前を付けてCreateボタンを押下
プロジェクト作成後Tips表示
起動すると、下図のようになります。SETTINGSの下に●のマークがありますが、
押下するとTIPSが表示されます。
この後の画面でも●が度々表示されており、
ユーザー補助の手厚さを感じます(英語ですが...)
データのインポート
DATASETSのタブをクリック
IMPORT YOUR FIRST DATASETをクリック
データのソースの選択
いろいろありますねー、一部非活性になっているものもありますが、
Administratorで設定ができていないか、Enterpriseバージョンで使用できるものもあります。
私はファイルからアップロードすることが多いのですが、DBからデータを引き込めるのは便利ですね。
CSVアップロード後
CREATEボタンを押下して、Dataiku上にデータを作成します。
データ確認
Age列
緑色と灰色のバーが表示されています。
灰色は欠損を示していますので、なんらかの対応(行ごと削除する、平均値とかで埋める)をする必要を感じます。
ただし、Dataikuでとりあえずモデルを作るだけならば欠損についてはあまり意識する必要はありません。
(あくまでも”とりあえず”です。精度出すならデータと向き合う必要があります。)
Ticket列
緑色と赤色のバーが表示されています。
赤色は型が違う場合に表示されています。
DataikuはIntegerとしてとらえましたが、文字が入っている為、Textとして処理してもいいかもしれません。
(Integerをクリックすると、ほかの型候補が表示されるのでTextを選ぶだけです)
データステータス
モデルの作成
データもざっくりみたところで、モデルを作ることにしましょう。
データの選択
フロー画面までもどってきて、作成したデータをクリックします。
Lab
目的変数の選択
Variable to predictに目的変数を設定してください。
今回の場合はSurvivedになります。
学習の実行
TRAINを押下して、
学習結果の確認
クラス分類だった為に今回は二つのモデルで学習されました。
Random forest、Logistic Regression
デフォルトではROCの結果で、複数のモデルの結果を評価しています。
すいません、一部表示されていませんが、ブラウザがEdgeなのだからかもしれません。
結果の詳細
DecisionTreesを見たり...
影響度の高い項目を確認したり...
ROC Curveを見たり...
します。
Rはよくわからないのですが、PythonでDecisionTrees出力したり、
ROC書いたりするのって、最初はまぁまぁ面倒くさいんですよね。環境作って、コード書いて。
おわり
Dataikuって簡単で、「とりあえずデータ分析」では使いやすいのでないでしょうか?
機械学習に興味があっても、開発言語の壁があったり、環境(Linux)とかの壁もあり、
断念した人もいるかもしれません。
Dataikuは一度断念した人でも再度挑戦できるような環境だと思います。
※Dataikuの画面が一部最新版と相違しております