LoginSignup
5
3

More than 5 years have passed since last update.

Dataikuで定番のTitanicの分類モデルを試してみた

Posted at

Dataikuについて

【オフィシャル】
https://www.dataiku.com/

【環境周りと、簡単なDataikuに対する簡単な概要】
https://qiita.com/kinuga/items/a6be89eb564630dd6f98

目的

Titanicのクラス分類モデルをDataikuでさくっと作る

作業過程

ログイン直後

初めてログインすると、以下のような画面になると思います、
最初にプロジェクトを作るところから始めます。

キャプチャ.PNG

プロジェクト作成

左のNew projectをクリックして、名前を付けてCreateボタンを押下

キャプチャ2.PNG

プロジェクト作成後Tips表示

起動すると、下図のようになります。SETTINGSの下にのマークがありますが、
押下するとTIPSが表示されます。
この後の画面でもが度々表示されており、
ユーザー補助の手厚さを感じます(英語ですが...)

キャプチャ3.PNG

データのインポート

DATASETSのタブをクリック
IMPORT YOUR FIRST DATASETをクリック
キャプチャ4.PNG

データのソースの選択

いろいろありますねー、一部非活性になっているものもありますが、
Administratorで設定ができていないか、Enterpriseバージョンで使用できるものもあります。
私はファイルからアップロードすることが多いのですが、DBからデータを引き込めるのは便利ですね。

キャプチャ5.PNG

CSVアップロード後

CREATEボタンを押下して、Dataiku上にデータを作成します。

キャプチャ6.PNG

データ確認

Age列
緑色と灰色のバーが表示されています。
灰色は欠損を示していますので、なんらかの対応(行ごと削除する、平均値とかで埋める)をする必要を感じます。
ただし、Dataikuでとりあえずモデルを作るだけならば欠損についてはあまり意識する必要はありません。
(あくまでも”とりあえず”です。精度出すならデータと向き合う必要があります。)

Ticket列
緑色と赤色のバーが表示されています。
赤色は型が違う場合に表示されています。
DataikuはIntegerとしてとらえましたが、文字が入っている為、Textとして処理してもいいかもしれません。
(Integerをクリックすると、ほかの型候補が表示されるのでTextを選ぶだけです)

キャプチャ7.PNG

データステータス

見たままですね。
列数、行数などが表示されています
キャプチャ8.PNG

モデルの作成

データもざっくりみたところで、モデルを作ることにしましょう。

データの選択

フロー画面までもどってきて、作成したデータをクリックします。

キャプチャ9.PNG

Lab

QUICK MODELを選択して、
キャプチャ10.PNG

Predictionを選択します。
キャプチャ11.PNG

目的変数の選択

Variable to predictに目的変数を設定してください。
今回の場合はSurvivedになります。
キャプチャ12.PNG

学習の実行

TRAINを押下して、

キャプチャ13.PNG

もう一回TRAINを押下して、終わり
キャプチャ14.PNG

学習結果の確認

クラス分類だった為に今回は二つのモデルで学習されました。
Random forest、Logistic Regression

デフォルトではROCの結果で、複数のモデルの結果を評価しています。
キャプチャ15.PNG
すいません、一部表示されていませんが、ブラウザがEdgeなのだからかもしれません。

結果の詳細

DecisionTreesを見たり...

キャプチャ16.PNG

影響度の高い項目を確認したり...

キャプチャ17.PNG

ROC Curveを見たり...

キャプチャ18.PNG

します。
Rはよくわからないのですが、PythonでDecisionTrees出力したり、
ROC書いたりするのって、最初はまぁまぁ面倒くさいんですよね。環境作って、コード書いて。

おわり

Dataikuって簡単で、「とりあえずデータ分析」では使いやすいのでないでしょうか?
機械学習に興味があっても、開発言語の壁があったり、環境(Linux)とかの壁もあり、
断念した人もいるかもしれません。
Dataikuは一度断念した人でも再度挑戦できるような環境だと思います。

※Dataikuの画面が一部最新版と相違しております

5
3
3

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
3