AI Quest（2019年度）前半戦で得たもの #機械学習

追記

前半前どころか全部終えて恨みつらみを残していたりはしますが、
今年も行われるというのもあってか、ストックとかの通知も来るので一応追記。

これは第1回目（2019年度）の話なので、さすがに色々改善されているとは思います。
また良いチームに恵まれ、うまく成長された方もいると思います。
その上で第1回で自分が思ったことは

「AI」実装ってなんぞや感あるけど、うちのチームは機械学習の回帰と分類のことだけやったよ
ディープラーニングのことは何もやってないよ
初期レベルで参加するものが違ったみたいだから、高レベルの人たちのことは知らないよ
チームビルドから各チーム任せなこともあってチームごとにモチベーションが違って、離脱者が全体的に見られたよ
というか顔合わせの前にチームが決められて課題を課されて、発表時に初めて会ったよ
ビジネス課題と実装課題は微妙につながってるけど、バラバラの課題って感じで実装課題はただのSIGNATEのコンペだよ
ビジネス課題も中途半端なロジカル・コミュニケーションと中途半端なプレゼン研修だよ
BCGの人は大したフィードバックをくれないけど、参加者同士のフィードバックも弱いよ

特に最後のフィードバックの形なんかは改善されているとは思っています。
ただ紹介ページなどは「きれいな部分」だけを見せるので、参加する方々には「終わってみて糞だった」と書くのではなく、やりながら改善を促していける気持ちも持って望んでほしいと思います（その結果そんなの不要であったらそれは良い）。
改善する気はあっても、参加企業（主催側）の多くは他の仕事の片手間にやっていて、全力で意見を集めて改善していくみたいなことはしないけど、さすがに参加者が動けばなにかしてくれるはずです。

以下は以前の

個人ブログではひたすら文句を書き連ねたが、得たものはあるので色々整理したいと思う
いや思ったのだが特に学んだことが薄くてQiitaに書くのも申し訳ない感じに整理できなかった

まとめ

前半を終えて3ヶ月程度（残り2ヶ月程度）

・初期状態
なんとなくは機械学習（scikit-learn：分類・回帰）を実行できる
　↓
・今の状態
データを可視化し、傾向を探り、前処理・特徴量をあれこれするのが多少できる
機械学習のツールをツールとして、一部の手法を深く理解していないが扱えるレベル

期待していたビジネスで機械学習をどう活かすかということ：正直学びがなかった
ここががっかり感を作っていると思います。

振り返り

研修のゴール

これは集め方がペライチのポスターのみだった時点であまり定かではなかった
何をやるかもわからなかったので、自分でも定められなった

開始前の自分の実力

2年前にPythonではじめる機械学習（オライリー）を2章までやってscikit-learnの動かし方がわかっている程度
（あと業務中にお遊びでちょっとだけ触った）

応募資格は下記2つの要件を満たす方
・Pythonを使ったコーディング経験のある方
・AI、データ処理（Data Handling, Data Science）についてサンプルコードを書いた程度の経験がある方
とのことなので問題ないはず

統計学について

平均・中央値・四分位数とかだった気がする
これ↓のStep0のほうが詳しい
https://bellcurve.jp/statistics/course/

ちゃんと統計学も勉強しよ！ってなったことが一番の収穫です

機械学習のついて

回帰

One-Hot Encoding
いろいろなモデルの作成（RandomForestRegression、XGBoost、LightGBMなど）
色々特徴量を作ってみる
正規分布に近づけるために目的変数を対数変換

ビジネス面について

学んだ気がしない

その他

pandasの扱い方

PBLについて

今回推しているPBL＝問題解決学習
これで得たものがあったか
PBLというけど単に1週間で解ける課題を与えられただけだった気がするのだが気のせいか…？
私の知ってるアクティブラーニングと違う。

集合研修やチームで質問し合うという部分だけ切り取ると、

機械学習雑魚としては、対数変換するんですよってところに気づけた
- 何故するのかはネットで調べた
どうしてこのモデルを選ぶのか：決定木なのかなのか線形回帰なのか別のものなのか
- ブラックボックス的なのか、解釈・説明しやすいのか、速度面
チームメンバーがやっている手法
- K-Means法でのクラスタ分類、主成分分析
- 主成分分析は似たようなKaggleのコンペの説明にあったからやったみたいですけど

あたりは得たものでしょうか

今日別のチームの人と話したのは「精度上げるのに行き詰まったときどうすればいいんでしょうね？」ということ
こういうのは話題に出つつ解決できるわけではなかった。

内容の網羅性

チーム課題は最大2個しか課題がないので、網羅性はないです。
うちのチーム回帰しかないじゃん…
画像認識をやるところもあります
自然言語処理とかはなさそう

会社からデータを貰っているという理由で、他チームにURLは教えないでください、とのこと
だからやっている課題以外からは学びは得られない
これは相当もったいないと思いました

いまのままのを他の人にオススメするか

Kaggleのコンペやれ

後半に向けて

ゴールは定められない。
学ぶモチベーションとしての研修くらいの気持ちで取り組む