【機械学習】ベースラインモデルとは?
機械学習系のプロジェクトを進めるにあたって、まずベースラインモデルでの検討をすすめると思います。
最初に「ベースラインモデル」と聞いたとき、何のことかわからなかったので、メモしておきます。
ベースラインモデルとは
ベースラインモデルとは、極力変数を加工しない状態のデータを使って構築した機械学習モデルのこと。
例えば、Titanicチュートリアルの場合を考える。
ベースラインモデルの一つとして、学習データで最も多かったラベルで予測する「Majority classifier」が考えられる。これは、学習データでは、死亡(62%)の方が多いので、すべてのラベルを「死亡」と予測することに対応します。
何も考えずに、「死亡」とラベル付しているため、「最低限これ以上の精度は出るはず」と考えられます。
ベースラインモデルの目的
大きな目的としては、どの程度の精度が見込めるかの基準を作ることです。
上の「Majority classifier」の場合、何も考えずに「死亡」と予測した値よりも、新しく構築したモデルが、少なくとも精度が良くなっていないとおかしいと判断出来るようになります。
ベースラインモデルの使い方
まず、タスクやデータへの理解を深めていきます。
その上で、まず基準となるベースラインモデルを作成し、どれくらい精度が出るかを確かめます。その後、前処理や特徴量など工夫を入れ込んで複雑度をあげていくのが王道。
いきなり複雑度の高いモデルでモデル構築すると
・仮定、前提が多いためあまり制度が出ないことがある
・エラー解析が難しい(なぜ精度が出ないのかの検証)が大変
ため、シンプルなモデルから始めて徐々に高度化することが推奨されています。
以上になります。
おすすめ記事
著者による『効果検証入門(安井翔太氏)』の解説動画
『効果検証入門(著:安井翔太氏)』を読んでいます。
本人による解説動画があったので、メモとして記載しておきます。
動画
『効果検証入門から見直すデータサイエンス』株式会社サイバーエージェント 安井 翔太氏(2020年8月28日webセミナー)
- 上記の動画は、因果推論・計量経済学を使った効果の検証についての入門の入門みたいな話。
- 動画としては1時間程度あるが、途中・最後10分程度は質疑応答があるので、実質40分程度の講義
- なぜ、因果推論が大切なのか(「効果の検証」「データのバイアスの無視」など)を説明してくれる。因果推論によって、リスクの理解と対策が可能になる。
動画の目次
動画の目次は以下の通り。
- 効果検証の入門
- 効果検証の考え方に基づくデータサイエンスに対する2つの疑問
- 効果の出せるデータサイエンス
動画の資料
効果検証入門のレビュー動画
また、以下は、『効果検証入門(著:安井翔太氏)』のレビュー動画。概要を掴むのにはおすすめ。
『効果検証入門』で学べること
- データに潜む「バイアス」を知る
- バイアスを除く術を学ぶ
本の目次
嘘っぱちの効果とそれを見抜けないデータ分析
1 章 セレクションバイアスとRCT
1.1 セレクションバイアスとは
1.2 RCT(Randomized Controlled Trial)
1.3 効果を測る理想的な方法
1.4 R によるメールマーケティングの効果の検証
1.5 ビジネスにおける因果推論の必要性
2 章 介入効果を測るための回帰分析
2.1 回帰分析の導入
2.2 回帰分析におけるバイアス
2.3 回帰分析を利用した探索的な効果検証
2.4 回帰分析に関するさまざまな議論
3 章 傾向スコアを用いた分析
3.1 傾向スコアのしくみ
3.2 傾向スコアを利用した効果の推定
3.3 機械学習を利用したメールマーケティング施策の効果推定
3.4 LaLonde データセットの分析
4 章 差分の差分法(DID)とCausalImpact
4.1 DID(差分の差分法)
4.2 CausalImpact
4.3 大規模禁煙キャンペーンがもたらすタバコの売上への影響
4.4 不完全な実験を補佐する
5 章 回帰不連続デザイン(RDD)
5.1 ルールが生み出すセレクションバイアス
5.2 回帰不連続デザイン(RDD)
5.3 nonparametric RDD
5.4 回帰不連続デザインの仮定
5.5 ビジネスにおける介入割り当てルール
以上になります。