【機械学習】ベースラインモデルとは?

機械学習系のプロジェクトを進めるにあたって、まずベースラインモデルでの検討をすすめると思います。

最初に「ベースラインモデル」と聞いたとき、何のことかわからなかったので、メモしておきます。

 

ベースラインモデルとは

ベースラインモデルとは、極力変数を加工しない状態のデータを使って構築した機械学習モデルのこと。

例えば、Titanicチュートリアルの場合を考える。
ベースラインモデルの一つとして、学習データで最も多かったラベルで予測する「Majority classifier」が考えられる。これは、学習データでは、死亡(62%)の方が多いので、すべてのラベルを「死亡」と予測することに対応します。

何も考えずに、「死亡」とラベル付しているため、「最低限これ以上の精度は出るはず」と考えられます。

 

ベースラインモデルの目的

大きな目的としては、どの程度の精度が見込めるかの基準を作ることです。
上の「Majority classifier」の場合、何も考えずに「死亡」と予測した値よりも、新しく構築したモデルが、少なくとも精度が良くなっていないとおかしいと判断出来るようになります。

 

ベースラインモデルの使い方

まず、タスクやデータへの理解を深めていきます。
その上で、まず基準となるベースラインモデルを作成し、どれくらい精度が出るかを確かめます。その後、前処理や特徴量など工夫を入れ込んで複雑度をあげていくのが王道。

いきなり複雑度の高いモデルでモデル構築すると
・仮定、前提が多いためあまり制度が出ないことがある
・エラー解析が難しい(なぜ精度が出ないのかの検証)が大変
ため、シンプルなモデルから始めて徐々に高度化することが推奨されています。

 

以上になります。

 

 

おすすめ記事

techtack.hatenablog.com