『機械学習を解釈する技術(森下光之助)』の概要(説明可能なAI、XAI)

『効果検証入門(著:安井翔太)』と同じ出版社から出ている
機械学習を解釈する技術(著:森下光之助)』を購入したので、
読み進める前に概要を整理しようと思います。

 

↓著者による『効果検証入門(安井翔太)』の解説動画

 

機械学習を解釈する技術」とは?

モデルが、なぜその結果を出力したのかを解釈する技術のこと。

Deep Learning, Gradient Boosting Decision Tree, Random Forestなどの機械学習モデルは高い予測精度を誇りますが、モデルの解釈性が低いという欠点があります。これらの複雑なブラックボックスモデルにおいて、モデルがなぜそのような予測を行っているのかを知ることは困難ですが、データ分析者自身がモデルの振る舞いを把握し、説明責任を果たすことを実務においては頻繁に求められます。

本書では、このような予測精度と解釈性のトレードオフを克服するための手法について、実務において特に有用と考えるものを厳選して紹介します。

※商品紹介ページより引用

 

説明可能なAI(XAI)に関する話は、以下のスライドで概要がわかります。
「AIの説明」の現状とこれから(原聡 大阪大学産業科学研究所)

https://www.soumu.go.jp/main_content/000587311.pdf

 

機械学習を解釈する技術」を習得するとどうなるか?

以下の、3点が可能になる。

  1. 作成したモデルのデバッグ
    作成したモデルの異常性に気づき、より納得感のあるモデルを構築できる

  2. モデルの振る舞いを解釈
    特徴量と予測値の関係から、次の施策につながる仮設を構築できる

  3. 因果関係の探索
    予測に影響を与える原因はなにか?を見つけ出す
    ※より正確な因果関係を把握するためには、「因果推論」の手法を用いるべき

 

本の構成

本書の構成は、以下の通り。

・1章:機械学習の解釈性とは

・2章:線形回帰モデルを通して「解釈性」を理解する

・3章:特徴量の重要度を知る〜Permutation Feature Importance〜

・4章:特徴量と予測値の関係を知る〜Partial Dependence〜

・5章:インスタンスごとの異質性を捉える〜Individual Conditional Expectation〜

・6章:予測の理由を考える〜SHapley Additive exPlanations〜

 

付録A: Rによる分析例〜tidymodelsとDALEXで機械学習モデルを解釈する〜

付録B: 機械学習の解釈手法で線形回帰モデルを解釈する

Pythonを用いて、アルゴリズムの実装と分析については、基本Pythonのコードがあり、付録にRユーザー向けにRのコードもあります。

 

実装を進めていきながら、読み勧めていきたいと思います。

因果探索入門のYoutube動画教材(清水昌平:滋賀大学データサイエンス学系)

因果探索について、入門レベルの教材を探している中で、Youtubeで動画を見つけたのでメモを記載しておきます。

 

 

また、清水さんの講演資料(2012年)で内容が重複しているものがあったので、リンクを掲載します。(こちらの資料の内容のほうが内容が多いです)

http://www.ar.sanken.osaka-u.ac.jp/~sshimizu/papers/BSJ2012_Tutorial_final_web.pdf

 

さて、上の動画のレベル感ですが、①については「相関関係があるからと言って因果関係があるわけではない」が分かっているぐらいの人向けの動画になっています。

 

全部で4編あり、内容は以下のようなものになっています。

①イントロダクション(18分25秒)
 ・因果探索とは何かを説明する

②因果探索のフレームワーク(28分55秒)
 ・反実仮想モデルの因果の定義
 ・構造方程式モデル(構造方程式:変数の「値」の決定関係を表す)
 ・介入:変数の値を(他の変数によらず)固定すること
 ・因果効果の識別性
 ・因果グラフが不明なことが多い
 ・因果構造探索:データから因果グラフを推測

③因果探索における基本的な概念(17分58秒)
 ・基本アイデア
  1)因果グラフの構造に仮定を置く
  2)仮定を満たす構造の中で、データと最も辻褄の合うグラフを選択する
 ・条件付き独立性が手がかりになる
 ・同値類:因果グラフの集合
 ・ソフトウェア(TETRAD、pcalg)

④因果探索:関数形に制約を入れる(22分18秒)
 ・関数形に制約を入れたモデル
 ・独立成分分析モデル(ICAモデル)
 ・識別性証明のアイデア
 ・SVAR:構造型自己回帰モデル(時間情報あり)
 ・おわりに(全体の要約と今後の課題)

 

滋賀大学データサイエンス学系の動画教材は、公式ページにまとめられているようなので、こちらも掲載しておきます。

数理DS拠点 – 滋賀大学 データサイエンス学部 / 研究科


以上になります。