重要度

AIモデルが[予測する列]の値を予測するにあたり、[学習に使用した列]のそれぞれの値が予測値にどのように影響を与えたかを可視化するのが[重要度]です。[影響度]とも言います。
※文書データ(自然言語)を処理する場合は重要度ではなく、別の方法で可視化します。

タイタニック号の乗客データを使い、分類モデルの学習を行ったケースで具体的に解説します。
・予測する列   :生存結果(生存:1/死亡:0)
・学習に使用する列:性別、チケットクラス   を設定

■重要度の分布

学習に使用した値が、予測値を大きい方に向けるか小さい方に向けるか、どちらへの寄与が強いかその影響度を分布図で表します。

重要度_1.png
  1. 表示する説明変数
    重要度の分布図は学習に使用した列(説明変数)ごとに表示します。
    どの[学習に使用した列]の分布図を表示するか選択します。
    ※前処理でOne-Hotエンコーディングやダミーコーディングを行って複数列になった列もそれぞれ表示します。
  2. x軸:説明変数の値
    上図のケースは、性別「0.0:女性,1.0:男性」です。
    前処理で文字列の値を数値に変換した場合、画面右にラベルの凡例が表示されます。
  3. y軸:説明変数の値の影響度
    説明変数が予測値に与える影響度(重要度)です。
    影響度は、読み込んだデータを元に算出されるものではありません。
  4. 分布図
    性別が「0(女性)」のとき、影響度は大きくなる方向に寄与が強いため、予測値は大なり(1:生存)の確率が高く、性別が「1(男性)」のとき、影響度は小さくなる方向に寄与が強いため、予測値は小なり(0:死亡)の確率が高いことが読み取れます。

<参考>チケットクラスの重要度

性別の重要度は上述の通りです。もう一つの説明変数「チケットクラス」の重要度も見てみましょう。

[学習に使った値]
1:1stクラス,2:2ndクラス,3:3rdクラス

分布図から次のことが読み取れます。
・1stクラスは生存率が高い
・2ndクラスの生存率は比較的高いが、1stクラスに比べると死亡率が高い
・3rdクラスの生存率は極めて低い

重要度_2.png

■重要度の大きさの比較

学習に使用した列ごとの、予測する列に与えた重要度の大きさを表したグラフです。
学習用データセット全体(訓練データ+テストデータ)を対象に、列ごとに影響度を平均し、影響度が高い順に並べ替えて表示します。このとき、前処理でOne-Hotエンコーディングやダミーコーディングを行って複数列になった列は、1列に戻して計算されます。

重要度_3.png

ここで重要なのは影響度の相対的な大きさです。値の大小を気にする必要はありません。
上図からは、チケットクラスよりも性別のデータの方が、予測値の生存結果に与える影響が大きいことが読み取れます。