このセクションの他の記事
欠損値を変換する
表形式データ(CSVファイル)を投入する場合、[学習に使用する列][予測する列]に欠損値が存在すると使用できないため、データを補完します。
■欠損値を変換する
[前処理]画面で各列の「前処理内容の編集」をクリックして[列の詳細]画面へ遷移します。
[列の詳細]画面で「欠損値を変換する」の矢印(右図の赤枠)をクリックすると、欠損値を補完する変換メニューが表示されます。
表示されたメニューの矢印(同青枠)をクリックすると、処理メニューが表示されます。
次からは、各処理がどのような処理を行うのか、詳しく解説します。
■欠損値を含む行を削除する
欠損値がある行を削除します。
欠損値が1つでもある行を丸ごと削除するため、データセットの総データ数が減ります。
削除対象になる行数は「欠損値の数」に表示されます。
削除後にデータ数が減り過ぎてしまい思うような予測精度が得られなければ、他の補完方法を考えるか、データを集め直します。
削除例)
■欠損値を埋める
欠損値を任意の数値で埋めます。
列内のすべての欠損値を、指定した任意の数値で埋めます。
列の値が数値の場合のみ有効です。システムが列の値を文字列型と判断した場合、本メニューは表示されません。
欠損値になってしまった原因を考慮し、「列の詳細」画面右側に表示される統計情報やヒストグラムでデータの傾向を確認して、埋める数値を決めましょう。
平均値、最小値、中央値、最大値、最頻値などで埋めるケースが多いです。最頻値以外の値は統計情報に記載があります。
変換例)平均値を指定して埋めます。