総合情報サイト / マニュアル / 学習中の前処理画面 / 列の詳細と前処理の実行

列の詳細と前処理の実行

機械学習において前処理は非常に大切な作業です。MatrixFlowでは、システムがデータセットを解析して最適な前処理を適用する[自動前処理]機能と、列ごとにデータの傾向を確認しながら、1処理ずつ手動で実行できる機能を備えています。

■[自動前処理]を行う

画面上部の[自動前処理を実行する]ボタンをクリックすると処理を開始し、システムがデータセットを解析して自動で前処理を実行します。適用される前処理の手法は、手動で行う前処理と同様です。
時間がかかるケースもありますが、画面を閉じずに処理が終わるまでお待ちください。

<自動前処理を行う際の留意点>
明らかに不要な列は、他の有効な列の値に影響をおよぼす可能性があります。
解析したい目的に対して不要な列であるかどうかは人の経験値でしか分からずシステムでは判断できないため、あらかじめ列を削除してから自動前処理を行う方が好ましいケースもあります。

影響をおよぼす例
・明らかに不要な列に欠損値があり、行の削除が行われる。
⇒ 必要な列の有効なデータが減ってしまいます。
・明らかに不要な列に対して数値変換処理(One-Hotエンコーディングやダミーコーディング)が行われる。
⇒ 不要な列がさらに増え、学習時に計算に時間がかかったり、データセット保存容量を圧迫するなど負荷が増します。

■[手動で前処理]を行う

[データセットを表示]画面で列にマウスオーバーすると上部に現れる2つのアイコンのうち、左側の[前処理内容の編集]をクリックして[列の詳細]画面へ遷移します。

列の詳細_1.png

<補足>
右側の[列を非表示にする]アイコンをクリックすると、列を一時的に非表示にできます。

非表示にすると、データ表示エリアの右上[非表示中の列]に列名が表示されます。
再度表示するには、[非表示中の列]から表示したい列名をクリックします。

列の詳細_2.png

[列の詳細]画面では、対象の列のデータ傾向を確認しながら前処理を行えます。

列の詳細_3.png

1.詳細を表示している列の名前を表示します。
表示している列の前処理を終了するときや、他の列の前処理を行うときは、[←]をクリックして[前処理]画面に戻ります。

2.詳細を表示している列の冒頭20行の値を表示します。
表示行数を変更したい場合は、アカウント情報 > アカウント詳細設定 > 表示行数 で変更できます(再ログインの必要あり)。
アカウント情報について詳しくは 操作マニュアル をご覧ください。

3.前処理メニューです。
MatrixFlowの前処理は、以下の操作を行えます。

(1)数値に変換する
AIモデルが学習に使えるように、文字列を数値に置き換えます。
・One-Hotエンコーディング
・ダミーコーディング
・ラベルエンコーディング

(2)欠損値を変換する(欠損値がある列のみ表示されます)
AIモデルが学習に使えるように、欠落している値を補完します。
・欠損値を含む行を削除する
・欠損値を(数値で)埋める

(3)列を削除する

4.列の値の個数をヒストグラムで表します。
可視化することで、どのような値が何個あるのか直感的に確認できます。

5.前処理を実行した順に、行った前処理と対象の列を表示します。
エリア右上のメニューから各種操作ができます。

列の詳細_4.png
  • 前処理を保存 :実行した前処理を設定として保存します。
  • 1つ戻る/進む:実行した前処理を1処理ずつ戻ったり、やり直したりできます。
    ※すべての前処理を戻すとデータセットは適用前の状態に戻りますが、システムは前処理作業中と判断し、行った前処理は記憶されています。
  • 前処理をリセット:これまでに行った前処理をすべてリセットし、元のデータセットに戻します。
    ※データセットは適用前の状態に戻り、行った前処理も記憶されません。
    ※リセットは「前処理」画面でのみ有効です。
    「列の詳細」画面ではクリックしても機能せず、「前処理」画面に戻ると実行されます。