総合情報サイト / マニュアル / データセット設定 / データの形式について

データの形式について

■MatrixFlowで処理できるデータの形式

MatrixFlowでは、以下のデータが処理できます。

データの種類 処理できる問題 ファイル形式 備考
数値や文字列の表形式データ 分類
回帰
時系列解析
.csv
行と列からなる、カンマ区切りの構造化データ
文字列は前処理で数値化すれば処理可能(MatrixFlow内で可)
単語や文章を含む表形式データ
(自然言語を含む構造化データ)
分類 .csv
行と列からなる、カンマ区切りの構造化データ
単語や文章を自然言語処理して数値化すれば処理可能(MatrixFlow内で可)
単語や文章の文書データ
(自然言語の非構造化データ)
分類
ベクトル化
.zip
(推論時のみ .txt 可)
行列の概念がない非構造化データ
.zip は .txt, .pdf をまとめたファイル
.txt , .pdf は1ファイルを1データと考える
推論時のみ単一の .txtファイルも処理可能(単一のPDFファイルの推論は不可)
画像データ 分類
ベクトル化
次元圧縮
.zip
(推論時のみ .jpg, .png 可)
行列の概念がない非構造化データ
.zip は .jpg, .png をまとめたファイル
推論時のみ単一の .jpg, .png ファイルも処理可能
単語や文章を含む表形式データ_2
(自然言語を含む構造化データ)
RAG/プロンプト機能 .csv
.tsv
.xlsx
行と列からなる構造化データ
フォルダ内に格納してから.zipに圧縮して使用すること。
(ファイルを直接圧縮して生成した.zipは使用できない場合があります)

■データセットの構造について

行う学習の対象によっては、データセットの構造が異なります。

学習の種類 マニュアル項目 リンク
数値(AutoFlow等) ■数値や文字列データの表形式CSVファイルの作成 学習用データセットの作り方
数値を含む文書データ ■単語や文章を含む表形式CSVファイルの作成 学習用データセットの作り方
文書データのみ ▶文書データのZIPファイル構造 学習用データセットの作り方
画像データのみ ▶画像データのZIPファイル構造 学習用データセットの作り方
RAG ▶RAG起動用のデータ構造
▶RAG用のZIPファイル構造
学習用データセットの作り方

■データセットのサイズについて

レシピによって処理できるデータセットのサイズ制限が異なります。
(以下は2022年8月現在であり、今後変わる可能性があります。)

データ種類 レシピ Max値
数値/文字列データ(csv) AutoFlow(分類・回帰)* 200MB
500列×23,000行
TrendFlow(時系列解析) 200MB
500列×25,000行
MfTransformer(時系列解析) 50列×5,000行
画像データ(zip) ディープラーニング 500MB
50万枚
文書データ(csv, zip) 自然言語処理** (欄外参照)

* データセットがMax値に近いサイズの場合、学習に2日程度かかるため、アルゴリズムを絞って実行することを推奨しています。運用方法など、詳しくは担当のAIコンサルタントにお問い合わせください。

** データの内容によって制限値が異なります。運用方法など、詳しくは担当のAIコンサルタントにお問い合わせください。

■MatrixFlowで処理できる日時データの形式

時系列解析で利用できる日時のフォーマットは次の通りです。
時系列解析を行うには、レシピに「TrendFlow」や「MfTransformer」ブロックを組み込みます。

<ハイフン区切り>
・YYYY-MM-DD HH:MM:SS
・YYYY-M-D H:M:S
・YYYY-MM-DD
・YYYY-M-D

<スラッシュ区切り>
・YYYY/MM/DD HH:MM:SS
・YYYY/M/D H:M:S
・YYYY/MM/DD
・YYYY/M/D

<日本語表記>
・YYYY年MM月DD日 HH時MM分SS秒
・YYYY年M月D日 H時M分S秒
・YYYY年MM月DD日
・YYYY年M月D日

<タイムゾーン対応>
・YYYY-MM-DDTHH:MM:SS

■RAG機能に関するデータの形式

RAG機能を起動するには、起動用のデータ「初期設定.csv」が必要になります。
RAGに関する詳しいデータ構造については 学習用データセットの作り方の「▶RAG起動用のデータ構造」を参照してください。