総合情報サイト / マニュアル / サービス管理 / APIの返り値(文書データ(zip/txt/pdf)の分類、ベクトル化)

推論APIの返り値(文書データ(zip, txt, pdf)の分類、ベクトル化)

文章や単語など(=自然言語)文書データの分類/ベクトル化を APIで推論した際のレスポンス(返り値)です。

出力される項目の解説は、推論結果の見方 をご覧ください。

<補足>MatrixFlowは、文章を分かち書きするなどの処理(自然言語処理)を行ってから分類を行うAIモデルを想定しています。
構造化データの csvファイルを投入するケースとの違いは、文書データは行や列の概念がない非構造化データのため、データセットに正解ラベルを含まない点です。

■対象のレシピと投入データ/ファイル形式

<レシピ>

・AutoFlowの分類、またはブロックタイプ「分類」の中のいずれかを使っている

<投入データ/ファイル形式>

・単一の文書データ/txt, pdfファイル
※構造化データの csvファイルを投入する場合のレスポンスは異なります。

・複数の文書データ/複数の文書ファイルを1つにまとめたzipファイル

■レスポンスのデータ形式

項目 値と説明
MIMEタイプ application/json
文字コード Unicode(UTF-8)

■レスポンスの値

フィールドの出力順は実行環境によって異なります。

<分類>

フィールド_0 フィールド_1 フィールド_2 説明
action     固定値 “finishInferring”
推論の終了を意味する
inferenceType 固定値 “textClassification”
自然言語データの分類を意味する
id MatrixFlow内部で自動で付与する実行時の識別ID
classes 分類するクラスを示す値:配列
例)3クラスに分類する場合 [‘movie-enter’, ‘sports-watch’, ‘topic-news’]
probability true / false
次項 “list.probability”が算出されるか否か
フィールド_0 フィールド_1 フィールド_2 説明
list 投入したデータセットの文書ファイルごとに、以下4つの情報を繰り返し出力する
filename 処理対象の文書ファイル名
MatrixFlowで推論を行ったときの、推論結果画面の分析対象ファイル名に該当
body 文書ファイルの内容
label 予測したクラス
予測結果は、”classes” のいずれかの値
probability “クラス名”: 各クラスの信頼度 予測した分類クラスがそのクラスにどれだけ当てはまるか(1.0に近いほど当てはまりが良い)
推論結果画面の棒グラフで表示される値に該当

<ベクトル化>

フィールド_0 フィールド_1 フィールド_2 説明
action     固定値 “finishInferring”
推論の終了を意味する
inferenceType 固定値 “textVectorization”
自然言語データのベクトル化を意味する
id MatrixFlow内部で自動で付与する実行時の識別ID
フィールド_0 フィールド_1 フィールド_2 説明
list 投入したデータセットの文書ファイルごとに、以下4つの情報を繰り返し出力する
filename 処理対象の文書ファイル名
MatrixFlowで推論を行ったときの、推論結果画面の分析対象ファイル名に該当
body 文書ファイルの内容
similarities 投入したデータセット内で類似していると予測した上位8ファイルの情報(ファイルごと)
distance 処理対象の文書ファイルと、類似していると予測した文書ファイルとの類似度
filename 類似していると予測した文書ファイル名
index データセットを昇順にソートして、何番目のファイルか(1ファイル目は0)
vector 文書ファイルをベクトル化した1次元配列
値の内容は word2vec や tf-idf など、レシピで利用している手法によって異なる