テキストデータの処理 - 新卒1年目の技術に関する備忘録

Bag of Wordsによるテキスト表現

・トークン分割

個々の文書を単語に分割する。

ホワイトスペースや句読点で区切る。

単語に番号付をする。

単語が現れる回数を数える。

tf-idfを用いたデータのスケール変換

特徴量がどの程度情報を持っていそうかに応じて、特徴量のスケール変換をする方法の1つ。

特定の文書にだけ頻繁に現れる単語に重みを与え、多数の文書に現れる単語にはあまり重みを与えないというもの。

TfidfTransformerとTfidfVectorizerが用いられる。

ngram_rangeでトークンの長さを変えられる。

1単語をユニグラム、2単語をバイグラム、3単語をトリグラムという。

ほとんどの場合、バイグラムを加えると性能の向上が見込める。