テキストデータの処理
Bag of Wordsによるテキスト表現
・トークン分割
個々の文書を単語に分割する。
ホワイトスペースや句読点で区切る。
・ボキャブラリ構築
単語に番号付をする。
単語が現れる回数を数える。
tf-idfを用いたデータのスケール変換
特徴量がどの程度情報を持っていそうかに応じて、特徴量のスケール変換をする方法の1つ。
特定の文書にだけ頻繁に現れる単語に重みを与え、多数の文書に現れる単語にはあまり重みを与えないというもの。
TfidfTransformerとTfidfVectorizerが用いられる。
ngram_rangeでトークンの長さを変えられる。
1単語をユニグラム、2単語をバイグラム、3単語をトリグラムという。
ほとんどの場合、バイグラムを加えると性能の向上が見込める。