新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

テキストデータの処理

Bag of Wordsによるテキスト表現

 

トークン分割

個々の文書を単語に分割する。

ホワイトスペースや句読点で区切る。

 

ボキャブラリ構築

単語に番号付をする。

 

エンコード

単語が現れる回数を数える。

 

tf-idfを用いたデータのスケール変換

特徴量がどの程度情報を持っていそうかに応じて、特徴量のスケール変換をする方法の1つ。

特定の文書にだけ頻繁に現れる単語に重みを与え、多数の文書に現れる単語にはあまり重みを与えないというもの。

 

TfidfTransformerとTfidfVectorizerが用いられる。

 

ngram_rangeでトークンの長さを変えられる。

1単語をユニグラム、2単語をバイグラム、3単語をトリグラムという。

ほとんどの場合、バイグラムを加えると性能の向上が見込める。