新卒1年目の技術に関する備忘録

自主学習で困ったこと、学んだことをまとめています

2019-01-03から1日間の記事一覧

テキストデータの処理

Bag of Wordsによるテキスト表現 ・トークン分割 個々の文書を単語に分割する。 ホワイトスペースや句読点で区切る。 ・ボキャブラリ構築 単語に番号付をする。 ・エンコード 単語が現れる回数を数える。 tf-idfを用いたデータのスケール変換 特徴量がどの程…