2019/03/23 KHCoderを使ったテキスト分析
こんにちは。
最近、人工知能関連として、テキスト分析に取り組むことがありました。
個人で試してみたかったので、KHCoderというフリーだけどたいへん高機能なソフトを使って取り組みました。
KHCoderは、こちらでインストールできます。
KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア
取り組んだのはだいぶ前でして、その結果はTweetにまとめて報告していましたので、今回は、その時のツイートを掲載いたします。
最近、会社でAIをネタにいろいろ考えろと言われているので、とりあえず、自分の興味のおもむくまま、KHコーダーを使って分析。
— ウナギオウ / tommy24july (@unagiou) 2018年7月18日
ネタは「第10回AKB選抜総選挙のスピーチ」としました。
まずは、抽出語リストから。
トップ3の「思う/本当に/ありがとう」。この辺は順当なところかな。 pic.twitter.com/3FOM7SQ4wc
続いて共起ネットワーク。
— ウナギオウ / tommy24july (@unagiou) 2018年7月18日
抽出語リストのトップ3は結合が強く、「ファン/応援/選挙」などと結びついてるけど、これは「定型のあいさつ」と言えるかも。
その他は想像通りの組合せだけど、「卒業/(北原)里英/NGT48」が興味深い。北原里英はNGT48の後輩たちに愛されてたんですね。 pic.twitter.com/3L1YbHuPYU
共起ネットワークの中でも、グループ別の結果。
— ウナギオウ / tommy24july (@unagiou) 2018年7月18日
STU48とBNK48はサンプルが少ないので、離れているのは仕方がないとしても、ある程度グループごとの言葉の特徴が出ている気がする。
注目なのは、NMB48が他グループとの結合が弱いこと。分析してみると、面白いかもしれない。 pic.twitter.com/lgzg6ZJOBA
共起ネットワークの中で、次は順位別の結果。
— ウナギオウ / tommy24july (@unagiou) 2018年7月18日
共通で持っている言葉が面白いところ。この辺の分析は別の機会でやってみよう。 pic.twitter.com/yomLJQtxlh
最後に対応分析の結果。
— ウナギオウ / tommy24july (@unagiou) 2018年7月18日
グループごとに距離が離れているけど、特にSKE48/NMB48/NGT48がそれぞれ原点から別の方向にあり、興味深いところ。
こちらの分析も別の機会にやってみよう。 pic.twitter.com/B1zJYcx58G
この報告をしてからだいぶ時間が経過しているので、そろそろ再スタートしてみようかな。
では、また。