統計学:Rによるブログ執筆者のカテゴリごとの傾向分析

Rによるソースコードはほとんど本書に倣った。以下がその実装引用例になっている。

まず、アルゴリズムの解説から行こうか。テーブル操作で句点を判別して文章のカテゴリごとの傾向分析ができると見込んで、このアルゴリズムの導入を図ったのだが、やはりかなりうまくいったといっていいだろう。まず、形態素分析のためのパッケージを導入、docNgramをファイル格納フォルダに適応している。このNgramは演算子の研究で有名なシャノンによって作られた言語アルゴリズムである。

文字数と配列にからんでこのNgramアルゴリズムを使っていて、そこに応用を持ち込んでいる。集計したデータを幾何的な距離間の概念を持ち込みデンドログラムを描いた。ここから句読点パターンの一致性質により、さらに発展的にカテゴリごとにブログ執筆者の意図を推し量ろうということである。

デンドログラムを用いればわかるが、けっこうユークリッド的な幾何的差(正確にはコーフェン距離)は見受けられないものの、その傾向は分析できている。要するにゲームや教育記事、エンターテインメント、特集記事などにまとまりがあって、その次に偉人列伝、意思決定、漫画評論、哲学などがまとまっているのがわかる。幾何的な距離感によってこの時点で差別化ができているとみこめる。

このふたつは句読点の模範となる8つの種別のパターンから割り出した配置図プロットである。教育記事、特集記事、エンターテインメント記事などが似たような文章で組み立てられているのがわかる。それに対して、小規模記事カテゴリである、漫画評論、意思決定、哲学、およびゲームの記事が集中していて、特にそこから「が、」「て、」という句読点パターンが乖離してベクトル的に差異を構成しているのがよくわかるだろう。

要するに、こういった傾向分析をするとわかるが、似たような記事カテゴリはまとまってみえる。学術記事やお堅い文章事例はそれらで近しい分野であり、それに対してユーザーライクなですます調で書いた事例パターンとは別グループになっているのである。このあたりからカテゴリごとにブログ執筆者がどうやって考えてブログ記事を構築したのかということがよくわかるだろう。

ちなみに機械学習の基礎(人工知能のアルゴリズム)でもあるのでよくアルゴリズムの理解は必要だろうナ。これを応用すれば、複数のブログにわたって、どういった意図でどういった構成で執筆をしているかの傾向分析ができるようになる。かなり貴重なブログマーケティングがR言語の統計処理によって可能になることの証左といっていいだろう。

marikoi

ここの主筆・共同管理人。ぶっちゃけ狂人。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA