統計学:滝沢カレンのインスタ文とNHKニュースで執筆者比較分析をしてみた。

滝沢カレン「脳を通さないで話そうと思っている」高校講座で学習中! ザテレビジョンより画像引用

滝沢カレンのぶっ飛び発言に日本語の権威たちが熱視線 以下BLOGOSより引用文

・教育学者明治大学齋藤孝教授「滝沢さんの日本語は天才的。あんな日本語のセレクトをする人が日本にいたんだって。詩的ですよね」

・国民的詩人谷川俊太郎氏 「(滝沢の『生きる宝 動く宝』という詩について)感性に共通性がある」

・言語学者杏林大学金田一秀穂教授「カレンちゃんはとーーっても自分の心に素直な人ですよね。素直に感じたことや思ったことを、そのまま口に出している。だから言葉にも嘘偽りがないんです。ハチャメチャに聞こえるかもしれないけど、嘘じゃないことがよくわかる。~潔さや生活感があるから、ぼくらは聞いていても嫌な感じがしない。むしろ気持ちがいいのでしょう」

みなさん、おはようございます🌞 今日のことを今日ご報告という、きっとみなさま隙を見せずに「おいおい、何回前日に言ってくれと頼んだことか🤔」とまさか厳しく思ってる方✋🏻 それは真面目に、本当に申し訳ありません🙇🏼としか言えないです😭😭💕 ということで、みなさまの目をごまかしながら通り過ぎますが…🚶‍♀️ 本日11:55〜日本テレビさんにて「ヒルナンデス!」の格安コーデバトルに出場しています🙋🏼💰 そして、そのままうっかり過ごしていると、14:00〜NHKさんにて「ベーシック国語」に出場します📖 どちらも流れ作業で観れるので、「あれ⁉️次は何時からだ⁉️」とあたふたすることはなくて顔色変えずに、日本テレビさんから→NHKさんにチャンネルを変えといてください☺️💛 こんなまとまってることはなかなかないので、私もオススメしやすいです🙌🏻☘️ これくらい言ってるのでみなさんもそれぞれなんとかしてみてください😌💕💛🙇🏼🙇🏼 是非頼みますね💕😊🙌🏻 #頼みごとは早くするのが筋でした #いくら居間だと言っても礼儀あり居間でありたい #優しさに溺れずに甘えずに #でも優しさを毎日感じながら #これがこうなんて生き方ないのだから #自由でありたくても常識が邪魔をする時もある

滝沢カレン/karen takizawaさん(@takizawakarenofficial)がシェアした投稿 –

しょっぱなからぶっ飛んだ文章だなwwwまさしく「ベーシック国語」(笑)ですね。そいで、なんか構文解析をしてるかた先達のかたはいらした(https://qiita.com/naoyu822/items/9d7a83879c161573f63c)ようなので、人工知能の学習パターンを使って書き手の特徴からご本人と一般的なニュース文の比較分析をしてみました。

以下手法の解説:まず、滝沢カレンちゃんの変な(?)日本語をクレンジングしていってふつーの平文にします。データ数は少ないので、まあメモ帳でいいでしょう。例えば、ご本人のインスタ文章(https://www.instagram.com/p/BeNuL-KnkVy/)から引用させていただきますが…

みなさん、夜分遅くに失礼します。
大阪のイベントは、約束通り明日話しますのでまだ言わないでください。
東京のイベントに行くと言ってる方々。
みなさんどれだけ最高すぎます。
絶対目を見て笑い合いましょうね(約束)。
そのほか、まさかまさかの受験前の方もいらして、変な時期にこんなぶち込み方ですみませんね。
こんな事を考えずにどうぞ、受験頑張ってください。
応援してます。
そしてカレンダーお店に売っていますか?
という独特な質問された方ありがとうございます。
もちろんすぎますが、売っていますよ。
そんな事は置いといて…女優業のご報告です。
明日フジテレビさんにて19:00~「痛快!スカッとジャパン」にスタジオと動画に出場してます。
私の新たな女優の扉を遠慮なく開けてくれた紛れも無く、架け橋になれた番組です。
今回も「大沢カリナ」というちょい癖あり女を見事演じてます。
私はこの女と隣り合わせで成長できることを考えています。
セリフは難しいのですが、タルのような脳みそを叩き起こして頑張りました。
なんだこの女と思いながら見てください。
自分の演技力をスタジオでみなさんと見ながら話し合えたので恥ずかしいですが、いい作品が出来上がったので胸を張って帰りました。
みなさんも月曜日からスカッとしたいかしたくないかは別として、いいから見てください。
それでは、寝ます。

というようにして、NHKのニュースをテキトーにひっぱってきて同じように解析して比較します。次がそのRのコードです。簡単だけど、ここから始まるRプログラミングってかんじですかね…。

install.packages(“RMeCab”, repos = “http://rmecab.jp/R”)
library(RMeCab)

res <- docNgram(“C:/Users/***/Desktop/hanbetsu”,type=0)
nrow(res)
ncol(res)
plot(hclust(dist(t(res)),”ward.D”))

するとウォード法でクラスター分析した結果がでます。このあたりはソースを変えればもっと正確なクラスタリングができていました。Ngram(言語の解析手法のうちの一つで同じ言語の頻度から言語分析をする、かの大学者シャノンの開発した手法)で生成してます。docつければ一括で処理して扱えます。RMeCabの真価が問われるぜ!FUU!

上のがウォード法を用いたクラスター分析(いわゆる「教師なし」)の結果です。きれいさっぱりにわかれているかというとそうでもなかったわけで。扱うデータとかの長さも勘定しないとだめですね。ここは扱うテキストデータが短かったのと彼女の文章が(最近は前のそれよりもw…)特徴性ない平文になっていたからとも考えられます。次が助詞と読点の打ち方パターンからなした主成分分析(多変量解析の一種)です。ベクトルとかは面倒なんで置いときます。

↑主成分分析で書き手の判別をした結果です。まあNHKのがフォーマットに従って書かれているのに対して、カレンちゃんの文体は偏っていますよね。その後句点の生起位置を前判断して概要を読み取ります。1000分率の手法で文字数の問題を均一化しておきますが、この辺りの手法はExcelのテーブル操作でやりました(Rでやるよりもがぜん早いんで)。ふつーに1000でかけて文字バイト数で割っている(つまり、頻度の客観化をしている)だけです。よーするに手法は首尾一貫してんだよね。

で、さらに二種、線形判別分析(正規分布を前提として判別する)とSVMサポートベクターマシン(より強力に機械学習の手法を使う手法-後述)にかけてやっていきました。もちろん五編五編がカレンちゃんとNHKニュースさんのソースですので、データセットに含められる割合はその名の通り五分五分(半分半分ってことね)。判別分析では特定の語のテキスト分類が際立っていて、どっちともたぶん「か」とか「が」とかそういう典型的な接続語が主流になってたと思います(すんませんソースコードいじっているうちに時間が過ぎてスパゲッティになったのであいまいな記憶から書いてますが多分正しいです)。でそれ以外の他は判別に対する寄与率が低めでした。こういったインスタとかニュースとかの短文だとこういう傾向になるのかもしれませんね。

そのうえで、過学習を踏まえたうえで交差の妥当化をしましたのでこの問題(過学習)は克服できたと思います。前者(線形判別分析)だと大体70パーセントの精度で判別できて、SVM使うと100パーの精度がでました。サポートベクターマシンは機械学習「教師あり」の手法で不明なものが出てきたとき、判別するってのは同じなんですが未学習のデータに関してより線形よりも三次元的な幾何的工夫を凝らすことで簡単に高度な精度を実現できます。これでほぼ確実にふたつのやり方ともに正判分率で収束させました。

☆まとめと反省点☆

構文解析とは決定的に違った面ありますが、構文解析手法とあわせてこの記事を読んでおくことはたぶん損にはなりません。短文解析においてはおそらく構文解析の手法のほうがずっと妥当だと思われます(つまり、上記の先達者の知恵のほうが私の解析よりも手法としては勝っていると思う…)。そもそもこの分野の応用はメールとかの判断で利用されていますから、書き手の傾向を詳細にわたって観察することは難しいと思います。

むしろ、あくまで「教師あり」的な”比較”の手法としてみておいたほうがいいでしょう。そしてなによりもその比較手法においてある種のカレンちゃんの書く文章傾向は(あくまで”比較”においては)つかめたとはおもいますが、短文であること⇒データが少ないことが起因してどうともつかずの解析になってしまったのは私の失策だと思います。まあ、それでも「カンはある程度当たっていた」といったところかな…。

~最後に…~

滝沢さんモデル業これからも頑張ってください!モデルさんにゃあんま興味ないですが勝手に応援します。それにしてもすごい日本語書くよね(笑)。

※本記事はAyano Junによる寄稿記事です。

marikoi

ここの主筆・共同管理人。ぶっちゃけ狂人。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA