プログラミング:カテゴリーごとの主成分/因子分析【研究概要素材含】

主成分分析やるには変数が多すぎか。名詞だけに絞っても意味がないぐらいデータは多い…。

install.packages(“RMeCab”)
install.packages(“psych”)
library(RMeCab)
library(psych)

res<-docMatrix(“R_data”,c=”名詞”,weight=”tf*idf”)
head(res)
tail(res)
dim(res)

res.pc<-prcomp(res)
summary(res.pc)
res.pc$rotation
res.pc$x
plot(res.pc$x[,1],res.pc$x[,2])
text(res.pc$x[,1],res.pc$x[,2])

fa.parallel(res)
(res.fac<-factanal(res,factors=1))
barplot(res.fac$loading[,1])
round(res.fac$uniquenesses,3)

(res.fa<-factanal(res,factors=1,scores=”Bartlett”))
plot(res.fa$loadings[,1:1],type=”n”)
text(res.fa$loadings[,1:1],colnames(res))

点数配分を見てもご覧のとおり。ここは因子分析に頼る方がいいだろう。

パラレルデータをみて、主成分と因子の決定数がどれだけかを推し量る。

だが、因子が少なくて、カテゴリーが三つしかない今、因子分析ですらうまくいかない。やはりファクターがひとつだけだと論拠にならないので、もっとデータを集めたい。だが、プログラムのフォーマットができたのはでかい…。ほんとこういう分析は苦手なんです…。p値は大っ嫌いです。

だが、セグメントとしては考えられるよね。時系列に従ってどういう風に因子がふるまっているか。作用はどこにあるのかを決定できるし、そのためのデータの保持もできる。テキストファイルに時間指定でおとしこめば余裕で時系列分析だってできるはずである。さて、お次は時系列分析のフォーマットを作る予定です。その後PowerBIとBrickでアクセスの様子見ていこう。欲を言えばRとの連携も。

(;ー∀ー)<考察ができないぐらいデータ数が少なくなってもうた…。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA