Rで統計解析を始めよう(その1)
Rで統計解析を始めよう(その1)
ビッグデータとか言われて久しいですが、やっぱり大事だよね、統計解析。
以下はこの本(参考文献)のまんまです。
Rをインストール
ここからpkgをダウンロード。インストールはなされるがままに。
起動確認(GUI)
専用GUIみたいなんもついてきました。アプリケーションフォルダにある「R.app」をクリック。
起動確認(GUI)
当然「ターミナル」からの起動も出来るよ。Rと入力してエンター。
mba:~ 7010oncajon$ R
簡単な解析
データ
こんなデータを用意する。(body_sample.csv)
body_sample.csv
id,gender,height,weight
1,M,157.67,64.82
2,M,178.76,72.38
3,M,161.95,64.52
4,M,162.26,63.35
5,M,167.95,68.76
6,M,165.59,66.4
7,M,163.66,64.22
8,M,171.78,67.76
9,M,161.11,60.76
10,M,160.97,60.64
...
パッケージ(ggplot2)の利用
グラフの描画にggplot2を利用する。よく分かってないけど、参考文献のまま。
install.packages("ggplot2")
library(ggplot2)
データの読み込み
body.dataというオブジェクトに、csvファイルのデータを読み込ませる。
body.data <- read.csv("body_sample.csv", header=T,stringsAsFactors=F)
header=Tは1行目をヘッダーと見なす。
stringsAsFactors=Fは文字列がFactorだとみなされないようにする。(ココらへん意味わかってない)
身長データのヒストグラム
何はともあれ可視化をしてみる。
ggplot(body.data, aes(x=height, fill=gender)) + geom_histogram() + theme_bw(16) + ylab("count")
身長と体重の散布図+回帰直線
さらにそれっぽいことをやる。
ggplot(body.data, aes(x=height, y=weight, col=gender)) + geom_point() + theme_bw(16) + geom_smooth(method = "lm")
身長と体重の相関関係
回帰直線より、身長と体重には相関関係をみることができる。(そりゃそうだろうけど。。。)
相関係数の算出
相関係数Rは、以下の用に計算する
> cor(body.data$height, body.data$weight)
[1] 0.8928748
相関係数とは
相関係数R | 相関関係 |
---|---|
0.7 〜 1.0 | 強い相関あり |
0.4 〜 0.7 | やや相関あり |
0.0 〜 0.2 | ほとんど相関なし |
以上。