Rで統計解析を始めよう(その1)

Rで統計解析を始めよう(その1)

ビッグデータとか言われて久しいですが、やっぱり大事だよね、統計解析。

以下はこの本(参考文献)のまんまです。

データサイエンティスト養成読本

Rをインストール

ここからpkgをダウンロード。インストールはなされるがままに。

R for Mac OS X

起動確認(GUI)

専用GUIみたいなんもついてきました。アプリケーションフォルダにある「R.app」をクリック。

f:id:naotooncajon:20140322190111p:image

起動確認(GUI)

当然「ターミナル」からの起動も出来るよ。Rと入力してエンター。

mba:~ 7010oncajon$ R

簡単な解析

データ

こんなデータを用意する。(body_sample.csv)

参考文献のサポートページ

body_sample.csv

id,gender,height,weight
1,M,157.67,64.82
2,M,178.76,72.38
3,M,161.95,64.52
4,M,162.26,63.35
5,M,167.95,68.76
6,M,165.59,66.4
7,M,163.66,64.22
8,M,171.78,67.76
9,M,161.11,60.76
10,M,160.97,60.64

...

パッケージ(ggplot2)の利用

グラフの描画にggplot2を利用する。よく分かってないけど、参考文献のまま。

install.packages("ggplot2")
library(ggplot2)

データの読み込み

body.dataというオブジェクトに、csvファイルのデータを読み込ませる。

body.data <- read.csv("body_sample.csv", header=T,stringsAsFactors=F)

header=Tは1行目をヘッダーと見なす。

stringsAsFactors=Fは文字列がFactorだとみなされないようにする。(ココらへん意味わかってない)

身長データのヒストグラム

何はともあれ可視化をしてみる。

ggplot(body.data, aes(x=height, fill=gender)) + geom_histogram() + theme_bw(16) + ylab("count")

f:id:naotooncajon:20140322190107p:image

身長と体重の散布図+回帰直線

さらにそれっぽいことをやる。

ggplot(body.data, aes(x=height, y=weight, col=gender)) + geom_point() + theme_bw(16) + geom_smooth(method = "lm")

f:id:naotooncajon:20140322190114p:image

身長と体重の相関関係

回帰直線より、身長と体重には相関関係をみることができる。(そりゃそうだろうけど。。。)

相関係数の算出

相関係数Rは、以下の用に計算する

> cor(body.data$height, body.data$weight)
[1] 0.8928748

相関係数とは

相関係数R相関関係
0.7 〜 1.0 強い相関あり
0.4 〜 0.7 やや相関あり
0.0 〜 0.2 ほとんど相関なし

以上。