理学部・農学部 理系基礎科目統計科目 第一回・第二回授業資料

教科書を参照しながら学びましょう。

データの記述と要約

§1.1 変数の分類

変数

調査・観察される項目のこと。

例として、身長、体重、サイコロの目などがある。 変数は「量的変数」、「質的変数」に分けることができる。 さらに、量的変数は「連続変数」、「離散変数」に分けられる。

量的変数

変数が数値で表される変数のこと。

・要約統計量を算出することができる。
・さらに、身長、体重のような「連続変数」とサイコロの目のような「離散変数」に分類される。

質的変数(カテゴリ変数)

数値でなく、カテゴリで示される変数のこと。

・例として、性別、成績評価(秀優良可)などがある。

§1.2 量的データの分布

データを解析する際にはデータの可視化が大切である。データの可視化をすることでデータの挙動を大まかに把握することができる。

量的変数の可視化 −→ ヒストグラム、箱ひげ図、幹葉図、ローレンツ曲線

質的変数の可視化 −→ 棒グラフ、円グラフ

ヒストグラム

ある一つの量的変数を可視化するための代表的方法である。度数分布表をグラフにしたもの。

ヒストグラムの作成
1. 変数を適切な区間(「階級」と呼ばれる)で分割する。
2. 階級に含まれる変数の数(「度数」と呼ばれる)を数え上げる。
3. 横軸が階級、縦軸が度数とし、柱状グラフを作成する。

幹葉図

ヒストグラムと同様の効果をもつグラフ

・比較的サンプルサイズが小さい場合に用いる。

§1.3 分布の特徴を表す指標

n 個の観測値 x1, x2, … , xn の特徴を表すいくつかの値を以下のように定義する。

平均値

x¯=1n(x1+x2++xn)=1ni=1nxi

中央値

観測値を小さい順に並べて真ん中に位置する観測値

最頻値

最も多く観測された観測値

・平均値、中央値、最頻値のみっつを「代表値」と呼ぶ。
・平均は全データの重心である
・分布が左右対称(例えば正規分布)の場合には 平均 = 中央値 = 最頻値 となる。
・右に裾が長い分布の場合には、一般に 最頻値 < 中央値 < 平均 となる。

偏差

xi の偏差
xix¯

分散

s2=1ni=1n(xix¯)2

不偏分散

s2=1n1i=1n(xix¯)2

・分散と標準偏差はデータの散らばりを表す。
・不偏分散を単に分散と呼ぶことがある。分散と不偏分散の使い分けはのちの講義で現れる。

標準偏差

s=s2

標準化得点

xi の標準化得点

zi=xix¯s

・平均と標準偏差を用い、各データがどの程度平均から離れているかを標準偏差をもって測る。
・例として、偏差値を算出する際に用いられる。

変動係数

=sx¯

・データのばらつきを相対評価するための値。
・単位が異なるものを比較するときに用いる。

§1.3 の練習問題

次のデータの平均値と不偏分散、中央値を求めよう。

80,40,50,56,65,90,85,55,75,70,60

自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。

解答例

x¯=111(80+40+50+56+65+90+85+55+75+70+60)=66

よって、偏差を並べあげると

14,24,16,10,1,24,19,11,9,4,6

となる。

s2=110(142+(24)2+(16)2+(10)2+(1)2+242+192+(11)2+92+42+(6)2)=各自計算してください

データを小さい順に並べ上げると

40,50,55,56,60,65,70,75,80,85,90

となるので、中央値は 65 である。

§1.4 量的データの要約とグラフの表現

教科書の該当箇所を一読しよう。

§1.5 質的データの度数分布とグラフの表現

教科書の該当箇所を一読しよう。

§1.6 2変数データの記述と要約

教科書の該当箇所を読んで、散布図正の相関負の相関を学ぶ。

n 個の観測値が (x1,y1), (x2,y2), … , (xn,yn) であるとする。このとき、x1, x2, … , xn の平均を x¯、標準偏差を sx と書き、y1, y2, … , yn の平均を y¯、標準偏差を sy と書く。

共分散

sxy=1ni=1n(xix¯)(yiy¯)

もしくは

sxy=1n1i=1n(xix¯)(yiy¯)

相関係数

rxy=sxysxsy

・相関関係と因果関係は異なる概念である。
・相関係数は −1 ∼ 1 の間の値をとる。

回帰直線はのちの授業で学ぶ。教科書の該当箇所を読んで、クロス集計表を理解しよう。

§1.6 の練習問題

5個のデータ (5,9), (1,1), (4,3), (7,12), (3,5) について、次の問いに答えよう。

  1. 横軸にx、縦軸にyをとり、このデータの散布図を描こう。
  2. それぞれの不偏分散、共分散、相関関係を求めよう。

自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。

解答例
散布図は省略します。

x¯=15(5+1+4+7+3)=4

y¯=15(9+1+3+12+5)=6

であるから、xiyi の偏差の組は

(1,3),(3,5),(0,3),(3,6),(1,1)

となる。よって、

sx=14(12+(3)2+02+32+(1)2)=5

sy=14(32+(5)2+(3)2+62+(1)2)=20

sxy=14(13+(3)(5)+0(3)+36+(1)(1))=9.25

rxy=sxysxsy=9.25520=0.925

§1.7 時系列データの記述と簡単な分析

教科書の該当箇所を読もう。(このセクションは勉強しなくても良い?)