理学部・農学部 理系基礎科目統計科目 第一回・第二回授業資料

教科書を参照しながら学びましょう。

データの記述と要約

§1.1 変数の分類

変数

調査・観察される項目のこと。

例として、身長、体重、サイコロの目などがある。 変数は「量的変数」、「質的変数」に分けることができる。 さらに、量的変数は「連続変数」、「離散変数」に分けられる。

量的変数

変数が数値で表される変数のこと。

・要約統計量を算出することができる。
・さらに、身長、体重のような「連続変数」とサイコロの目のような「離散変数」に分類される。

質的変数(カテゴリ変数)

数値でなく、カテゴリで示される変数のこと。

・例として、性別、成績評価(秀優良可)などがある。

§1.2 量的データの分布

データを解析する際にはデータの可視化が大切である。データの可視化をすることでデータの挙動を大まかに把握することができる。

量的変数の可視化 −→ ヒストグラム、箱ひげ図、幹葉図、ローレンツ曲線

質的変数の可視化 −→ 棒グラフ、円グラフ

ヒストグラム

ある一つの量的変数を可視化するための代表的方法である。度数分布表をグラフにしたもの。

ヒストグラムの作成
1. 変数を適切な区間(「階級」と呼ばれる)で分割する。
2. 階級に含まれる変数の数(「度数」と呼ばれる)を数え上げる。
3. 横軸が階級、縦軸が度数とし、柱状グラフを作成する。

幹葉図

ヒストグラムと同様の効果をもつグラフ

・比較的サンプルサイズが小さい場合に用いる。

§1.3 分布の特徴を表す指標

$n$ 個の観測値 $x_1$, $x_2$, … , $x_n$ の特徴を表すいくつかの値を以下のように定義する。

平均値

$
\displaystyle \bar x = \dfrac 1 n ( x_1 + x_2 + \cdots + x_n ) = \dfrac 1 n \sum_{i=1}^n x_i
$

中央値

観測値を小さい順に並べて真ん中に位置する観測値

最頻値

最も多く観測された観測値

・平均値、中央値、最頻値のみっつを「代表値」と呼ぶ。
・平均は全データの重心である
・分布が左右対称(例えば正規分布)の場合には 平均 = 中央値 = 最頻値 となる。
・右に裾が長い分布の場合には、一般に 最頻値 < 中央値 < 平均 となる。

偏差

$x_i$ の偏差
$x_i \, – \, \bar x$

分散

$
\displaystyle s^2 = \dfrac 1 n \sum_{i=1}^n \left( x_i \, – \, \bar x \right)^2
$

不偏分散

$
\displaystyle s^2 = \dfrac 1 {n-1} \sum_{i=1}^n \left( x_i \, – \, \bar x \right)^2
$

・分散と標準偏差はデータの散らばりを表す。
・不偏分散を単に分散と呼ぶことがある。分散と不偏分散の使い分けはのちの講義で現れる。

標準偏差

$
\displaystyle s = \sqrt{s^2}
$

標準化得点

$x_i$ の標準化得点

$
\displaystyle z_i = \dfrac{x_i \, – \, \bar x} s
$

・平均と標準偏差を用い、各データがどの程度平均から離れているかを標準偏差をもって測る。
・例として、偏差値を算出する際に用いられる。

変動係数

$
変動係数 = \dfrac{s}{\bar x}
$

・データのばらつきを相対評価するための値。
・単位が異なるものを比較するときに用いる。

§1.3 の練習問題

次のデータの平均値と不偏分散、中央値を求めよう。

$80, 40, 50, 56, 65, 90, 85, 55, 75, 70, 60$

自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。

解答例

$
\displaystyle \bar x = \dfrac 1 {11} ( 80+ 40+ 50+ 56+ 65+ 90+ 85+ 55+ 75+ 70+ 60) = 66
$

よって、偏差を並べあげると

$14, -24, -16, -10, -1, 24, 19, -11, 9, 4, -6$

となる。

$
\displaystyle s^2 = \dfrac 1 {10} \left(
14^2 + (-24)^2 + (-16)^2 + (-10)^2 + (-1)^2 + 24^2 + 19^2 + (-11)^2 + 9^2 + 4^2 + (-6)^2
\right) = \text{各自計算してください}
$

データを小さい順に並べ上げると

$40, 50, 55, 56, 60, 65, 70, 75, 80, 85, 90$

となるので、中央値は $65$ である。

§1.4 量的データの要約とグラフの表現

教科書の該当箇所を一読しよう。

§1.5 質的データの度数分布とグラフの表現

教科書の該当箇所を一読しよう。

§1.6 2変数データの記述と要約

教科書の該当箇所を読んで、散布図正の相関負の相関を学ぶ。

$n$ 個の観測値が $(x_1,y_1)$, $(x_2,y_2)$, … , $(x_n,y_n)$ であるとする。このとき、$x_1$, $x_2$, … , $x_n$ の平均を $\bar x$、標準偏差を $s_x$ と書き、$y_1$, $y_2$, … , $y_n$ の平均を $\bar y$、標準偏差を $s_y$ と書く。

共分散

$
\displaystyle s_{xy} = \dfrac 1 n \sum_{i=1}^n \left( x_i \, – \, \bar x \right)\left( y_i \, – \, \bar y \right)
$

もしくは

$
\displaystyle s_{xy} = \dfrac 1 {n-1} \sum_{i=1}^n \left( x_i \, – \, \bar x \right)\left( y_i \, – \, \bar y \right)
$

相関係数

$
\displaystyle r_{xy} = \dfrac {s_{xy}} {s_x s_y}
$

・相関関係と因果関係は異なる概念である。
・相関係数は −1 ∼ 1 の間の値をとる。

回帰直線はのちの授業で学ぶ。教科書の該当箇所を読んで、クロス集計表を理解しよう。

§1.6 の練習問題

5個のデータ $(5,9)$, $(1,1)$, $(4,3)$, $(7,12)$, $(3,5)$ について、次の問いに答えよう。

  1. 横軸に$x$、縦軸に$y$をとり、このデータの散布図を描こう。
  2. それぞれの不偏分散、共分散、相関関係を求めよう。

自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。

解答例
散布図は省略します。

$
\displaystyle \bar x = \dfrac 1 5 (5+1+4+7+3) = 4
$

$
\displaystyle \bar y = \dfrac 1 5 (9+1+3+12+5) = 6
$

であるから、$x_i$ と $y_i$ の偏差の組は

$(1,3), (-3,-5), (0,-3), (3,6), (-1,-1)$

となる。よって、

$
\displaystyle s_x = \dfrac 1 4 \left( 1^2 + (-3)^2 + 0^2 + 3^2 + (-1)^2 \right) = 5
$

$
\displaystyle s_y = \dfrac 1 4 \left( 3^2 + (-5)^2 + (-3)^2 + 6^2 + (-1)^2 \right) = 20
$

$
\displaystyle s_{xy} = \dfrac 1 4 \left( 1\cdot 3 + (-3)\cdot (-5) + 0\cdot (-3) + 3\cdot 6 + (-1)\cdot (-1)\right) = 9.25
$

$
\displaystyle r_{xy} = \dfrac {s_{xy}} {s_x s_y} = \dfrac {9.25} {5\cdot 20} = 0.925
$

§1.7 時系列データの記述と簡単な分析

教科書の該当箇所を読もう。(このセクションは勉強しなくても良い?)