教科書を参照しながら学びましょう。
データの記述と要約
§1.1 変数の分類
変数
調査・観察される項目のこと。
例として、身長、体重、サイコロの目などがある。 変数は「量的変数」、「質的変数」に分けることができる。 さらに、量的変数は「連続変数」、「離散変数」に分けられる。
量的変数
変数が数値で表される変数のこと。
・要約統計量を算出することができる。
・さらに、身長、体重のような「連続変数」とサイコロの目のような「離散変数」に分類される。
質的変数(カテゴリ変数)
数値でなく、カテゴリで示される変数のこと。
・例として、性別、成績評価(秀優良可)などがある。
§1.2 量的データの分布
データを解析する際にはデータの可視化が大切である。データの可視化をすることでデータの挙動を大まかに把握することができる。
量的変数の可視化 −→ ヒストグラム、箱ひげ図、幹葉図、ローレンツ曲線
質的変数の可視化 −→ 棒グラフ、円グラフ
ヒストグラム
ある一つの量的変数を可視化するための代表的方法である。度数分布表をグラフにしたもの。
ヒストグラムの作成
1. 変数を適切な区間(「階級」と呼ばれる)で分割する。
2. 階級に含まれる変数の数(「度数」と呼ばれる)を数え上げる。
3. 横軸が階級、縦軸が度数とし、柱状グラフを作成する。
幹葉図
ヒストグラムと同様の効果をもつグラフ
・比較的サンプルサイズが小さい場合に用いる。
§1.3 分布の特徴を表す指標
$n$ 個の観測値 $x_1$, $x_2$, … , $x_n$ の特徴を表すいくつかの値を以下のように定義する。
平均値
$
\displaystyle \bar x = \dfrac 1 n ( x_1 + x_2 + \cdots + x_n ) = \dfrac 1 n \sum_{i=1}^n x_i
$
中央値
観測値を小さい順に並べて真ん中に位置する観測値
最頻値
最も多く観測された観測値
・平均値、中央値、最頻値のみっつを「代表値」と呼ぶ。
・平均は全データの重心である
・分布が左右対称(例えば正規分布)の場合には 平均 = 中央値 = 最頻値 となる。
・右に裾が長い分布の場合には、一般に 最頻値 < 中央値 < 平均 となる。
偏差
$x_i$ の偏差
$x_i \, – \, \bar x$
分散
$
\displaystyle s^2 = \dfrac 1 n \sum_{i=1}^n \left( x_i \, – \, \bar x \right)^2
$
不偏分散
$
\displaystyle s^2 = \dfrac 1 {n-1} \sum_{i=1}^n \left( x_i \, – \, \bar x \right)^2
$
・分散と標準偏差はデータの散らばりを表す。
・不偏分散を単に分散と呼ぶことがある。分散と不偏分散の使い分けはのちの講義で現れる。
標準偏差
$
\displaystyle s = \sqrt{s^2}
$
標準化得点
$x_i$ の標準化得点
$
\displaystyle z_i = \dfrac{x_i \, – \, \bar x} s
$
・平均と標準偏差を用い、各データがどの程度平均から離れているかを標準偏差をもって測る。
・例として、偏差値を算出する際に用いられる。
変動係数
$
変動係数 = \dfrac{s}{\bar x}
$
・データのばらつきを相対評価するための値。
・単位が異なるものを比較するときに用いる。
§1.3 の練習問題
次のデータの平均値と不偏分散、中央値を求めよう。
$80, 40, 50, 56, 65, 90, 85, 55, 75, 70, 60$
自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。
§1.4 量的データの要約とグラフの表現
教科書の該当箇所を一読しよう。
§1.5 質的データの度数分布とグラフの表現
教科書の該当箇所を一読しよう。
§1.6 2変数データの記述と要約
教科書の該当箇所を読んで、散布図、正の相関、負の相関を学ぶ。
$n$ 個の観測値が $(x_1,y_1)$, $(x_2,y_2)$, … , $(x_n,y_n)$ であるとする。このとき、$x_1$, $x_2$, … , $x_n$ の平均を $\bar x$、標準偏差を $s_x$ と書き、$y_1$, $y_2$, … , $y_n$ の平均を $\bar y$、標準偏差を $s_y$ と書く。
共分散
$
\displaystyle s_{xy} = \dfrac 1 n \sum_{i=1}^n \left( x_i \, – \, \bar x \right)\left( y_i \, – \, \bar y \right)
$
もしくは
$
\displaystyle s_{xy} = \dfrac 1 {n-1} \sum_{i=1}^n \left( x_i \, – \, \bar x \right)\left( y_i \, – \, \bar y \right)
$
相関係数
$
\displaystyle r_{xy} = \dfrac {s_{xy}} {s_x s_y}
$
・相関関係と因果関係は異なる概念である。
・相関係数は −1 ∼ 1 の間の値をとる。
回帰直線はのちの授業で学ぶ。教科書の該当箇所を読んで、クロス集計表を理解しよう。
§1.6 の練習問題
5個のデータ $(5,9)$, $(1,1)$, $(4,3)$, $(7,12)$, $(3,5)$ について、次の問いに答えよう。
- 横軸に$x$、縦軸に$y$をとり、このデータの散布図を描こう。
- それぞれの不偏分散、共分散、相関関係を求めよう。
自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。
§1.7 時系列データの記述と簡単な分析
教科書の該当箇所を読もう。(このセクションは勉強しなくても良い?)