教科書を参照しながら学びましょう。
データの記述と要約
§1.1 変数の分類
変数
調査・観察される項目のこと。
例として、身長、体重、サイコロの目などがある。 変数は「量的変数」、「質的変数」に分けることができる。 さらに、量的変数は「連続変数」、「離散変数」に分けられる。
量的変数
変数が数値で表される変数のこと。
・要約統計量を算出することができる。
・さらに、身長、体重のような「連続変数」とサイコロの目のような「離散変数」に分類される。
質的変数(カテゴリ変数)
数値でなく、カテゴリで示される変数のこと。
・例として、性別、成績評価(秀優良可)などがある。
§1.2 量的データの分布
データを解析する際にはデータの可視化が大切である。データの可視化をすることでデータの挙動を大まかに把握することができる。
量的変数の可視化 −→ ヒストグラム、箱ひげ図、幹葉図、ローレンツ曲線
質的変数の可視化 −→ 棒グラフ、円グラフ
ヒストグラム
ある一つの量的変数を可視化するための代表的方法である。度数分布表をグラフにしたもの。
ヒストグラムの作成
1. 変数を適切な区間(「階級」と呼ばれる)で分割する。
2. 階級に含まれる変数の数(「度数」と呼ばれる)を数え上げる。
3. 横軸が階級、縦軸が度数とし、柱状グラフを作成する。
幹葉図
ヒストグラムと同様の効果をもつグラフ
・比較的サンプルサイズが小さい場合に用いる。
§1.3 分布の特徴を表す指標
平均値
中央値
観測値を小さい順に並べて真ん中に位置する観測値
最頻値
最も多く観測された観測値
・平均値、中央値、最頻値のみっつを「代表値」と呼ぶ。
・平均は全データの重心である
・分布が左右対称(例えば正規分布)の場合には 平均 = 中央値 = 最頻値 となる。
・右に裾が長い分布の場合には、一般に 最頻値 < 中央値 < 平均 となる。
偏差
分散
不偏分散
・分散と標準偏差はデータの散らばりを表す。
・不偏分散を単に分散と呼ぶことがある。分散と不偏分散の使い分けはのちの講義で現れる。
標準偏差
標準化得点
・平均と標準偏差を用い、各データがどの程度平均から離れているかを標準偏差をもって測る。
・例として、偏差値を算出する際に用いられる。
変動係数
・データのばらつきを相対評価するための値。
・単位が異なるものを比較するときに用いる。
§1.3 の練習問題
次のデータの平均値と不偏分散、中央値を求めよう。
自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。
§1.4 量的データの要約とグラフの表現
教科書の該当箇所を一読しよう。
§1.5 質的データの度数分布とグラフの表現
教科書の該当箇所を一読しよう。
§1.6 2変数データの記述と要約
教科書の該当箇所を読んで、散布図、正の相関、負の相関を学ぶ。
共分散
もしくは
相関係数
・相関関係と因果関係は異なる概念である。
・相関係数は −1 ∼ 1 の間の値をとる。
回帰直線はのちの授業で学ぶ。教科書の該当箇所を読んで、クロス集計表を理解しよう。
§1.6 の練習問題
5個のデータ
- 横軸に
、縦軸に をとり、このデータの散布図を描こう。 - それぞれの不偏分散、共分散、相関関係を求めよう。
自分で解答を作ってから、下の「解答例」をクリックもしくはタップしてください。
§1.7 時系列データの記述と簡単な分析
教科書の該当箇所を読もう。(このセクションは勉強しなくても良い?)