Open mizukihiraishi opened 2 years ago
https://bellcurve.jp/statistics/course/#step1
Step1. 基礎編
1-1 ギリシャ文字
よく使われるギリシャ文字 ・Δ δ デルタ 変化量(大文字)、差、変化量 ・Ε ε イプシロン 回帰モデルの誤差項 ・Η η イータ、エータ 相関比(η^2) ・Θ θ シータ 母数、定数、推定値 ・Λ λ ラムダ ウィルクスのラムダ(大文字)、グッドマン=クラスカルのラムダ、ポアソン分布のパラメータ、固有値 ・Μ μ ミュー 母平均 ・Ν ν ニュー 自由度 ・Π π パイ 総乗(大文字)、円周率 ・Ρ ρ ロー 相関係数 ・Σ σ シグマ 総和(大文字)、母分散(σ^2)、母標準偏差、分散共分散行列 ・Φ φ ファイ、ファー 自由度、ファイ係数 ・Ω ω オメガ 根元事象、全事象 文字の上に「^」(ハットまたはカレットと読みます)が付いている場合、「推定量」であることを意味する
1-4 変数の尺度
統計学では変数を4つの尺度に分けることがある 名義尺度(質的変数) ・他と区別し分類するための名称のようなもの ・例:男女、血液型、郵便番号、住所、本籍地、所属学部、学籍番号 ・使える統計量:各ケースの数、計数(count)、頻度(frequency)、最頻値、連関係数 順序尺度(質的変数) ・順序や大小には意味があるが間隔には意味がないもの。例えば、1位+2位≠3位のように、足し算引き算ができないもの ・例:1位 / 2位 / 3位…、1. 好き / 2. ふつう / 3. 嫌い、検定1級 / 2級 / 3級 / 4級、がんのステージ分類におけるステージI / II / III / IV ・使える統計量:中央値、パーセンタイル、順位相関係数 間隔尺度(量的変数) ・目盛が等間隔になっているもので、その間隔に意味があるもの。例えば、気温が19℃から1℃上昇すると20℃になるとは言えるが、10℃から20℃に上昇したとき、2倍になったとは言えないもの 例:気温(摂氏)、西暦、テストの点数 使える統計量:平均値、標準偏差、順位相関係数、積率相関係数(いわゆる相関係数のこと) 比例尺度(量的変数) ・0が原点であり、間隔と比率に意味があるもの。例えば、身長が150cmから30cm伸びると180cmになると言えるし、1.2倍になったとも言えるもの ・例:身長、速度、睡眠時間、値段、給料、幅跳びの記録、血圧 ・使える統計量:変動係数 名義<順序<間隔<比例という上下関係があり、上位の尺度は下位の尺度の統計量を用いることができる
1-5 説明変数と目的変数
説明変数・・・何かの原因となっている変数(例:おもりの重さ) 別の表現:説明変数(explanatory variable)、予測変数(predictor variable)、 独立変数(independent variable) 目的変数・・・その原因を受けて発生した結果となっている変数(例:ばねの伸びの長さ) 別の表現:目的変数、応答変数、反応変数(response variable)、結果変数(outcome variable)、従属変数(dependent variable)、基準変数(criterion variable)
2-2 ヒストグラム
棒グラフとヒストグラムの使い分け 棒グラフ・・・質的データの可視化(定期試験の科目別平均点) ヒストグラム・・・量的データの可視化(度数分布票を基にするため)
2-3 階級値の決め方
スタージェスの公式 度数分布票やヒストグラムの階級の数の目安となる公式 Nをサンプルサイズ、kを階級数とすると以下の式で求められる k = log2N + 1 階級の幅はデータの最小値から最大値をkで割って求める
2-4 ローレンツ曲線
偏り(不均衡さ)を表すための曲線 所得や人口の累積相対値を縦軸、世帯数や地域数の累積相対度数を横軸にとってグラフに表したもの
2-5 ジニ係数
ジニ係数・・・完全平等線(グラフの(0, 0)と(1, 1)を結んだ線)とローレンツ曲線との間の面積を2倍した値 ジニ係数は0から1までの値をとり、1に近いほど偏りが大きく、0に近いほど偏りが小さい
2-6 ジニ係数の求め方
0.5(完全平等線と軸の三角形の面積)からローレンツ曲線を構成している台形の面積を引いて2倍する
3-1 平均・中央値・モード
平均・・・すべてのデータの値を足してデータの数で割ったもの、データが度数分布表の場合:Σ階級値×度数 / Σ度数 中央値(Median)・・・データを大きさ順に並べた時の真ん中の値(データ数が奇数の場合1つ、偶数の場合2つを平均した値) モード(最頻値)・・・もっともデータ数の多い値、度数分布表の場合は最も度数の大きい階級値 モードが2つ以上になることもある、ただしすべてのデータ数が1の場合モードはなし
3-3 平均・中央値・モードの使い方
もっとも頻度の高い層・・・ボリュームゾーン ヒストグラムで分布の山が2つ以上できるもの・・・多峰性(multimodal) 分布の山が一つのもの・・・単峰性(unimodal)
3-4 いろいろな平均
算術平均・・・データの値を全て足してデータの数で割ったもの(一般的な平均) 幾何平均・・・n√x1 x2 ・・・ * xn 幾何平均は比率や割合で変化するものに対してその平均を求めるときに使う(例:価格が20%、10%、15%と上昇したときに年平均何%上昇したかを算出する) 調和平均・・・時速の平均などを求めるときに使う 刈込み平均(トリム平均)・・・データを小さい順に並べた時、小さい側と大きい側からそれぞれ指定した個数の値を除き、残ったデータのみから求める平均
3-5 歪度と尖度
歪度・・・分布が正規分布からどれだけ歪んでいるかを表す統計量 x̄:平均値、s:標準偏差 右裾が長い、右に歪んだ、左に偏った分布の場合は正の値 左裾が長い、左に歪んだ、右に偏った分布の場合は負の値 左右対称の分布(正規分布など)の場合は0になる 尖度・・・分布が正規分布からどれだけとがっているかを表す統計量 正規分布より尖った分布、データが平均付近に集中し、分布の裾が重い時には正の値 正規分布より扁平な分布、データが平均付近から散らばり、分布の裾が軽い時には負の値をとる 正規分布の場合は0になる
5-1 データの集計
質的データ・・・データを項目ごとに数えたり合計して集計する 量的データ・・・平均値、最小値・最大値などの基本統計量を求める
6-1 分散
平均値と各データの差・・・偏差 平均値から各データの差の絶対値の平均・・・平均偏差 それぞれのデータと平均値の差を二乗したもの・・・分散(variance)
6-2 標準偏差
分散同士は比較できるが、分散と平均を四則演算したり、分散と平均を比較することはできない(分散を導出する際にデータを2乗するため、データの単位が異なる) 分散の平方根・・・標準偏差(standard deviation)、σ
6-4 変動係数
変動係数・・・標準偏差を平均値で割った値、単位の異なるデータのばらつきや平均値に対するデータとばらつきの関係を相対的に用いる CV = σ / x̄ 変動係数は比例尺度の場合に有効で、間隔尺度では参考にならない
7-1 !の使い方
!は階乗を表し、ある正の整数から1までの整数の積である。 n個の異なるものを1列に並べる場合の並べ方を計算する場合に用いられる !(階乗)はΠを使って表現されることもある
7-2 Pの使い方
nPrは順列(Permutation)を表し、異なるn個からr個を取り出した順に1列に並べる並べ方を計算する
7-3 Cの使い方
nCrは組み合わせ(combination)を表し、異なるn個のものからr個を取り出す組み合わせを計算する Pはある集団からいくつかを取り出して順番に並べることを考えるが、Cはある集団からいくつかを順番を考慮せずに取り出すことを考える
8-1 事象とは
試行・・・その結果が予想道理になるかどうか実験や観察を行い試すこと 事象・・・施行によって起こった結果 全事象・・・試行について起こりうるすべての事象をまとめたもの サイコロを一回振る場合の全事象Ω = { 1, 2, 3, 4, 5, 6 } 集合・・・複数の要素(数字、事柄、事象など)を集めたもの 分解が可能な事象を複合事象、これ以上分解することのできない事象を根源事象と呼ぶ サイコロを振って偶数の目が出る事象の集合をGとすると、 根源事象・・・2の目が出る事象、4の目が出る事象、6の目が出る事象 複合事象・・・集合G
8-3 余事象・空事象・排反事象
余事象・・・ある場合以外の事象 事象Aの余事象はA^Cと表記する 空事象・・・存在しない事象のこと(サイコロを振って7の目が出るなど) 排反事象・・・同時に起こらない事象 事象Aと事象Bを同時に満たす事象が空事象Φになる場合、事象Aと事象Bは排反事象と言える
8-4 和事象
2つの事象AとBのうちAまたはBが起こる事象を和事象と呼び、A∪Bで表される
8-5 積事象
2つの事象AとBのうちAとBが同時に起こる事象を積事象と呼び、A∩Bで表される
9-1 確率
確率(Probability)・・・物事の起こりやすさを定量的に表す指標、絶対に起こらないことは0、絶対に起こることは1とする 確率の公理 ・どのような事象においても確率は0以上1以下となる ・全事象ΩについてP(Ω)は1となる ・互いに排反な事象の和集合の確率はそれぞれの事象の確率の和となる
9-2 確率の計算(数え上げ)
ある試行において根源事象がn個存在し、そのうち事象Aに含まれる根源事象が全部でk個あるとき、事象Aが起こる確率P(A)を以下のように定義する(ラプラスの定義) 上式は、根源事象は同様に確からしいという前提のもと成り立つ 同様に確からしい・・・どの事象が起こる確率も等しい
9-4 確率の計算(余事象)
余事象の確率は、ある事象Aの確率を用いて次のように求められる
9-5 確率と独立
2つの事象が独立である場合、2つの積事象の確率は事象同士の確率の積で表すことができる
9-6 加法定理
事象Aと事象Bが互いに排反(同時に起こらない現象)である場合、次式が成り立つ 事象Aと事象Bが互いに排反でない場合、次式が成り立つ 排反である場合はP(A∩B)が0となるため、実際は上式が一般的な加法定理の式となる 事象が3つの場合、次式となる
9-7 期待値
期待値とは、1回の施行で得られうるすべての値とそれが起こる確率を足し合わせたもの n通りの結果xk(k = 1, 2, ・・・, n)があり、それぞれの起こる確率がpk(k = 1, 2, ・・・, n)であるとすると次式が成り立つ
10-1 条件付き確率とは
ある事象が起こるという条件の下で別のある事象が起こる確率を条件付き確率と呼び、 事象Bが起こるという条件の下で事象Aが起こる場合(A given B)、 この条件付き確率はP(A|B)と表され下式で求める
10-2 条件付き確率と独立
事象Aの起こる確率が事象Bの影響を受けないとき、事象Aと事象Bは独立であるという 事象Aが独立なとき、次式が成り立つ 事象Bが起こったときに事象Aは起こらないとき、互いに排反といい、次式が成り立つ
10-3 乗法定理
条件付き確率の式を変形すると乗法定理が得られる P(A|B)について P(B|A)について
10-4 ベイズの定理
https://logics-of-blue.com/%E3%83%99%E3%82%A4%E3%82%BA%E7%B5%B1%E8%A8%88%E5%AD%A6%E5%9F%BA%E7%A4%8E/ 事象Aが起こるという条件の下で、k種類の互いに排反である事象B(B1, B2, ..., Bk)が起こるとする。このとき、事象Aが起こるという条件の下で事象Biが起こる条件付き確率P(Bi|A)は次式で求められる ここで乗法定理P(A∩Bi) = P(Bi) × P(A|Bi)を上式に代入する。P(A∩Bi)・・・P(A, Bi) 上式をベイズの定理と呼ぶ P(A)はBiのそれぞれの事象B1, B2, ..., Bkにおける事象Aの部分を足し合わせたものだと考えることができる(下図参照) そのため、ベイズの定理は下式に変形できる 上式にも乗法定理P(A∩Bi) = P(Bi) × P(A|Bi)を適用すると下式が導かれる
10-5 事前確率と事後確率
下図のように事前確率は新たなデータを手に入れる前に持っているデータで予測した確率、事後確率はデータを用いて事前確率を修正した結果の確率と考えることができる 上記のデータを用いて事前確率を変化させることをベイズ更新またはベイジアンアップデートと呼び、ベイズ更新を分かりやすく示したベイズの定理の式を以下に示す
10-6 ベイズの定理の使い方(病気の罹患率)
11-1 確率変数と確率分布
確率・・・ある変数の値をとる確率が存在する変数のこと(サイコロの出目、コインの表裏など) 確率変数の値Xをサイコロの出目としたとき、下式で表される 確率変数の値Xを歪みのないコインの出目としたとき、下式で表される 確率変数が取る値とその値をとる確率の対応を確率分布と呼ぶ サイコロはそれぞれの出目に1/6という確率が対応しているので、確率分布といえ、コインもまた表裏に1/2という確率が対応しているため確率分布といえる。
11-2 離散型確率分布と確率質量変数
離散型確率変数・・・とびとびの値をとる変数で、隣り合う数字の間に値が存在しないもの(サイコロの出目など)、離散型変数Xの取りうる値(x1, x2, ...)それぞれに対応する確率pが存在する 離散型確率分布(離散型分布)・・・確率変数が離散型である場合の確率分布 下グラフは離散型確率分布のイメージで、横軸は確率変数X、縦軸はXの確立であるP(X)を表す 離散型確率変数Xがある値xをとる確率を関数f(x)とした場合、f(x)は確率質量関数と呼ばれる。 X = xとなる確率は以下のように表す 全事象が起こる確率が1であることを離散型確率分布で表すと次のようになる
11-3 連続型確率分布
連続型変数(重さ、温度など)の取りうる値に確率が存在する場合、この変数を連続型確率変数と呼ぶ 連続型確率分布、連続型分布・・・確率変数が連続型である場合の確率分布 連続型確率変数Xが取る値が6 ≧ X ≧ 1の場合、X=3となる確率 実数の場合、ある範囲の中で取りうる値は無限にあるため、以下の通り確率は0となる
11-4 確率密度と確率密度関数
連続型確率変数の場合、確率変数Xがある一点の値をとる確率は0となるため、f(X)は確率ではなく確率密度を用いる 確率密度・・・定義域内での確率変数の値の相対的な出現する確率を表す 連続型確率変数Xがある値xをとる確率密度を関数f(x)とすると、f(x)を確率密度関数と呼ぶ X = x(ある値x)となる確率密度は下式で表す 以下のような確率密度関数では、aとb近くの値が出やすいことを表し、bよりもaに近い値の方が出やすいことを表す
11-5 連続型確率分布と確率1
ある確率密度関数f(x)において、a ≤ X ≤ b(確率変数Xがとる値の範囲がa以上b以下)となる確率は次の計算によって求められる 下の図は青色の線が確率密度関数f(x)を表す 全事象が起こる確率が1であることを連続型確率分布で表すと下式になる
12-1 累積分布関数とは
累積分布関数・・・確率変数がある値以下となる確率を表す関数 累積分布関数F(x)は確率変数をX、ある値をxとすると下式で表される ・確率変数が離散型である場合 累積分布関数は確率変数Xの取る値がxとなるまでの確率pを全て足し合わせたもので、下式で表される サイコロの出る目の確率と累積分布関数をグラフに表すと下図となる ・確率変数が連続型である場合 累積分布関数は確率密度変数における-∞からxまでの面積と考えられる 確率密度関数をf(t)とすると、累積分布関数はf(t)の積分であるため下式となる 下図は2種類の確率密度関数についてそれぞれの累積分布関数を示したものである 確率密度関数f(x)は累積分布関数F(x)を微分することで求められる
12-2 累積分布関数の性質
Step0. 初級編
1-1 データのとり方、種類
1-2 グラフ1
1-3 グラフ2
2-1 クロス集計表
2-2 モザイク図
4-2 四分位数