社会人のためのデータサイエンス入門第2週後半

１週目に比べて急に難易度が上がる。ディスカッションでもよく分からないという声がちらほらある。

標準誤差率

一般的な企業だと、必ずPOSを通るので100%のトランザクションデータが取れる（はず。実際は謎決済があったりする）。なので標準誤差率についてはあまり触ってこなかったので勉強になった。

標本調査（母集団から一部の標本を抽出して行う調査）を行って母集団値を推定する際に生じる、標本値と母集団値との差を標本誤差といいます。この誤差がどの範囲の大きさで生じるかは、確率論に基づいて一定の式で計算することができます。標本誤差は抽出数を多くするほど小さくなり、また母集団内での個別データのバラツキが小さいほど小さくなります。
https://www.intage.co.jp/glossary/041/

標本調査を行う際に問題となるのが、サンプルの特徴が母集団の特徴とどれだけ違っているかとなる。

しかし「標本誤差」＝「標本値」ー「母集団値」としても母集団の特徴が未知なので、そもそもその値を出すことができない。

しかし手元にあるデータでしか判断できないケースがほとんどなので、一体誤差の範囲はどのくらいに及ぶのか、という範囲を示すことで少し安心しようとするのが標準誤差の「信頼区間」となる。

信頼区間はちょっと誤解していた部分もあったので、また時間をとって詳しく調べることにする。

標準誤差率

NYAGOLANTE

関連投稿