tohokuaikiのチラシの裏

技術的ネタとか。

Confluenceのプラグイン開発を承ります。ご連絡はこちらのホームページからお願いいたします。

データのどれだけの個数を調べれば、だいたい「まぁ、いいかな」って言えるか。

食品総合研究所 :食品のサンプリングに関するガイダンス〜品質情報解析ユニット から。

10000個、製品があってこの中の不良品を見つけられる確率の話。1個でも不良品があってその存在が致命的な場合は全品検査になる。 全品検査が大変な時は、サンプルN個だけを抜き出して検査をしたいが、どれだけのNを検査すればいいのかの妥当性を知りたい。

ポイントは、見逃し率。これをできるだけ下げたいが、Nが多すぎても面倒なのでその経済効率の最大リターンポイントを見つける。

ただし、1個の検査をするときにその検査による判定は100%の確からしさで判定できるものとする。

用語の設定

  • 不良品率:全体の何%が不良品かの確率。
  • 見逃し率:サンプルN個検査をした際に、どれくらいの確率でそれが「不良品が存在した」と発見できるかの確率。

計算方法

1個の製品をチェックする際に、それが不良品でありかつ不良品であると判定できる確率を計算する。パーセンテージで考えると100掛けたり割ったり面倒なので、確率は少数でやる。

合格品発見確率 = 1 - 不良品率
N個全てが合格品である確率 = (1 - 不良品率)^N (^はNの乗数を意味する)
N個のうち1個でも不良品が見つかる確率 = 1 - (1 - 不良品率)^N 

この「N個のうち1個でも不良品が見つかる確率」というのは、「不良品を発見できる確率」とも言えます。つまり、「1-見逃し率」

1 - 見逃し率 =  1 - (1 - 不良品率)^N 

となる。

Nについて解くと、

N = log(見逃し率) ÷ log(1 - 不良品率)

となる。