偽陽性と偽陰性からデータを見極めろ!
高橋政治経済科学塾講義2020年(令和2年)2月号2回目特集 感染症対策は統計で見よ、考えよ!デマはデータで見破れPart1
高橋政治経済科学塾講義2020年(令和2年)2月号2回目特集 感染症対策は統計で見よ、考えよ!デマはデータで見破れ・Part2- 五本木クリニック院長ブログ
- www.cresco.co.jp
- bellcurve.jp
- 陽性的中率 / 陽性的中度 | 統計用語集 | 統計WEB
- 陰性的中率 / 陰性的中度 | 統計用語集 | 統計WEB
- 検査前確率 | 統計用語集 | 統計WEB
- 感度 | 統計用語集 | 統計WEB
- 特異度 | 統計用語集 | 統計WEB
- 真陰性率 | 統計用語集 | 統計WEB
- 真陽性率 | 統計用語集 | 統計WEB
- 検査前オッズ | 統計用語集 | 統計WEB
- 検査後オッズ | 統計用語集 | 統計WEB
- 陽性尤度比 | 統計用語集 | 統計WEB
- 陰性尤度比 | 統計用語集 | 統計WEB
- オッズ | 統計用語集 | 統計WEB
- 偽陽性率 | 統計用語集 | 統計WEB
- 偽陰性率 | 統計用語集 | 統計WEB
- FNF | 統計用語集 | 統計WEB
過去に kusoimox.hatenablog.jp kusoimox.hatenablog.jp っという記事を書き,そこで 偽陰性と偽陽性 についても簡単にまとめました.
以上の記事はテキストマイニング系での話でしたが, 内容的には医療検査など他の分野でも同じかと思われます. また,ここでの話というのは統計学というほど難しいものではありません.
情報検索では,母集団がこの世の全ての文書で検索キーワード(クエリ)が含まれている文書を正解としています. 医療の検査においては,母集団が全人類もしくは日本国民全員で感染している人を正解(陽性)としています. つまり,
- 文書集合検査をした人の集合=標本空間
- 適合文書検査結果が陽性である人の集合
- 正解文書感染者の集合
- 正解適合文書(真陽性)検査結果が陽性でかつ感染者の集合
- 真陰性検査結果が陰性でかつ非感染者の集合
- 検索ノイズ(偽陽性)検査間違い.非感染者なのに陽性判定された人の集合.
- 検索漏れ(偽陰性)検査漏れ.感染者なのに陰性判定された人の集合.
っというわけです. 図に示すと, であり,以上をクロス集計表形式で表すと,
正解(集合) | 不正解(集合) | ||
---|---|---|---|
システム・マシンの 判定が陽性(集合) |
真陽性 | 偽陽性 | 集合に属する 要素の数 |
システム・マシンの 判定が陰性(集合) |
偽陰性 | 真陰性 | 集合に属する 要素の数 |
集合に属する 要素の数 |
集合に属する 要素の数 |
全体集合に属する 要素の数 |
となります. (Wikipediaに似たような 表がありました.そちらの表には感度と特異度との対応も書いてあります. このWikiのページは正確度と精度についての記事で, この二つの違いを説明する的の例もまとめられています.)
以上の は実験や検査で分かった数値です. この数値を用いて,
という指標が求められます. 以上の指標からデータの特徴を判断で,そこから未知のデータに対してもある程度の予測ができるようになります.
検査人数を任氏の定数とし,有病率0.2,感度0.7,特異度0.9として陽性的中率(精度)を求めまてみましょう. 有病率0.2,感度0.7,特異度0.9から
と式変形して分かり,これをクロス集計表で整理すると,
正解(集合) | 不正解(集合) | ||
---|---|---|---|
システム・マシンの 判定が陽性(集合) |
0.14n | ||
システム・マシンの 判定が陰性(集合) |
0.72n | ||
0.2n | 0.8n | n |
分かっているトコを差し引きして,空欄を埋めると,
正解(集合) | 不正解(集合) | ||
---|---|---|---|
システム・マシンの 判定が陽性(集合) |
0.14n | 0.08n | 0.22n |
システム・マシンの 判定が陰性(集合) |
0.06n | 0.72n | 0.78n |
0.2n | 0.8n | n |
と整理でき,陽性的中率や他の指標も求めることができます.
ある程度情報が分かっていれば,式変形等でその他の指標を求めることができます.
検査マシンには分解能(どれだけ細かく精密に測定できるか<=間違ってたらスミマセン)というものがあり, それには限界があります. 以上の指標においてその数値を考慮することはないですが, 影響は少なからずあるでしょう. ですので,指標に関して100%というものがでることはありません. そのために検査では必ず偽陽性が出てしまうため,実験でない限り,むやみやたらと医療検査を行うべきではないということになりますね~
追記:(統計的)確率として考えよう
以上で割合や比,指標は統計的確率であり(合ってるかな?),以下の動画では確率の問題として 検査について考えています.
統計的確率は,例えばN回サイコロを振った時(一般化すると=>試行の回数がN)にサイコロの眼が1となる回数はn (一般化すると=>事象Aが起こる回数はn)であったときの確率はn/Nというであるというものです. これに対するのが数学的確率というもので, 違いはあるのですが, 数学屋でなければそんなに意識することもないのかな~と思います. そもそも私がよく分からんので,説明できませぬ...
むやみな検査を行ってはいけない理由、数学的に説明します【条件付き確率】
確率について以下の本が初学者向けとして分かりやすいかな~?
確率は面積で神様視点で見るといった確率の概念的理解は”プログラミングのための確率統計”に書かれています.
動画でいう表,裏に関して
ということであり,クロス統計表と一致します.
以上(有病率0.2,感度0.7,特異度0.9として陽性的中率(精度)を求める例題)ではクロス統計表を埋めることで解を得ましたが, 確率を用いて考えてみましょう. とはいえ,やってることは本質的には同じですね~ あと,以上の動画とは辿るルートが違うと思われますので,別物として読んでください.
確率は面積であり,二つの事象A,Bについて考える場合はの正方形となります.
ですので,大きさを1にする処理(=正規化)というものを行います.
実は以上の例では正規化をほぼしているようなものでして,を消すと正規化したことと同じになります.
このとき,正規化によって,それぞれの値は統計的確率を示すことになります.
確率という正方形の一辺の大きさは1であることから,その正方形の面積はとなります.
これは全体数(被験者数)を正規化するという事と同じです.
以上のように考えるのはちょっと違うかもしれないです... とりあえず,確率は全体の面積がとなる領域があって, それを各事象ごとに分割していくっていう方が概念としては正しいか...? まぁ,あまり深くこだわらないことですな.
以上を含め,例題における確率の関係を以下に簡単に図示しました.
字が汚くてスミマセン...
あくまでイメージとして書いたものですので,分割した位置は実際には正しいものではありません.
図において,
- 周辺確率
- 赤(横の分割線)で領域を2つに分けたところ:検査結果が陽性か否か(クロス統計表の行)
- :検査結果が陽性となる確率
- :検査結果が陰性となる確率
- 青(縦の分割線)で領域を2つに分けたところ:感染者(正解)か否か(クロス統計表の列)
- :感染している確率
- :感染していない確率
- 赤(横の分割線)で領域を2つに分けたところ:検査結果が陽性か否か(クロス統計表の行)
- 同時確率
を意味しており,求めたい確率は以上を組み合わせて求める条件付確率となります. ですので以上を簡単にではありますが理解するために, 以下で周辺確率や同時確率,条件付確率といった基本的なことについて整理しましょう. 以上でも示した参考書に該当部分があるので,詳しくはその部分を読んでください. 他にも確率統計の参考書はたくさんありますので,個人によって読みやすい物を選択して読んでくださいね~
ベイズの定理
補足
以下で事象A,Bについての確率について考えます. ここで,確率変数(確率が面積なら,それに対応する体積のこと)X,Yを以上の場合で考えると,
となります. 今回の例題の場合,確率変数は2値に見えますが, 例えば,確率変数Xがサイコロを一回降った時に出る目だとするならばと書けます. また,は○○が成立する確率を意味しています.
周辺確率と同時確率
- 周辺確率:単一の事象が成立する確率:例)
- 同時確率:複数の事象が同時に成立する確率:例)
であり,
という関係があります.
また,事象もしくは確率変数が独立である(その間の関係に独立性がある)場合,
という関係が成り立ちます. それぞれの事象もしくは確率変数が干渉・依存するような関係ではない, もしくは, 次で説明する条件付確率が
となるときを独立であるといいます.
条件付確率
ある事象Bが起きることを前提としてうえで成立するある事象Aの確率のこと.
ちなみにはgiven(ただし)と読みます.
ベイズの定理(公式)
以上の条件付確率に関して左辺を
と変形させて得られる式がベイズの定理というわけです.(分母を式変形することも可能)
条件付確率の例題:火曜日生まれの男の子(女の子)
2人の子ども問題がめちゃくちゃ良問な件【条件付き確率】
sist8.com
togetter.com
例題を整理しましょう. 例題として以下の
- 二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率は?
- 二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率は?
という2つの確率を求めてみましょう. 以上は条件付確率なので,同時確率と周辺確率を題意より求めることで求められるようになります.
以上の確率を求めるのに,
- 確率変数子供Aが男か女か
- 確率変数子供Bが男か女か
- 確率変数子供Aが何曜日に生まれたか
- 確率変数子供Bが何曜日に生まれたか
と確率変数を定めます. 二人の子供を動画にあるように,子供Aと子供Bと区別して考えます. 以上の確率変数は独立であるので,
が使えます.そして,題意より,
となります.
二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率
この確率 (条件付き確率に関する2,3の 注意 の問 題1に相当) は確率変数XとYの同時確率と周辺確率から求まる条件付確率であるので, 確率変数XとYの確率ついてクロス統計表に整理しましょう.
以上の表で分かったも同然! では,二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率を求めましょう.
二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率
”二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率”というのは,
ということになります.
その1
まず,について考えましょう.
その2
次に,について考えましょう. この確率はとの同時確率です.
は二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率を求める際に求まっており, と分かっています.
次に,を考えるのに,確率変数ZとWの確率をクロス統計表にして関係を整理しましょう. 表の各マス(もしくはセル)は同時確率になっていますが,確率変数の独立性より積で求められるとともに, 全て同じ確率になっています.
以上の表において,”どちらかが火曜日生まれの子供”を満たすために選択されるマスというのは13個あります. その13個のマスの確率を全て足すとが求まります. まぁ,以上の表の場合,選択した13個のマスの確率は全て同じなので,単純に13をかけてやれば が求まりますので,
では,以上のことより,は
と求まります.
以上より問題を解く
以上より解くための道具が整ったので,確率を求めましょう.
ということで確率が求まりました.
二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率と二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率の違い
条件が加わるだけで確率が大きく変わりましたね.
しかし,解き方は基本的には同じですね. 考えるのに条件が多すぎる場合は,条件を2つぐらいに絞ったうえでクロス統計表に整理すると分かりやすくなりましたね. ということでクロス統計表は便利!
例題を確率から解く
では,有病率0.2,感度0.7,特異度0.9として,陽性的中率(検査で陽性であるとき,感染者である確率)を求めましょう.
事象はシステム・マシンの判定が陽性
その余事象はシステム・マシンの判定が陰性,
事象は正解(感染者),
その余事象は不正解(非感染者)とします.
陽性的中率はという条件付確率であるので,陽性的中率を求めるのに必要な数値は であり,まず,コレを求めるのに 題意より式を整理します.
となるので,
と求められ,以上より陽性的中率は
と求められ,クロス統計表を使って求めたやり方と同じ解が得られました.
動画の例題も改めて解いてみる※電卓用意したほうがいいかも...
動画より,題意は有病率0.01%(),感度99%(),特異度98%()
のときの陽性的中率を求めよというものです.
以上と同様にして,
と求められ,以上より陽性的中率は
となりパーセント(百分率)表示にする,つまり100倍すると,約0.5%となります. このことより,正確な感染者数は検査からは1000人の中から5人以下しか把握できないという事であり, 誤判定の方が圧倒的に多いことになり, やはり,検査数を増やせばいいという事ではないことが分かりますね.