芋の独り言

当ブログへのアクセスは当ブログのプライバシーポリシーに同意したものとみなします.

偽陽性と偽陰性~条件付確率の復習(同時確率,周辺確率,独立性)=>検査神話はアカンで!

偽陽性偽陰性からデータを見極めろ!

過去に kusoimox.hatenablog.jp kusoimox.hatenablog.jp っという記事を書き,そこで 偽陰性偽陽性 についても簡単にまとめました.

以上の記事はテキストマイニング系での話でしたが, 内容的には医療検査など他の分野でも同じかと思われます. また,ここでの話というのは統計学というほど難しいものではありません.

情報検索では,母集団がこの世の全ての文書で検索キーワード(クエリ)が含まれている文書を正解としています. 医療の検査においては,母集団が全人類もしくは日本国民全員で感染している人を正解(陽性)としています. つまり,

  • 文書集合\rightleftharpoons検査をした人の集合=標本空間
  • 適合文書\rightleftharpoons検査結果が陽性である人の集合
  • 正解文書\rightleftharpoons感染者の集合
  • 正解適合文書(真陽性)\rightleftharpoons検査結果が陽性でかつ感染者の集合
  • 真陰性\rightleftharpoons検査結果が陰性でかつ非感染者の集合
  • 検索ノイズ(偽陽性\rightleftharpoons検査間違い.非感染者なのに陽性判定された人の集合.
  • 検索漏れ(偽陰性\rightleftharpoons検査漏れ.感染者なのに陰性判定された人の集合.

っというわけです. 図に示すと,

f:id:kusoimox:20190819023242p:plain
過去記事に使ったまんまのベン図
であり,以上をクロス集計表形式で表すと,

    正解(集合B)  不正解(集合\overline{B})     
システム・マシンの
判定が陽性(集合A
真陽性t_p 偽陽性f_p 集合Aに属する
要素の数a
システム・マシンの
判定が陰性(集合\overline{A}
偽陰性f_n 真陰性t_n 集合\overline{A}に属する
要素の数\overline{a}
集合Bに属する
要素の数b
集合\overline{B}に属する
要素の数\overline{b}
全体集合Uに属する
要素の数n

となります. (Wikipediaに似たような 表がありました.そちらの表には感度と特異度との対応も書いてあります. このWikiのページは正確度と精度についての記事で, この二つの違いを説明する的の例もまとめられています.)

以上のa,\overline{a},b,\overline{b},n,f_p,f_n,t_p,t_n は実験や検査で分かった数値です. この数値を用いて,


n=a+\overline{a}=b+\overline{b}=f_p+f_n+t_p+t_n\\
a=f_p+t_p\\
\overline{a}=f_n+t_n=n-a\\
b=f_n+t_p\\
\overline{b}=f_p+t_n=n-b\\
\text{事象Aに対するオッズ}=\dfrac{a}{\overline{a}}=\dfrac{a}{n-a}=\dfrac{a/n}{1-a/n}\\
\text{事象Bに対するオッズ,検査前オッズ}=\dfrac{b}{\overline{b}}\\
\text{精度 Precision,適合率,陽性的中率}=\dfrac{t_p}{a}\\
\text{再現率 Recall,感度,真陽性率}=\dfrac{t_p}{b}\\
F_1\text{値}=\dfrac{2\times精度\times再現率}{精度+再現率}\\
\text{陰性的中率}=\dfrac{t_n}{\overline{a}}\\
\text{fallout}=\dfrac{f_p}{\overline{b}}\\
\text{特異度,真陰性率}=\dfrac{t_n}{\overline{b}}\\
\text{偽陽性率}=\dfrac{f_p}{\overline{b}}=\dfrac{f_p+t_n-t_n}{f_p+t_n}=1-特異度\\
\text{偽陰性率,FNF}=\dfrac{f_n}{b}=\dfrac{f_n+t_p-t_p}{f_n+t_p}=1-感度\\
\text{正確度 Accuracy}=\dfrac{t_p+t_n}{n}\\
\text{検査前確率,有病率}=\dfrac{b}{n}\\
\text{偶然正しい結果となる確率}=(\dfrac{a}{n}\times\dfrac{b}{n})+(\dfrac{\overline{a}}{n}\times\dfrac{\overline{b}}{n})\\
\kappa\text{値}=\dfrac{正確度-\text{偶然正しい結果となる確率}}{1-\text{偶然正しい結果となる確率}}\\
\text{検査後オッズ}=\dfrac{t_p}{f_p}\\
\text{陽性尤度比}=+LR=\dfrac{感度}{1-特異度}=\cdots=\dfrac{検査後オッズ}{検査前オッズ}\\
\text{陰性尤度比}=-LR=\dfrac{1-特異度}{感度}

という指標が求められます. 以上の指標からデータの特徴を判断で,そこから未知のデータに対してもある程度の予測ができるようになります.

検査人数を任氏の定数nとし,有病率0.2,感度0.7,特異度0.9として陽性的中率(精度)を求めまてみましょう. 有病率0.2,感度0.7,特異度0.9から


\text{}=\dfrac{b}{n}=0.2\to b=0.2n\to\overline{b}=0.8n\\
\text{}=\dfrac{t_p}{b}=0.7\to t_p=0.7b=0.7\times0.2n=0.14n\\
\text{}=\dfrac{t_n}{\overline{b}}=0.9\to t_n=0.9\overline{b}=0.9\times0.8n=0.72n

と式変形して分かり,これをクロス集計表で整理すると,

    正解(集合B)  不正解(集合\overline{B})     
システム・マシンの
判定が陽性(集合A
0.14n
システム・マシンの
判定が陰性(集合\overline{A}
0.72n
0.2n 0.8n n

分かっているトコを差し引きして,空欄を埋めると,

    正解(集合B)  不正解(集合\overline{B})     
システム・マシンの
判定が陽性(集合A
0.14n 0.08n 0.22n
システム・マシンの
判定が陰性(集合\overline{A}
0.06n 0.72n 0.78n
0.2n 0.8n n

と整理でき,陽性的中率や他の指標も求めることができます.


\text{陽性的中率}=\dfrac{0.14n}{0.22n}=0.6363\cdots

ある程度情報が分かっていれば,式変形等でその他の指標を求めることができます.

検査マシンには分解能(どれだけ細かく精密に測定できるか<=間違ってたらスミマセン)というものがあり, それには限界があります. 以上の指標においてその数値を考慮することはないですが, 影響は少なからずあるでしょう. ですので,指標に関して100%というものがでることはありません. そのために検査では必ず偽陽性が出てしまうため,実験でない限り,むやみやたらと医療検査を行うべきではないということになりますね~

追記:(統計的)確率として考えよう

以上で割合や比,指標は統計的確率であり(合ってるかな?),以下の動画では確率の問題として 検査について考えています.

統計的確率は,例えばN回サイコロを振った時(一般化すると=>試行の回数がN)にサイコロの眼が1となる回数はn (一般化すると=>事象Aが起こる回数はn)であったときの確率はn/Nというであるというものです. これに対するのが数学的確率というもので, 違いはあるのですが, 数学屋でなければそんなに意識することもないのかな~と思います. そもそも私がよく分からんので,説明できませぬ...


むやみな検査を行ってはいけない理由、数学的に説明します【条件付き確率】 確率について以下の本が初学者向けとして分かりやすいかな~? 確率は面積で神様視点で見るといった確率の概念的理解は”プログラミングのための確率統計”に書かれています.

プログラミングのための確率統計

プログラミングのための確率統計

統計学図鑑

統計学図鑑

動画でいう表,裏に関して

  • 真陽性=(表,表)
  • 偽陽性=(表,裏)
  • 偽陰性=(裏,表)
  • 真陰性=(裏,裏)

ということであり,クロス統計表と一致します.

以上(有病率0.2,感度0.7,特異度0.9として陽性的中率(精度)を求める例題)ではクロス統計表を埋めることで解を得ましたが, 確率を用いて考えてみましょう. とはいえ,やってることは本質的には同じですね~ あと,以上の動画とは辿るルートが違うと思われますので,別物として読んでください.

確率は面積であり,二つの事象A,Bについて考える場合は1\times 1の正方形となります. ですので,大きさを1にする処理(=正規化)というものを行います. 実は以上の例では正規化をほぼしているようなものでして,nを消すと正規化したことと同じになります. このとき,正規化によって,それぞれの値は統計的確率を示すことになります.

確率という正方形の一辺の大きさは1であることから,その正方形の面積はP(\Omega)=\frac{n}{n}=1となります. これは全体数(被験者数)を正規化するという事と同じです.

以上のように考えるのはちょっと違うかもしれないです... とりあえず,確率は全体の面積がP(\Omega)=\frac{n}{n}=1となる領域があって, それを各事象ごとに分割していくっていう方が概念としては正しいか...? まぁ,あまり深くこだわらないことですな.

以上を含め,例題における確率の関係を以下に簡単に図示しました.
字が汚くてスミマセン... あくまでイメージとして書いたものですので,分割した位置は実際には正しいものではありません.

f:id:kusoimox:20200315182832j:plain
確率は面積ということを基に,検査結果から得られる確率を簡単に図示したもの. 図では領域を均等に分けているが,実際は均等に分割されているわけではありません. 考える問題の条件によって分割線の位置は異なりますし, 事象の数が増えれば,分割線の数も増えます.
図において,

  • 周辺確率
    • 赤(横の分割線)で領域を2つに分けたところ:検査結果が陽性か否か(クロス統計表の行)
      • P(A):検査結果が陽性となる確率
      • P(\overline{A}):検査結果が陰性となる確率
    • 青(縦の分割線)で領域を2つに分けたところ:感染者(正解)か否か(クロス統計表の列)
      • P(B):感染している確率
      • P(\overline{B}):感染していない確率
  • 同時確率
    • P(A,B):真陽性(検査結果が陽性で,かつ,感染者)である確率
    • P(A,\overline{B})偽陽性(検査結果が陽性で,かつ,非感染者)である確率
    • P(\overline{A},B)偽陰性(検査結果が陰性で,かつ,感染者)である確率
    • P(\overline{A},\overline{B}):真陰性(検査結果が陰性で,かつ,非感染者)である確率

を意味しており,求めたい確率は以上を組み合わせて求める条件付確率となります. ですので以上を簡単にではありますが理解するために, 以下で周辺確率や同時確率,条件付確率といった基本的なことについて整理しましょう. 以上でも示した参考書に該当部分があるので,詳しくはその部分を読んでください. 他にも確率統計の参考書はたくさんありますので,個人によって読みやすい物を選択して読んでくださいね~

ベイズの定理

補足

以下で事象A,Bについての確率について考えます. ここで,確率変数(確率が面積なら,それに対応する体積のこと)X,Yを以上の場合で考えると,

  • X=A もしくは \overline{A}
  • Y=B もしくは \overline{B}

となります. 今回の例題の場合,確率変数は2値に見えますが, 例えば,確率変数Xがサイコロを一回降った時に出る目だとするならばX=1,2,3,4,5,6と書けます. また,P(○○)は○○が成立する確率を意味しています.

周辺確率と同時確率

  • 周辺確率:単一の事象が成立する確率:例)P(X=A)=P(A),P(Y=B)=P(B)
  • 同時確率:複数の事象が同時に成立する確率:例)P(X=A,Y=B)=P(A,B)=P(A\cap B)

であり,


P(\Omega)=\sum\text{周辺確率}\\
\text{周辺確率}=\sum\text{同時確率}\\
\to\text{例:}P(X=A)=P(X=A,Y=B)+P(X=A,Y=\overline{B})

という関係があります.

また,事象もしくは確率変数が独立である(その間の関係に独立性がある)場合,

\text{同時確率}=\prod\text{周辺確率}

という関係が成り立ちます. それぞれの事象もしくは確率変数が干渉・依存するような関係ではない, もしくは, 次で説明する条件付確率が


\text{条件付確率}=P(A|B)=P(A)=\text{同時確率}

となるときを独立であるといいます.

条件付確率

ある事象Bが起きることを前提としてうえで成立するある事象Aの確率P(A|B)のこと.


P(A|B)=P(X=A|Y=B)=\dfrac{P(X=A,Y=B)}{P(Y=B)}=\dfrac{\text{同時確率}}{\text{周辺確率}}

ちなみに|はgiven(ただし)と読みます.

ベイズの定理(公式)

以上の条件付確率に関して左辺を


\dfrac{P(X=A,Y=B)}{P(Y=B)}=\dfrac{P(Y=B|X=A)P(X=A)}{P(Y=B)}\text{※条件付確率の式から分子を変形}

と変形させて得られる式がベイズの定理というわけです.(分母を式変形することも可能)


P(X=A|Y=B)=\dfrac{P(Y=B|X=A)P(X=A)}{P(Y=B)}

条件付確率の例題:火曜日生まれの男の子(女の子)


2人の子ども問題がめちゃくちゃ良問な件【条件付き確率】 sist8.com togetter.com

例題を整理しましょう. 例題として以下の

  1. 二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率は?
  2. 二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率は?

という2つの確率を求めてみましょう. 以上は条件付確率なので,同時確率と周辺確率を題意より求めることで求められるようになります.

以上の確率を求めるのに,

  • 確率変数X=子供Aが男か女か
  • 確率変数Y=子供Bが男か女か
  • 確率変数Z=子供Aが何曜日に生まれたか
  • 確率変数W=子供Bが何曜日に生まれたか

と確率変数を定めます. 二人の子供を動画にあるように,子供Aと子供Bと区別して考えます. 以上の確率変数は独立であるので,

\text{同時確率}=\prod\text{周辺確率}
が使えます.

そして,題意より,

  • P(X=\text{男の子})=P(X=\text{女の子})=P(Y=\text{男の子})=P(Y=\text{女の子})=\dfrac{1}{2}
  • P(Z)=P(W)=\dfrac{1}{7}

となります.

二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率

この確率 (条件付き確率に関する2,3の 注意 の問 題1に相当) は確率変数XとYの同時確率と周辺確率から求まる条件付確率であるので, 確率変数XとYの確率ついてクロス統計表に整理しましょう.

    \text{確率変数}W=\text{男の子} \text{確率変数}W=\text{女の子}    
\text{確率変数}X=\text{男の子} \dfrac{1}{4} \dfrac{1}{4} \dfrac{1}{2}
\text{確率変数}X=\text{女の子} \dfrac{1}{4} \dfrac{1}{4} \dfrac{1}{2}
\dfrac{1}{2} \dfrac{1}{2} 1

以上の表で分かったも同然! では,二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率を求めましょう.


\begin{align}
&P(\text{二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率})\\
&=P(\text{両方男の子}|\text{どちらかが男の子})\\
&\text{条件付確率の式から}\\
&=\dfrac{P(\text{両方男の子})}{P(\text{どちらかが男の子})}\\
&\text{周辺確率は同時確率の積であることより}\\
&=\dfrac{P(X=\text{男の子},Y=\text{男の子})}{P(X=\text{女の子},Y=\text{男の子})+P(X=\text{男の子},Y=\text{女の子})+P(X=\text{男の子},Y=\text{男の子})}\\
&=\dfrac{\frac{1}{4}}{\frac{1}{4}+\frac{1}{4}+\frac{1}{4}}\\
&=\dfrac{1/4}{3/4}\\
&=\dfrac{1}{3}
\end{align}

二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率

”二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率”というのは,


\begin{align}
&P(\text{火曜日生まれの男の子と男の子}|\text{火曜日生まれの男の子(もう一方は分からん)})\\
&\text{条件付確率の式より}\\
&=\dfrac{P(\text{火曜日生まれの男の子と男の子})}{P(\text{火曜日生まれの男の子(もう一方は分からん)})}\\
&\text{周辺確率は同時確率の和であることより}\\
&=\dfrac{P(\text{火曜日生まれの男の子と男の子})}{P(\text{火曜日生まれの男の子と男の子})+P(\text{火曜日生まれの男の子と女の子})}
\end{align}

ということになります.

その1

まず,P(\text{火曜日生まれの男の子と女の子})について考えましょう.


\begin{align}
&P(\text{火曜日生まれの男の子と女の子})\\
&\text{周辺確率が同時確率の和であることより}\\
&=P(X=\text{男の子},Y=\text{女の子},Z=\text{火曜日})+P(X=\text{女の子},Y=\text{男の子},W=\text{火曜日})\\
&\text{確率変数の独立性から同時確率が周辺確率の積で求めらえることより}\\
&=P(X=\text{男の子})P(Y=\text{女の子})P(Z=\text{火曜日})+P(X=\text{女の子},)P(Y=\text{男の子})P(W=\text{火曜日})\\
&=\dfrac{1}{2}\times\dfrac{1}{2}\times\dfrac{1}{7}+\dfrac{1}{2}\times\dfrac{1}{2}\times\dfrac{1}{7}\\
&=\dfrac{1}{2}\times\dfrac{1}{7}
\end{align}
その2

次に,P(\text{火曜日生まれの男の子と男の子})について考えましょう. この確率はP(\text{両方男の子})P(\text{どちらかが火曜日生まれの子供})の同時確率です.

P(\text{両方男の子})は二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率を求める際に求まっており, \dfrac{1}{2}\times\dfrac{1}{2}=\dfrac{1}{4} と分かっています.

次に,P(\text{どちらかが火曜日生まれの子供})を考えるのに,確率変数ZとWの確率をクロス統計表にして関係を整理しましょう. 表の各マス(もしくはセル)は同時確率になっていますが,確率変数の独立性より積で求められるとともに, 全て同じ確率になっています.

    \text{確率変数}W=\text{月曜日} \text{確率変数}W=\text{火曜日} \text{確率変数}W=\text{水曜日} \text{確率変数}W=\text{木曜日} \text{確率変数}W=\text{金曜日} \text{確率変数}W=\text{土曜日} \text{確率変数}W=\text{日曜日}    
\text{確率変数}Z=\text{月曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\text{確率変数}Z=\text{火曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\text{確率変数}Z=\text{水曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\text{確率変数}Z=\text{木曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\text{確率変数}Z=\text{金曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\text{確率変数}Z=\text{土曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\text{確率変数}Z=\text{日曜日} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{49} \dfrac{1}{7}
\dfrac{1}{7} \dfrac{1}{7} \dfrac{1}{7} \dfrac{1}{7} \dfrac{1}{7} \dfrac{1}{7} \dfrac{1}{7} 1

以上の表において,”どちらかが火曜日生まれの子供”を満たすために選択されるマスというのは13個あります. その13個のマスの確率を全て足すとP(\text{どちらかが火曜日生まれの子供})が求まります. まぁ,以上の表の場合,選択した13個のマスの確率は全て同じなので,単純に13をかけてやれば P(\text{どちらかが火曜日生まれの子供})が求まりますので,

P(\text{どちらかが火曜日生まれの子供})=\dfrac{1}{49}\times13=\dfrac{13}{49}

では,以上のことより,P(\text{火曜日生まれの男の子と男の子})

P(\text{火曜日生まれの男の子と男の子})=\dfrac{1}{4}\times\dfrac{13}{49}

と求まります.

以上より問題を解く

以上より解くための道具が整ったので,確率を求めましょう.


\begin{align}
&P(\text{二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である})\\
&=\dfrac{P(\text{火曜日生まれの男の子と男の子})}{P(\text{火曜日生まれの男の子と男の子})+P(\text{火曜日生まれの男の子と女の子})}\\
&=\dfrac{\frac{1}{4}\times\frac{13}{49}}{\frac{1}{4}\times\frac{13}{49}+\frac{1}{2}\times\frac{1}{7}}\\
&=\dfrac{\frac{1}{4}\times\frac{13}{49}}{\frac{1}{4}\times\frac{13}{49}+\frac{2}{4}\times\frac{7}{49}}\\
&=\dfrac{\frac{1}{4}\times\frac{13}{49}}{\frac{1}{4}\times\frac{13}{49}+\frac{1}{4}\times\frac{14}{49}}\\
&=\dfrac{\frac{13}{49}}{\frac{13}{49}+\frac{14}{49}}\\
&=\dfrac{13/49}{27/49}\\
&=\dfrac{13}{27}
\end{align}

ということで確率が求まりました.

二人の子供のうち,一方が男の子の場合,もう一方も男の子である確率と二人の子供のうち,一方が火曜日生まれの男の子の場合,もう一方も男の子である確率の違い

条件が加わるだけで確率が大きく変わりましたね.

しかし,解き方は基本的には同じですね. 考えるのに条件が多すぎる場合は,条件を2つぐらいに絞ったうえでクロス統計表に整理すると分かりやすくなりましたね. ということでクロス統計表は便利!

例題を確率から解く

では,有病率0.2,感度0.7,特異度0.9として,陽性的中率(検査で陽性であるとき,感染者である確率)を求めましょう.
事象Aはシステム・マシンの判定が陽性 その余事象\overline{A}はシステム・マシンの判定が陰性, 事象Bは正解(感染者), その余事象\overline{B}は不正解(非感染者)とします.

陽性的中率はP(B|A)という条件付確率であるので,陽性的中率を求めるのに必要な数値は P(A,B),P(A)であり,まず,コレを求めるのに 題意より式を整理します.


有病率=P(B)=0.2\\
感度=P(A|B)=\dfrac{P(A,B)}{P(B)}=0.7\\
特異度=P(\overline{A}|\overline{B})=\dfrac{P(\overline{A} , \overline{B})}{P(\overline{B})}=0.9

となるので,


\begin{align}
P(A,B)&=P(A|B)P(B)=0.7 \times 0.2=0.14\\
P(A)&=P(A,B)+P(A,\overline{B} )\\
&=P(A,B)+( P( \overline{B} )- P( \overline{A} , \overline{B} ) )\\
&=P(A,B)+( P( \overline{B} )-P( \overline{A} | \overline{B} )P( \overline{B} ) )\\
&=P(A,B)+( (1-P( \overline{B} ) )-P( \overline{A} | \overline{B} )( 1 - P( \overline{B} ) ) )\\
&=0.14+( ( 1-0.2 ) - 0.9 \times ( 1 - 0.2 ))\\
&=0.14+ ( 0.8 - 0.9 \times 0.8 )=0.14+0.8-0.72=0.22
\end{align}

と求められ,以上より陽性的中率は


P(B|A)=\dfrac{P(A,B)}{P(A)}=\dfrac{0.14}{0.22}=0.6363\cdots

と求められ,クロス統計表を使って求めたやり方と同じ解が得られました.

動画の例題も改めて解いてみる※電卓用意したほうがいいかも...

動画より,題意は有病率0.01%(P(B)=0.0001),感度99%(P(A|B)=0.99),特異度98%(P(\overline{A}|\overline{B})=0.98) のときの陽性的中率を求めよというものです.
以上と同様にして,


\begin{align}
P(A,B)&=P(A|B)P(B)=0.99 \times 0.0001=0.000099\\
P(A)&=P(A,B)+P(A,\overline{B} )\\
&=P(A,B)+( P( \overline{B} )- P( \overline{A} , \overline{B} ) )\\
&=P(A,B)+( P( \overline{B} )-P( \overline{A} | \overline{B} )P( \overline{B} ) )\\
&=P(A,B)+( (1-P( \overline{B} ) )-P( \overline{A} | \overline{B} )( 1 - P( \overline{B} ) ) )\\
&=0.000099+( ( 1-0.0001 ) - 0.98 \times ( 1 - 0.0001 ))\\
&=0.000099+ ( 0.9999 - 0.98 \times 0.9999)\\
&=0.000099+0.9999-0.979902=0.020097
\end{align}

と求められ,以上より陽性的中率は


P(B|A)=\dfrac{P(A,B)}{P(A)}=\dfrac{0.000099}{0.020097}=0.004926108374\cdots

となりパーセント(百分率)表示にする,つまり100倍すると,約0.5%となります. このことより,正確な感染者数は検査からは1000人の中から5人以下しか把握できないという事であり, 誤判定の方が圧倒的に多いことになり, やはり,検査数を増やせばいいという事ではないことが分かりますね.