芋の独り言

当ブログへのアクセスは当ブログのプライバシーポリシーに同意したものとみなします.

平均κ値

自然言語処理NLP)で”平均κ値”というものを指標として使ってる論文があったりします. ”平均κ値”とググっても,”平均κ値”の説明は特に出てこないが,”κ係数”というのは見つかります. ということで,その論文での”平均κ値”の使い方を見るに,
”平均κ値”は”κ係数”の平均値である
ということだと勝手に解釈.その上で説明していきますので,間違っていたらスミマセン...
ちなみに,”κ係数”は”κ値”・”κ統計量”・”一致率”など呼び方は様々.κは”カッパ”というギリシャ文字Texで書くと\kappaとなります.
以下から具体例を挙げて説明します.
あるクイズをA~Fくんに〇✖クイズを何問か答えてもらいましたという設定で考えます.その結果が以下の表です. 表の値はデタラメに書いてるので,良い値は出ないかもしれません...

A B C D E F
問1
問2
問3
問4
問5

”κ係数”は評価者が二人の時だけに使える指標なので,まず,AくんとBくんの”κ係数”を求めよう.
AくんとBくんに注目すると,

B B
A 1 2 3
A 2 0 2
3 2 5

となりますね.マークダウン記法で書いたので,表がちょっと見にくいかもしれませんが...
この表の斜めの項目が二人の評価が一致しているマス(赤字部分)であり,これより,

実際の一致率P_o=\frac{1+0}{5}=0.2

となります.実際の一致率は,表の対角成分を全て足し合わせて,標本の数で割ればいいのです.以上とは別に,偶然の一致率をもとめるため, 最初に,評価者二人が偶然〇と評価が一致する確率を求めます.緑字部分を使用します.


Aが〇と判断する確率P_{〇byA}=\frac{3}{5}=0.6\\
Bが〇と判断する確率P_{〇byB}=\frac{3}{5}=0.6\\
評価者二人が偶然〇と評価が一致する確率P_{〇}=P_{〇byA} \times P_{〇byB}=0.36

と求まります.次に評価者二人が偶然✖と評価が一致する確率を求めます.青字部分を使用します.


Aが✖と判断する確率P_{✖byA}=\frac{2}{5}=0.4\\
Bが✖と判断する確率P_{✖byB}=\frac{2}{5}=0.4\\
評価者二人が偶然✖と評価が一致する確率P_{✖}=P_{✖byA} \times P_{✖byB}=0.16

以上はAND事象なので積で求まるわけですが,偶然の一致率はOR事象なので和で求まります. う~ん,この説明合ってますかね~?まぁ,とりあえず,偶然の一致率は


偶然の一致率P_e=P_{〇} + P_{✖} = 0.36+0.16=0.52

と求まります.実際の一致率と偶然の一致率から,κ係数が


\kappa係数=\frac{実際の一致率P_o - 偶然の一致率P_e}{1 - 偶然の一致率P_e}=\frac{0.2 - 0.52}{1 - 0.52}=\frac{-0.32}{0.48} \simeq -0.67

と求まります.κ係数を求めるのに,表中の黒字部分,つまり評価者二人の評価が一致してないマスは全く使いません.
κ係数は-1 \leqq \kappa係数 \leqq 1なので,1に近い数値ほど一致していることになります.なので,今回のAくんとBくんの場合は全く一致してないといえるでしょうね.κ係数が0.60より大きければ概ね一致しているといえそうです.
また,〇✖という2択でしたが,解答の種類を増やしてもやることは同じです. その場合,重みづけする必要もあるかもしれません.それについては”参考”をご覧ください.
これをA~Fくん全ての組み合わせで求めるわけです.つまり,

{}_6 \mathrm{C}_2 = \frac{{}_6 \mathrm{P}_2 }{2!} = \frac{6\times5}{2\times1} =\frac{30}{2} = 15

通りκ係数を求めなければなりません.そして,求めたκ係数から平均κ値が

平均\kappa値 = \frac{1}{a}  \sum_{n}^{a}\kappa係数_n

と求まるわけです.aにはすべての組み合わせの個数が入ります.今回の場合は”15”ですね.
というわけで,今回の例で平均κ値を求めてみましょう.15通りあるκ係数は以下のように.

  1. AとBの\kappa係数 = -0.67
  2. AとCの\kappa係数 = -0.15
  3. AとDの\kappa係数 = 0.17
  4. AとEの\kappa係数 = -0.67
  5. AとFの\kappa係数 = 0.62
  6. BとCの\kappa係数 = 0.62
  7. BとDの\kappa係数 = 0.17
  8. BとEの\kappa係数 = 1.00
  9. BとFの\kappa係数 = -0.92
  10. CとDの\kappa係数 = 0.62
  11. CとEの\kappa係数 = 0.62
  12. CとFの\kappa係数 = -0.67
  13. DとEの\kappa係数 = 0.17
  14. DとFの\kappa係数 = -0.15
  15. EとFの\kappa係数 = -0.92

となります.以上のκ係数の平均をとればよいので,

平均\kappa値=\frac{-0.16}{15} \simeq -0.01

と平均κ値が求まりました.この例では一致率が高くないですね...
途中で気が付いたんですけど,BくんとEくんが完全一致状態になってますね.例としてどうなんだろう...

参考