予備知識
調和平均
通常のイメージして使う平均は算術平均 arithmetic meanと呼ばれ,
と定義されます. これに対し,調和平均 harmonic meansは
と定義されます.比の平均を求める場合は調和平均を使ったほうが妥当な数値が得られます.また,2値の調和平均は
となり,これが以下で説明するF値になります.
集合演算
以下の過去記事を参照してください. kusoimox.hatenablog.jp
評価指標
上のベン図を元に説明していきます.まず,
- 全体集合U:文書集合 document collection
対象とする文書の集合. - 部分集合A:適合文書
システムが正解と判断した文書の集合. - 部分集合B:正解文書
文字通り正解としている文書の集合.目標文書ともいう.つまり,正解=目標の意で用いる.
というわけです.
- :正解適合文書(図の緑部分)
適合文書のうち,実際に正解であった文書の集合.真の陽性ともいう. - (図の黄部分)
システムが検出せず,かつ,正解でもないが文書集合に含まれている集合.真の陰性ともいう.数が膨大なので,指標の計算には使わない. - :検索ノイズ(図の赤部分)
不正解であるが,システムが正解と誤検出した(検索結果に現れた)文書の集合.システムの出力したものの中のゴミ.
偽陽性 false positive,偽りの採用,第二種の過誤ともいう. また,システムが正解と判断した(適合した)ことを”陽性”といい,それが誤っているから”偽陽性”という. - :検索漏れ(図の青部分)
正解であるが,システムが検出しなかった(検索結果に現れなかった)文書の集合.目標のうち,システムが出力できなかったもの.
偽陰性 false negative,偽りの棄却,第一種の過誤ともいう. また,システムが不正解と判断した(適合しなかった)ことを”陰性”といい,それが誤っているから”偽陰性”という.
となっています.これらを用いて,性能評価の指標は
- 精度(適合率) precision
- 再現率 recall
となります.これの二値はトレードオフの関係にあり,両方をMAXにはできないわけです.そこで,これを用いて,
- F値 F-measure
1992年に導入されたE値の変種であり,精度Pと再現率Rという2値の調和平均.
以上の式はF値の完全な定義ではなく,と呼ばれる.F値の定義は次の通りである.
以上の定義において,パラメータがのとき,となる.つまり,
F値はPとRの両方の影響を受け,両方の数値が高いほどF値が高くなる.PとRのどちらかが0ならばF値は0になる.
パラメータはPとRのバランスを保つためのものである.このパラメータは
と定義される.これを元にF値を改めて見てみると,
とすることができる.
- E値 E-measure
F値の基となったE値は,1979年にC. J. van Rijsbergenが提唱したもので,
と定義される.これより,
ということができる.
- フォールアウト fallout
再現率とトレードオフの関係にある指標. - MAP値(Mean Average Precision: MAP)
正解適合文書をシステムが出力する度に,その時点での精度を求める.そうして精度が複数得られるので,その平均をとって,平均精度 average precisionとする. さらに,平均精度を情報検索システムに対する様々なクエリ(検索ワード)で求め,平均精度の平均を求める.最終的に求まったものがMAP値である.
という性能指標で情報検索システムを評価します.これらの性能指標は自然言語処理一般で用いられるといっていいでしょう. また,そのほかの性能指標として,
- 平均逆順位 Mean Reciprocal Rank: MRR
検索結果をトップから順にチェックし,正解適合文書が現れる度に,その時点での”順位 rank”(トップから何番目に出現したか)を求め,その逆数(逆順位という)を記録しておく. 最終的に得られた逆順位の平均をとり,その値がMRR値となる. - DCG値(Discounted Cumulative Gain: DCG)
文書の相関度によるスコアの合計値.
があります.
参考
- 作者: Christopher D. Manning,Hinrich Sch¨utze,加藤恒昭,菊井玄一郎,林良彦,森辰則
- 出版社/メーカー: 共立出版
- 発売日: 2017/11/23
- メディア: 大型本
- この商品を含むブログ (1件) を見る
- 作者: グラム・ニュービッグ,萩原正人
- 出版社/メーカー: 翔泳社
- 発売日: 2016/03/02
- メディア: Kindle版
- この商品を含むブログ (1件) を見る
- Yutaka Sasaki :”The truth of the F-measure”,October 26, 2007[pdf]
その他