概要 Feature Selection for Text Categorization on Imbalanced Data(2004)
October 12, 2019分類すべきデータには、正例と負例どちらか一方にのみ顕著にみられる特徴がある。 特徴選択をする場合、正例だけでなく負例の選択された顕著な特徴の割合も性能に影響する。 不均衡データの文書分類で、選択する割合を調整するほうが、予測性能を向上できたことを実験的に示した。 情報利得やオッズ比など単変量統計にもとづく特徴選択の場合、統計量の値によって暗黙的に決められた割合と異なる割合の場合の方が予測性能が高かった。
比較対象となる統計量は情報利得, カイ二乗, 相関係数、オッズ比がある。 これらの統計量は、正と負の値がそれぞれ正例と負例に顕著な特徴に対応するものを片側(one-side)、 非負の値しかとらず正例と負例の一方において顕著な特徴に対応するものを両側(two-side)のメトリクスとして分類している。次のように特徴とクラスの諸確率を定義すると、 相関係数とオッズ比は片側、情報利得とカイ二乗は両側に分類できる。
- \(P(c)\): (クラス\(c\)に属する訓練文書数)/(訓練文書数)
- \(P(t, c)\): (クラス\(c\)に属する訓練文書のうち\(w\)を含む文書の数)/(クラス\(c\)に属する訓練文書数)
- \(P(t)\): (全訓練文書における単語\(t\)の出現回数)/(全訓練文書における単語数)
以上の諸確率の場合、割合を調整しなければ、片側のメトリクスだと正例に顕著な特徴から順に選ばれ、両側であれば正例と負例いずれかにおいて顕著な特徴から順に選ばれる。
正例と負例それぞれに顕著な特徴の割合の調整をする場合、 \(\mathfrak{F}(t, c_i)\)を値が大きいほど単語\(t\)がカテゴリ\(c_i\)に属する傾向にあることを示す関数とすると、割合にもとづく特徴選択を統計量によらず一般化できる。 具体的には、\(\mathfrak{F}(t, c_i)\)の降順に\(l_i\)個の特徴\(F_i^+\)を選び、 \(\mathfrak{F}(t, \bar{c}_i)\)の降順に\(l-l_i\)個の特徴\(F_i^-\)を選べば、正例に顕著な特徴の割合が\(l_i/l\)の特徴の集合\(F_i\)をつくることができる。相関係数やオッズ比のような片側のメトリクスであれば、\(\mathfrak{F}\)として使うことができる。
論文はこちらからダウンロードできます。