概要 Feature Selection for Text Categorization on Imbalanced Data(2004)
分類すべきデータには、正例と負例どちらか一方にのみ顕著にみられる特徴がある。 特徴選択をする場合、正例だけでなく負例の選択された顕著な特徴の割合も性能に影響する。 不均衡データの文書分類で、選択する割合を調整するほうが、予測性能を向上できたことを実験的に示した。 情報利得やオッズ比など単変量統計にもとづく特徴選択の場合、統計量の値によって暗黙的に決められた割合と異なる割合の場合の方が予測性能が高かった。