不均衡データは英語でimbalanced data

まず前提として不均衡データというのは,クラスに偏りがあるデータのことです.例えばMNISTの手書き数字分類問題で,1のイメージだけ少ないとか.あとよく説明であるのは異常データの話ですよね.100個のインスタンスがあって99個は正常だけど1個は異常みたいなケースです.モデルの予測結果が全て正常だと出力してきても99%で正解ですから数字だけ見ると立派です.でもそうはいかないです,僕が今まさにそうです.

戦略

この問題について調べるとデータのリサンプリングによって対応しているものをよく見ます.多くはダウンサンプリングによってマジョリティクラスの割合を少ない方に合わせるような.でも僕は頑なにそれをしたくなくて,理由としてはせっかくデータを測定したんだから使いたいンスよ.わがままです.

あとはクラスに重みをつけて対応してるものも.これは賛成です.モデルの性能がよければ期待通り機能してくれるはずです.

あとは損失関数で対応するとか.focal lossとかは不均衡データに対する解決策として考えられた損失関数のようです.重みを考えながら損失を計算するみたいな.

ちょっとした僕の備忘録でした

それではよい1日を