2021-01-01から1年間の記事一覧

Partial Label Maskingでマルチラベル分類問題のデータ不均衡に対応する

まとめ マルチラベル分類問題におけるデータ不均衡に対応する手法として、Partial Label Masking (PLM) が利用できる。同手法の概要は次の通り。 サンプルごとに各クラスに対する損失関数を確率的にマスクすることで、アンダーサンプリングに似た効果を期待…

分類器の信頼度を使うならtemperature scalingでキャリブレーションしよう

論文 C. Guo, G. Pleiss, Y. Sun and K. Q. Weinberger, "On calibration of modern neural networks," ICML2017, pp. 1321-1330. なお、本記事中の図は、論文から引用したものである。 まとめ 論文を読んで得られた知見をまとめると以下の通り。 ResNetとい…

不均衡データはundersampling+baggingしろ、という話

まとめ 不均衡なデータの分類器を学習するときはundersampling+baggingすべし。 特に以下の場合に、コストを調整する手法やoversampling(SMOTEなど)に対して優れている。 次元数が多い 少数クラスのデータ数(の比率)が少ない 学習データの規模が小さい …