スケールとトレードオフ:「Googleのソフトウェアエンジニアリング―持続可能なプログラミングを支える技術、文化、プロセス」を読んだ

Googleのソフトウェアエンジニアリング ―持続可能なプログラミングを支える技術、文化、プロセスオライリージャパンAmazon いわゆるビックテックの一角として不動の地位を確立しているGoogleの、ソフトウェアエンジニアリングに関するトピックを余すところな…

Partial Label Maskingでマルチラベル分類問題のデータ不均衡に対応する

まとめ マルチラベル分類問題におけるデータ不均衡に対応する手法として、Partial Label Masking (PLM) が利用できる。同手法の概要は次の通り。 サンプルごとに各クラスに対する損失関数を確率的にマスクすることで、アンダーサンプリングに似た効果を期待…

分類器の信頼度を使うならtemperature scalingでキャリブレーションしよう

論文 C. Guo, G. Pleiss, Y. Sun and K. Q. Weinberger, "On calibration of modern neural networks," ICML2017, pp. 1321-1330. なお、本記事中の図は、論文から引用したものである。 まとめ 論文を読んで得られた知見をまとめると以下の通り。 ResNetとい…

不均衡データはundersampling+baggingしろ、という話

まとめ 不均衡なデータの分類器を学習するときはundersampling+baggingすべし。 特に以下の場合に、コストを調整する手法やoversampling(SMOTEなど)に対して優れている。 次元数が多い 少数クラスのデータ数(の比率)が少ない 学習データの規模が小さい …

個人的Macbookセットアップメモ

主に自分のためのメモ。自動化するほど繰り返し行うわけでもないが、忘れて再検索するのも非効率なので。 Firefox 利益ではなく、人々のためのインターネット — Mozillaからダウンロードしてインストール。 Google日本語入力 Google 日本語入力 – Googleから…

コーヒーミルのレビュー

大学の研究室時代から、珈琲を入れることが趣味になっている。コーヒーミルを新調した機会に、どんな観点から選んだか記録しておく。 選ぶポイント 手動 自分で苦労して挽いたほうが愛着が湧いて美味しく感じる。また、豆を挽く手間がかからないと、一日に何…

PU learningことはじめ

一般的な教師あり学習では、各サンプルについて 正例 (positive) と負例 (negative) のラベルが与えられる。 しかしながら実際のタスクでは、正例とラベルなし (unlabeled) からなる データセットを扱う場合がある。 このような問題設定において精度良く分類…