Open keimoriyama opened 2 years ago
Consistent Estimators for Learning to Defer to an Expert
MLシステムは人の意思決定を助けるようなシステムに組み込まれてきている。 ここで適用される機械学習モデルは、単体で運用または人だけの診断よりも、人との連携で高い評価を得ることが重要になってくる。
モデルには2つのことを学習させる。
予測ラベルを$Y \in \mathcal{Y}$、特徴量を$X \in \mathcal{X}$とする。 専門家(エキスパート)が予測に使用する特徴量を$M$とする。 この時、解きたい問題は予測器$\hat{Y}\colon \mathcal{X} \rightarrow \mathcal{Y}\cup {\bot}$を学習により獲得すること。 学習においては、$\hat{Y}$を2つの関数$h\colon \mathcal{X}\rightarrow \mathcal{Y}$(分類器)と$r\colon \mathcal{X}\rightarrow{0,1}$(rejector)に分けて学習をさせる。 学習に使う損失関数は式1の通り
また、誤分類に対する損失も追加する。
この式を、複数クラス分類の問題に適用してこの損失関数にした。
この関数をそのまま使うと、人の予測とモデルの予測が一致した時、どちらを重視するべきか判断しづらくなってしまうので重みを導入する。 重みを導入した場合の損失関数は式7
実験は、自作データとCIFAR-10、CheXpertで評価。
$d$次元の特徴量からラベル${0, 1}$を予測するタスクを学習させた。 この時の、エキスパートはベイズ的な手法を使っているモデルを採用している。 比較対象は、oracle baselineとconfidence score baselineの2種類の手法。 結果は、分類精度が既存手法よりも6.39向上した。
エキスパートは一部のk個のクラスを完璧に予測できるモデルを用いて実験している。 ベースとなるネットワークはWideResNetを使った。 図2が結果になる。
提案手法が既存手法よりも上にあるので、うまくエキスパートと連携できていることがわかる。
胸の医療用画像から病気を推定するタスクを行う。 エキスパートは特定のラベルが含まれている時、確率$p$、含まれていない時、確率$q$であっているラベルの出力をする。 実験では、$p=1,q=0.7$で実験を行った。 結果は図3の通り。提案手法のカーブの方が上にあるので、うまく連携できていることがわかる。
Consistent Estimators for Learning to Defer to an Expert
Consistent Estimators for Learning to Defer to an Expert
背景&目的:なぜその問題を解決したいのか、どのように解決したのか?
MLシステムは人の意思決定を助けるようなシステムに組み込まれてきている。 ここで適用される機械学習モデルは、単体で運用または人だけの診断よりも、人との連携で高い評価を得ることが重要になってくる。
モデルには2つのことを学習させる。
提案:解決に向けたキーアイデアは何か
問題の定式化
予測ラベルを$Y \in \mathcal{Y}$、特徴量を$X \in \mathcal{X}$とする。 専門家(エキスパート)が予測に使用する特徴量を$M$とする。 この時、解きたい問題は予測器$\hat{Y}\colon \mathcal{X} \rightarrow \mathcal{Y}\cup {\bot}$を学習により獲得すること。 学習においては、$\hat{Y}$を2つの関数$h\colon \mathcal{X}\rightarrow \mathcal{Y}$(分類器)と$r\colon \mathcal{X}\rightarrow{0,1}$(rejector)に分けて学習をさせる。 学習に使う損失関数は式1の通り
また、誤分類に対する損失も追加する。
この式を、複数クラス分類の問題に適用してこの損失関数にした。
この関数をそのまま使うと、人の予測とモデルの予測が一致した時、どちらを重視するべきか判断しづらくなってしまうので重みを導入する。 重みを導入した場合の損失関数は式7
結果:結局問題は解決されたのか.新しくわかったことは?
実験
実験は、自作データとCIFAR-10、CheXpertで評価。
自作データ
$d$次元の特徴量からラベル${0, 1}$を予測するタスクを学習させた。 この時の、エキスパートはベイズ的な手法を使っているモデルを採用している。 比較対象は、oracle baselineとconfidence score baselineの2種類の手法。 結果は、分類精度が既存手法よりも6.39向上した。
CIFAR-10の場合
エキスパートは一部のk個のクラスを完璧に予測できるモデルを用いて実験している。 ベースとなるネットワークはWideResNetを使った。 図2が結果になる。
提案手法が既存手法よりも上にあるので、うまくエキスパートと連携できていることがわかる。
CheXpertの評価
胸の医療用画像から病気を推定するタスクを行う。 エキスパートは特定のラベルが含まれている時、確率$p$、含まれていない時、確率$q$であっているラベルの出力をする。 実験では、$p=1,q=0.7$で実験を行った。 結果は図3の通り。提案手法のカーブの方が上にあるので、うまく連携できていることがわかる。