Изменения: ROC-кривая

Текущая версия от 18:08, 15 января 2017

TPR и FPR[]

Рассмотрим случай бинарной классификации ( $y_i \in \{-1, +1\}$ ). Пусть $a(x)$ - классификатор, который оценивает вероятность принадлежности объекта $x$ к положительному классу. Рассмотрим некоторый порог $\mu$ , по которому будем строить предсказание. Отнесем объект x к положительному классу, если $a(x) \geqslant \mu$ , иначе — к отрицательному. Построим для него матрицу ошибок и найдем значения $TP, TN, FP, FN$ и введем две метрики:

True positive rate: $TPR = \frac{TP}{TP+FN}$ .
False positive rate: $FPR = \frac{FP}{TN+FP}$ .

TPR полностью совпадает с полнотой, и показывает долю верно предсказанных классов у объектов, относящихся к положительному классу.

FPR — это доля неправильно предсказанных классов среди объектов отрицательного класса.

Кривая ошибок (ROC-curve)[]

Так как TPR и FPR считались для фиксированного порога $\mu \in [0, 1]$ то их можно представить в виде функций от аргумента $\mu$ : $TPR = TPR(\mu), FPR = FPR(\mu)$ . При этом обе функции монотонно возрастают от $0$ до $1$ , а значит определена функция:

Roccurves — ROC-кривые для разных методов

$ROC = TPR(FPR)$

(более формально: $ROC(x) = TPR(FPR^{-1}(x)), x \in [0, 1]$ ).

Которая называется рабочей характеристикой приемника (reciever operation characteristic, ROC). График функции называется ROC-кривой или кривой ошибок.

Всегда начинается в $(0,0)$ и заканчивается в $(1,1)$ .
Как правило, у хорошего классификатора кривая лежит по большей части, либо целиком выше прямой $y = x$ . Это связано с тем что при хорошей классификации надо получать максимальный $TPR$ при минимальном $FPR$ .

см. также AUC-ROC

Метод построения ROC-кривой[]

Пусть классификатор выдает на выборке $x_1, x_2, \dots, x_N$ вероятности $p_1, p_2, \dots, p_N$ соответственно. Отсортируем вероятности в порядке возрастания: $p_{(1)} \leqslant p_{(2)} \leqslant \dots \leqslant p_{(N)}$ , и этим вероятностям соответствуют объекты $x_{(1)}, x_{(2)}, \dots, x_{(N)}$ и метки классов $y_{(1)}, y_{(2)}, \dots, y_{(N)}$ соответственно. Разобьем квадрат $[0, 1]\times[0,1]$ на координатной плоскости на $N^-$ клеток по горизонтали и $N^{+}$ клеток по вертикали (где $N^{+}$ — количество объектов положительного класса, $N^-$ — количество объектов отрицательного класса). Начнем рисовать ROC кривую из точки $(0,0)$ и последовательно перебирать метки классов, начиная с $y_{(N)}$ до $y_{(1)}$ : если $y_{(i)} = +1$ то рисуем вертикальный отрезок на одну клетку вверх, иначе горизонтальный отрезок на одну клетку вправо. Очевидно, в таком случае мы закончим ROC-кривую в точке $(1,1)$ и она будет отображать зависимость $TPR(FPR)$ .

ROC-кривая для оценивания вероятностей случайным образом[]

DANGER! Это место вызывает
сомнения или непонимание!

Экзамен показал, что здесь, похоже, всё неверно, а спрашивают часто. Якобы где-то решалась на семинарах.

Если классификатор выдает вероятность равную $p(x) = \xi$ , где $\xi$ - равномерно распределенная на отрезке [0, 1] случайная величина, то ROC-кривая такого классификатора будет совпадать с графиком $y = x$ , то есть для любого порога $\mu: TPR(\mu) = FPR(\mu)$ (если более формально, то это верно только для матожиданий TPR и FPR, так как $\xi$ случайная величина, и если нам ооочень повезет, то разделение может быть идеальным, а ROC-кривая пройдет через точку (0, 1)).

Зафиксируем некий порог $\mu$ . Тогда $\xi < \mu$ с вероятностью $\mu$ и $\xi \geqslant \mu$ с вероятностью $1-\mu$ . Пусть в выборке $N^{+}$ объектов положительного класса, и $N^-$ отрицательного. Тогда $\mathbb{E}TP = (1-\mu)N^+, \mathbb{E}FP = (1-\mu)N^-, \mathbb{E}FN = \mu N^+, \mathbb{E}TN = \mu N^-$ . А значит $\mathbb{E}TPR = \mathbb{E}\frac{TP}{TP+FN} = \frac{(1-\mu)N^+}{(\mu + 1-\mu) N^+} = 1-\mu=$ $= \frac{(1-\mu)N^-}{(\mu + 1-\mu) N^-} = \mathbb{E}\frac{FP}{FP+TN} = \mathbb{E}FPR.$

@@ Строка 23: / Строка 23: @@
 == ROC-кривая для оценивания вероятностей случайным образом ==
+{{Сомнения|Что непонятно? = Экзамен показал, что здесь, похоже, всё неверно, а спрашивают часто. Якобы где-то решалась на семинарах.}}
-Если классификатор выдает вероятность равную p(x) = \xi, где \xi - равномерно распределенная на отрезке [0, 1] случайная величина, то ROC-кривая такого классификатора будет совпадать с графиком y=x, то есть для любого порога \mu: TPR(\mu) = FPR(\mu).
+Если классификатор выдает вероятность равную <math>p(x) = \xi</math>, где <math>\xi</math> - равномерно распределенная на отрезке [0, 1] случайная величина, то ROC-кривая такого классификатора будет совпадать с графиком <math>y=x</math>, то есть для любого порога <math>\mu: TPR(\mu) = FPR(\mu)</math> (если более формально, то это верно только для матожиданий TPR и FPR, так как <math>\xi</math> случайная величина, и если нам ооочень повезет, то разделение может быть идеальным, а ROC-кривая пройдет через точку (0, 1)).
+Зафиксируем некий порог <math>\mu</math>. Тогда <math>\xi < \mu</math> с вероятностью <math>\mu</math> и <math>\xi \geqslant \mu</math> с вероятностью <math>1-\mu</math>. Пусть в выборке <math>N^+</math> объектов положительного класса, и <math>N^-</math> отрицательного. Тогда <math>\mathbb{E}TP = (1-\mu)N^+, \mathbb{E}FP = (1-\mu)N^-, \mathbb{E}FN =  \mu N^+, \mathbb{E}TN = \mu N^-</math>. А значит <math>\mathbb{E}TPR = \mathbb{E}\frac{TP}{TP+FN} = \frac{(1-\mu)N^+}{(\mu + 1-\mu) N^+} = 1-\mu= </math><math>= \frac{(1-\mu)N^-}{(\mu + 1-\mu) N^-} = \mathbb{E}\frac{FP}{FP+TN} = \mathbb{E}FPR.</math>