AUC-ROC

При прогнозировании вероятности чем больший мы можем получить TPR при меньшем FPR, тем лучше качество классификатора. Поэтому можем ввести следующую метрику, оценивающую качество работы классификатора, вычисляющего вероятность принадлежности объекта к положительному классу:

$AUC = \int_0^1 TPR ~dFPR$ .

Которая является площадью под графиком ROC-кривой (area under curve, AUC).

$AUC \in [0, 1]$ .
$AUC = 1$ значит классификатор идеально разделяет классы.
классификатор с $AUC = \frac {1}{2}$ эквивалентен случайной величине которая равновероятно^{(но это не точно)} принимает значения $+1$ и $-1$ . Отсюда если $AUC < \frac{1}{2}$ то классификатор $b(x) = 1-a(x)$ предсказывает класс объекта $x$ лучше чем $a(x)$ (здесь имеется ввиду что $a(x)$ и $b(x)$ возвращают вероятность принадлежности к положительному классу).
AUC равен вероятности того что случайно выбранный объект положительного класса окажется в отсортированном списке правее случайно выбранного объекта отрицательного класса.

Пусть классификатор выдает на выборке $x_1, x_2, \dots, x_N$ вероятности $p_1, p_2, \dots, p_N$ соответственно. Отсортируем вероятности в порядке возрастания: $p_{(1)} \leqslant p_{(2)} \leqslant \dots \leqslant p_{(N)}$ , и этим вероятностям соответствуют объекты $x_{(1)}, x_{(2)}, \dots, x_{(N)}$ и метки классов $y_{(1)}, y_{(2)}, \dots, y_{(N)}$ соответственно. Тогда можно вывести следующую формулу для вычисления AUC-ROC метрики на практике:

$AUC = \frac{1}{N^+ N^-} \sum _{i<j} \mathbb{I}[y_{(i)} < y_{(j)}]$ . $N^+, N^-$ - количество объектов положительного и отрицательного классов соответственно.

AUC-ROC

AUC-ROC

Fan Feed