Машинное обучение вики
Advertisement

Метрика важности (по английски importances, общепринятого русского термина не знаю, перевожу в лоб, звучит глупо, кто знает -- исправьте) признаков -- это величина показывающая как отдельно взятый признак влияет на распределение целевой переменной. Они используются для:

  • отбора признаков
  • взвешивания признаков (для метрических методов и линейных методов с регуляризацией)
  • for adapting feature sampling probability in random forest, extra random trees. (я вроде понимаю про что это, но не могу перевести, кто могет, дерзайте).

Везде далее метрики рассматриваются как функция от двух переменных: признака ( -- столбец матрицы объект-признак) и целевой переменной ( -- столбец ответов для каждого объекта), таким образом , где зависит от конкретного метода подсчета метрики.

Корреляция

, обычная корреляция, ничего нового. Следует учитывать что корреляция -- линейная и не работает на сложных, нелинейных зависимостях (простой пример: , только если выше приведена дискретная корреляция, для реальной выборки, про строгое равенство нулю можно говорить только при вычислении корреляции на математической модели где принимает все значения на ).

Условная энтропия и расстояние Кульбака-Лейблера

Напоминаем что энтропия случайной величины есть .

Аналогично вводится понятие условной энтропии т.е. энтропии величины y при условии что известен f:

.

Для распределений двух величин P(x) и Q(x) определяется расстояние Кульбака-Лейблера:

,

более подробно про него в отдельной статье (ссылки нет но когда нибудь будет).

Через условную энтропию и расстояние Кульбака-Лейблера определяется понятие взаимной информации.

Взаимная информация

Для двух случайных величин взаимная информация определяется следующим образом.

.

Если расстояние Кульбака-Лейблера показывает насколько близки друг к другу два распределения, то взаимная информация это расстояние от до , как известно чем ближе одно распределение к другому, тем более независимы случайные величины и (в частности если распределения совпадают, то величины независимы). При . Интуиция в том что лучший признак минимизирует условную энтропию (т.е. он дает больше информации о значении случайной величины ). В принципе это почти то же самое что и .

Relief критерий

Рассмотрим объекты в метрическом пространстве (как правило с евклидовой метрикой). Для каждого объекта выборки находим ближайших соседей совпадающего класса (обозначим ) и K ближайших соседей другого класса (обозначим ). После чего для каждого признака считаем важность как . -- является параметром метода и подбирается по ситуации.

Advertisement