Машинное обучение вики
Advertisement
SVM
Эта статья нуждается в структуризации!


Вы можете помочь, кластеризовав информацию в этой статье.
Возможно, следует разбить её на разделы или на несколько статей.

Сергей Иванов: Эту статью нужно объединить с теормином

Идея

Проблема: нужен непараметрический метод для оценки плотности.

Решение: метод будет основан на локальной оценке плотности в окрестности интересующей точки по известной выборке. Локальная оценка опирается на само определение плотности распределения.

Условные обозначения

— количество объектов в выборке.

— размер признакового пространства, .

— количество классов.

— выборка, , все или все . .

— ширина окна (bandwidth), .

— оценка плотности распределения .

условие — равняется 1, если условие выполнено, иначе равняется 0.

— оценка зависимости .

Гистограммы

Недостаток: необходимо фиксировать отрезки, на которые разбивается интервал. Проблема: выбор количества корзинок и ширины корзинок.

Histogram

Две гистограммы для одной выборки


Ядерное сглаживание

Идея: каждый выборки будет центром блока.

Блок может иметь следующий вид: .

Одномерный случай

Kernel Density Estimation (KDE, локальная непараметрическая оценка Парзена-Розенблатта) — , — ядро, чётная и нормированная функция: . Следствие: обладает той же степенью гладкости, что и ядро .

Виды ядер

  • Прямоугольное ядро (tophat kernel): соответствует эмпирической оценке плотности (доля точек выборки, лежащих внутри отрезка ).
  • Точечное ядро:. При соответствует гистограмме значений выборки. Неприменимо в непрерывном случае .
  • Гауссово ядро:
  • Ядро Епанечникова:
  • Треугольное ядро:
  • Косинусное ядро:
  • Экспоненциальное ядро:
  • Квартичное ядро:

Состоятельность оценки

Оценка состоятельна, если .

Достаточные условия состоятельности оценки :

,

, , ,

Многомерный случай

Виды ядер

  • Гауссово ядро:
  • Ядро Епанечникова:
  • Произведение одномерных ядер:
Зависящие от метрики ядра

  • Гауссово ядро:
  • Ядро Епанечникова:

Выбор ширины окна (brandwidth)

При плотность концентрируется вблизи точек выборки, претерпевает резкие скачки. При более гладкая плотность, происходит вырождение в константу. При построении KDE ширина окна важнее, чем функция ядра , так как тип ядра влияет на гладкость, а не на точность аппроксимации.

Стратегия выбора: чем более плотное распределение объектов выборки, тем меньше должно быть .

  • Постоянное значение h, примеры стратегий:
    • — расстояние от до -го ближайшего соседа ( можно вычислять по скользящему контролю).
    • вычисляется по скользящему контролю (Leave-one-out, например).
  • Переменное значение , например: — расстояние от до -го ближайшего соседа ( можно найти по скользящему контролю).

Метод Парзеновского окна

Оценка условной плотности через KDE ():

— число объектов класса — метрика.

Байесовское решающее правило даёт следующий классификатор:

Оценим с помощью KDE, как :

Обозначим — индекс -го ближайшего соседа для , . Тогда:

Касательно регрессии

(Этого не было в лекции, прошу особо внимательно проверить).

  • KNN регрессия: — веса для KNN регрессии
  • Формула ядерного сглаживания Надарая-Ватсона:

Следующими заменами регрессия Надарая-Ватсона будет преобразована в KNN регрессию:

— монотонно невозрастающая функция, , в случае ответом для будет среднее арифметическое по .

Ссылки

Advertisement