Проблема: нужен непараметрический метод для оценки плотности.
Решение: метод будет основан на локальной оценке плотности в окрестности интересующей точки по известной выборке. Локальная оценка опирается на само определение плотности распределения.
Условные обозначения
— количество объектов в выборке.
— размер признакового пространства, .
— количество классов.
— выборка, , все или все . .
— ширина окна (bandwidth), .
— оценка плотности распределения .
условие — равняется 1, если условие выполнено, иначе равняется 0.
— оценка зависимости .
Гистограммы
Недостаток: необходимо фиксировать отрезки, на которые разбивается интервал. Проблема: выбор количества корзинок и ширины корзинок.
Ядерное сглаживание
Идея: каждый выборки будет центром блока.
Блок может иметь следующий вид: .
Одномерный случай
Kernel Density Estimation (KDE, локальная непараметрическая оценка Парзена-Розенблатта) — , — ядро, чётная и нормированная функция: . Следствие: обладает той же степенью гладкости, что и ядро .
Виды ядер
Прямоугольное ядро (tophat kernel): соответствует эмпирической оценке плотности (доля точек выборки, лежащих внутри отрезка ).
Точечное ядро:. При соответствует гистограмме значений выборки. Неприменимо в непрерывном случае .
Гауссово ядро:
Ядро Епанечникова:
Треугольное ядро:
Косинусное ядро:
Экспоненциальное ядро:
Квартичное ядро:
Состоятельность оценки
Оценка состоятельна, если .
Достаточные условия состоятельности оценки :
,
, , ,
Многомерный случай
Виды ядер
Гауссово ядро:
Ядро Епанечникова:
Произведение одномерных ядер:
Зависящие от метрики ядра
Гауссово ядро:
Ядро Епанечникова:
Выбор ширины окна (brandwidth)
При плотность концентрируется вблизи точек выборки, претерпевает резкие скачки. При более гладкая плотность, происходит вырождение в константу. При построении KDE ширина окна важнее, чем функция ядра , так как тип ядра влияет на гладкость, а не на точность аппроксимации.
Стратегия выбора: чем более плотное распределение объектов выборки, тем меньше должно быть .
Постоянное значение h, примеры стратегий:
— расстояние от до -го ближайшего соседа ( можно вычислять по скользящему контролю).
вычисляется по скользящему контролю (Leave-one-out, например).
Переменное значение , например: — расстояние от до -го ближайшего соседа ( можно найти по скользящему контролю).
Метод Парзеновского окна
Оценка условной плотности через KDE ():
— число объектов класса — метрика.
Байесовское решающее правило даёт следующий классификатор:
Оценим с помощью KDE, как :
Обозначим — индекс -го ближайшего соседа для , . Тогда:
Касательно регрессии
(Этого не было в лекции, прошу особо внимательно проверить).
KNN регрессия: — веса для KNN регрессии
Формула ядерного сглаживания Надарая-Ватсона:
Следующими заменами регрессия Надарая-Ватсона будет преобразована в KNN регрессию:
— монотонно невозрастающая функция, , в случае ответом для будет среднее арифметическое по .