Машинное обучение вики
Advertisement

Пусть — объект из выборки,

— его -й признак.

Рассмотрим различные модели для классификации текстов. Объектами в данном случае являются документы.

Модель Бернулли[]

Неплохое объяснение можно найти здесь (самое интересное с 5 слайда, модель Бернулли там называется многомерной моделью).

— все уникальные слова в корпусе

Вывод решающего правила:

где — эмпирические оценки вероятностей

— Кол-во документов класса

— Кол-во документов класса , содержащих

(1) — байесовское правило максимальной апостериорной вероятности классов

(2) — предположение "наивного Байеса"

Сглаживание вероятностей Лапласа[]

— можно интерпретировать как добавление к выборке документов класса , из которых половина содержит .

Почему только половина? А просто у нас нет сведений об априорном распределении. Если же они есть, например мы составили статистику встреч слов при условии класса, используя интернет, мы можем подставить наши априорные вероятности.

Добавление называется аддитивным сглаживанием (сглаживанием Лапласа).

Модель Бернулли как линейный классификатор[]

Модель Бернулли является линейным классификатором (из вида дискриминантной функции видно, что линейно от ).

Литература[]

Advertisement