Пусть — объект из выборки
— его -й признак
Рассмотрим различные модели для классификации текстов. Объектами в данном случае являются документы.
Мультиномиальная модель[]
В мультиномиальной модели, в отличие от модели Бернулли, учитывается количество вхождений каждого слова в документ.
Неплохое объяснение можно найти здесь (самое интересное с 5 слайда)
- все уникальные слова в корпусе
— количество встреч слова в документе
— вероятность встречи слова на словопозиции
где — эмпирические оценки вероятностей
— Кол-во документов класса
— Всего слов в документах класса
— Кол-во встреч слова в документах класса
(1) — Байесовское правило максимальной апостериорной вероятности классов
(2) — Предположение "наивного Байеса"
Сглаживание вероятностей Лапласа[]
— можно интерпретировать как добавление к выборке документа класса , который содержит все слова раз.
Добавление называется аддитивным сглаживанием (сглаживанием Лапласа)
Мультиномиальная модель как линейный классификатор[]
Мультиномиальная модель является линейным классификатором (из вида дискриминантной функции видно, что она зависит линейно от )
Литература[]