Машинное обучение вики
Advertisement

Пусть — объект из выборки

— его -й признак

Рассмотрим различные модели для классификации текстов. Объектами в данном случае являются документы.

Мультиномиальная модель[]

В мультиномиальной модели, в отличие от модели Бернулли, учитывается количество вхождений каждого слова в документ.

Неплохое объяснение можно найти здесь (самое интересное с 5 слайда)

- все уникальные слова в корпусе

— количество встреч слова в документе

— вероятность встречи слова на словопозиции

где — эмпирические оценки вероятностей

— Кол-во документов класса

— Всего слов в документах класса

— Кол-во встреч слова в документах класса

(1) — Байесовское правило максимальной апостериорной вероятности классов

(2) — Предположение "наивного Байеса"

Сглаживание вероятностей Лапласа[]

— можно интерпретировать как добавление к выборке документа класса , который содержит все слова раз.

Добавление называется аддитивным сглаживанием (сглаживанием Лапласа)

Мультиномиальная модель как линейный классификатор[]

Мультиномиальная модель является линейным классификатором (из вида дискриминантной функции видно, что она зависит линейно от )

Литература[]

Advertisement