Машинное обучение вики
Advertisement

Бинарное представление документов: имеется множество уникальных слов, для каждого текста формируем бинарный вектор, i-ый элемент которого равен 1, если i-ое слово в словаре имеется в документе, иначе 0.

TF: учитываем частоту появления слова в документе. Вместо 0 и 1 используем (сколько раз слово встретилось в данном документе)/(длина документа). Позволяет учитывать важность слова.

IDF: учитываем частоту появления слова во всем множестве документов. Вместо 0 и 1 записываем log((общее число документов)/(число документов, в которых есть данное слово)). Позволяет уменьшать роль широкоупотребительных слов.

TF-IDF = TF*IDF.

В случае классификаторов, инвариантных к масштабированию (например линейная регрессия без регуляризации, деревья), IDF не влияет на ответ, так как происходит домножение всего столбца в матрице Х на одинаковую константу.

Advertisement