Билет 1[]
Методы многоклассовой классификации бинарными классификаторами --- подходы один против всех, каждый против каждого и подход на кодах, исправляющих ошибки.
Билет 2[]
Вывод разложения среднеквадратичной ошибки на смещение и дисперсию. Интуиция. При каких параметрах основных прогнозирующих алгоритмах в их прогнозах преобладает фактор дисперсии, а при каких --- смещения?
Билет 3[]
Фиксированные схемы построения ансамблей, стэкинг моделей. Алгоритмы бэггинга, случайных подпространств, случайного леса и ExtraRandomTrees.
Билет 4[]
Алгоритм градиентного бустинга, его усовершенствование для деревьев в качестве базовых алгоритмов. Shrinkage, subsampling. Особенности шага бустинга для аппроксимации рядом Тейлора 2-го порядка.
Билет 5[]
Вывод алгоритма xgBoost. Чем он превосходит градиентный бустинг?
Билет 6[]
Отбор признаков по корреляции, взаимной информации и relief-критерию.
Билет 7[]
Алгоритм последовательного отбора признаков и его модификации. Алгоритм генетического отбора признаков.
Билет 8[]
Неравенство Иенсена. Когда оно обращается в равенство? Неотрицательность расстояния Кульбака -Лейблера (с док-вом). 3 эквивалентных критерия выпуклости и строгой выпуклости для дважды дифференцируемых функций (без док-ва).
Билет 9[]
Вывод ЕМ-алгоритма в общем случае. Почему он приводит к монотонному неубыванию ф-ции правдоподобия. Что меняется в случае регуляризации и МАР оценки?
Билет 10[]
Вывод ЕМ-алгоритма для моделирования смесями нормальных распределений. Упрощения ковариационной матрицы. Связь с методом К-средних.
Билет 11[]
Вывод ЕМ-алгоритма для тематической модели pLSA. Генеративный процесс порождения коллекции тематической моделью LDA.
Билет 12[]
Кластеризация методом К-средних и К-медоид. Их вычислительная сложность. Иерархическая кластеризация сверху вних.
Билет 13[]
Аггломеративная кластеризация. Его сложность. Расстояния ближайшего соседа, дальнего соседа и усредненное расстояние. Пересчет матрицы попарных расстояний для каждого типа расстояния.
Билет 14[]
Алгоритм сеточной кластеризации и DB-scan.
Билет 15[]
Кластеризация по точкам максимума плотности и метод DENCLUE.
Билет 16[]
Алгоритм спектральной кластеризации. Лапласиан, его неотрицательная определенность.
Билет 17[]
Оценка качества кластеризации - коэффициент силуэта и индекс Калинского.
Прямая ссылка: Лекции Китова
Билет 18[]
Анализ кластеризуемости данных по энтропии расстояния и статистике Хопкинса. Методы отбора признаков для кластеризации.
Билет 19[]
Многослойный персептрон. Основные ф-ции активации. Активации выходного слоя для задач регрессии и классификации. Идея аппроксимации нейросетями произвольных границ между классами и произвольных гладких функций.
Прямая ссылка: Лекции Китова, до 30 страницы.
Билет 20[]
Алгоритм обратного распространения ошибки (backpropagation algorithm)
Прямая ссылка: Лекции Китова
Билет 21[]
Нелинейное снижение размерности: многомерное шкалирование, Isomap, Maximum variance unfolding.
Билет 22[]
Нелинейное снижение размерности: диффузионные карты, автокодировщик.
Билет 23[]
Нелинейное снижение размерности: локально-линейное вложение (LLE), Laplacian eigenmaps.
Билет 24[]
Baseline-алгоритм для коллаборативной фильтрации. Алгоритмы user-user и item-item. Какой из них применим в онлайн режиме?
Baseline: Лекции Китова, user-user: Лекции Китова, item-item: Лекции Китова.
Билет 25[]
Алгоритм разреженного сингулярного разложения для коллаборативной фильтрации.