Изменения: Билеты к экзамену по ММРО (МГУ ВМК ММП, 6 семестр, 2016-2017)

Версия от 00:39, 24 июня 2017

Билет 1

Методы многоклассовой классификации бинарными классификаторами --- подходы один против всех, каждый против каждого и подход на кодах, исправляющих ошибки.

Билет 2

Вывод разложения среднеквадратичной ошибки на смещение и дисперсию. Интуиция. При каких параметрах основных прогнозирующих алгоритмах в их прогнозах преобладает фактор дисперсии, а при каких --- смещения?

Билет 3

Фиксированные схемы построения ансамблей, стэкинг моделей. Алгоритмы (Bagging) бэггинга, случайных подпространств, случайного леса и ExtraRandomTrees.

Билет 4

Алгоритм градиентного бустинга, его усовершенствование для деревьев в качестве базовых алгоритмов. Shrinkage, subsampling. Особенности шага бустинга для аппроксимации рядом Тейлора 2-го порядка.

Билет 5

Вывод алгоритма xgBoost. Чем он превосходит градиентный бустинг?

Билет 6

Отбор признаков по корреляции, взаимной информации и relief-критерию.

Билет 7

Алгоритм последовательного отбора признаков и его модификации. Алгоритм генетического отбора признаков.

Билет 8

Неравенство Иенсена. Когда оно обращается в равенство? Неотрицательность расстояния Кульбака -Лейблера (с док-вом). 3 эквивалентных критерия выпуклости и строгой выпуклости для дважды дифференцируемых функций (без док-ва).

Билет 9

Вывод ЕМ-алгоритма в общем случае. Почему он приводит к монотонному неубыванию ф-ции правдоподобия. Что меняется в случае регуляризации и МАР оценки?

Билет 10

Вывод ЕМ-алгоритма для моделирования смесями нормальных распределений. Упрощения ковариационной матрицы. Связь с методом К-средних.

Билет 11

Вывод ЕМ-алгоритма для тематической модели pLSA. Генеративный процесс порождения коллекции тематической моделью LDA.

Билет 12

Кластеризация методом К-средних и К-медоид. Их вычислительная сложность. Иерархическая кластеризация сверху вних.

Билет 13

Аггломеративная кластеризация. Его сложность. Расстояния ближайшего соседа, дальнего соседа и усредненное расстояние. Пересчет матрицы попарных расстояний для каждого типа расстояния.

Билет 14

Алгоритм сеточной кластеризации и DB-scan.

Билет 15

Кластеризация по точкам максимума плотности и метод DENCLUE.

Лекции Китова, стр 65-71

Билет 16

Алгоритм спектральной кластеризации. Лапласиан, его неотрицательная определенность.

Лекции Китова, стр 73-конец

Билет 17

Оценка качества кластеризации - коэффициент силуэта и индекс Калинского.

Прямая ссылка: Лекции Китова

Билет 18

Анализ кластеризуемости данных по энтропии расстояния и статистике Хопкинса. Методы отбора признаков для кластеризации.

Билет 19

Многослойный персептрон. Основные ф-ции активации. Активации выходного слоя для задач регрессии и классификации. Идея аппроксимации нейросетями произвольных границ между классами и произвольных гладких функций.

Прямая ссылка: Лекции Китова, до 30 страницы.

Билет 20

Алгоритм обратного распространения ошибки (backpropagation algorithm)

Прямая ссылка: Лекции Китова

Билет 21

Нелинейное снижение размерности: многомерное шкалирование, Isomap, Maximum variance unfolding.

Билет 22

Нелинейное снижение размерности: диффузионные карты, автокодировщик.

Билет 23

Нелинейное снижение размерности: локально-линейное вложение (LLE), Laplacian eigenmaps.

Билет 24

Baseline-алгоритм для коллаборативной фильтрации. Алгоритмы user-user и item-item. Какой из них применим в онлайн режиме?

Baseline: Лекции Китова, user-user: Лекции Китова, item-item: Лекции Китова.

Билет 25

Алгоритм разреженного сингулярного разложения для коллаборативной фильтрации.

@@ Строка 6: / Строка 6: @@
 [[Разложение среднеквадратичной ошибки на смещение и дисперсию (Bias-Variance decomposition)|Вывод разложения среднеквадратичной ошибки на смещение и дисперсию.]] Интуиция. [[Разложение среднеквадратичной ошибки на смещение и дисперсию (Bias-Variance decomposition)#Связь Bias-Variance decomposition и алгоритмов обучения|При каких параметрах основных прогнозирующих алгоритмах в их прогнозах преобладает фактор дисперсии, а при каких --- смещения?]]
 ==Билет 3==
-Фиксированные схемы построения [[Ансамбли моделей|ансамблей, стэкинг моделей]]. Алгоритмы бэггинга, случайных подпространств, случайного леса и ExtraRandomTrees.
+Фиксированные схемы построения [[Ансамбли моделей|ансамблей, стэкинг моделей]]. Алгоритмы [[Ансамбли моделей#Бэггинг|(Bagging) бэггинга]], [[Ансамбли моделей#Метод случайных подпространств (Random subspace method)|случайных подпространств]], [[Ансамбли моделей#Случайный лес (Random Forest)|случайного леса]] и [[Ансамбли моделей#Extra Random Trees|ExtraRandomTrees]].
 ==Билет 4==
 [[Градиентный бустинг|Алгоритм градиентного бустинга]], его усовершенствование для деревьев в качестве базовых алгоритмов. Shrinkage, subsampling. Особенности шага бустинга для аппроксимации рядом Тейлора 2-го порядка.