- Статьи
76 результатов
-
CART (Classification and regression tree)
CART (Classification and regression tree) — реализация решающего дерева четырьмя профессорами статистики. CART-дерево — это самое обычное решающее дерево, которое: совершает разбиение в узле только по одному признаку, где — текущий узел, бинарно, решающее правило есть разбиение -
Предположение "наивного Байеса"
При поиске вероятности для объекта с n независимыми признаками возникает проблема высокой размерности:, -
Ядерное сглаживание для оценки плотности (теормин)
Одним из непараметрических способов оценки плотности распределения является ядерное сглаживание (KDE). В отличие от метода гистограмм блоки (окна), по которым оценивается распределение, не фиксированы, а центрируются по точке-представителю. Общая формула KDE (Kernel Density Estimation -
Типы моделей
Генеративная модель[] Моделируется распределение, Может генерировать новые наблюдения Может быть отрегулирована относительно варьирующейся, Приспособлена к обработке отсутствующих значений (путём усреднени), Легко распознаёт выбросы (по маленькой ) -
Решающие правила в дереве Cart и алгоритм их выбора. Возможные критерии перемешанности классов и откликов в задачи регрессии (теормин)
Решающее дерево — алгоритм классификации, основанный на поиске конъюктивных закономерностей. Дерево — конечный ацикличный связный граф, имеющий выделенную вершину, не имеющую входящих ребер — корень дерева. Вершины, не имеющие выходящих ребер называются листьями. В каждой вершине дерева записано -
Правила оформления статей
\langle и\rangle: Что нужно делать[] Выделять любые переменные, функции и т.д. в тексте тегом math, а не оставлять в тексте сырой набор символов. Это портит читаемость, и в разных местах одинаковые обозначения -
Кросс-валидация (Cross-validation)
Определение, идея... -
Разреженное SVD разложение
SVD разложение: может быть представлена как произведение трёх матриц, где. Если, то данное разложение определено однозначно. В таком случае, если взять первые K столбцов матриц U и V, и первые K сингулярных чисел, то получится -
Расстояние Кульбака — Лейблера
Расстояние Кульбака — Лейблера - метрика между распределениями случайных величин. Обозначение:, причём откуда взялись две вертикальные палки науке неизвестно, по идее это просто функция от двух распределений и Дискретный случай: -
Градиентный бустинг
from xgboost import* © Сева В. Все кто знает метопты знает также, что для минимизации функции можно действовать следующим алгоритмом: -
Генетический отбор признаков
Далее генерируем случайный набор из бинарных векторов. И генерируем "новое поколение": берем из набора случайные пары векторов и скрещиваем их при помощи кроссовера, после чего мутируем получившегося потомка. Из всех получившихся признаков (и старое и -
Алгоритм сеточной кластеризации
Лекции Китова, с. 55-60 Алгоритм сеточной кластеризации[] Разделить каждое из измерений на одинаковых интервалов., Получить гиперкубов, где - размерность пространства., Считаем гиперкуб заполненным, если в нем находится не меньше, чем точек. Это необходимо для того -
Теоретический минимум к экзамену по ММРО (МГУ ВМК ММП, 6 семестр, 2016-2017)
1. Методы многоклассовой классификации бинарными классификаторами --- подходы один против всех, каждый против каждого. 2. Разложение среднеквадратичной ошибки на смещение и дисперсию. -
Обучение с учителем (Supervised learning)
Это незавершённая статья Автор, вероятно, переобучился и отправился спать. Вы можете помочь, экстраполировав местную информацию. -
Логистическая регрессия
Логистическая регрессия — это линейный алгоритм классификации с логистической функцией потерь. Особенность логистической регрессии — возможность получить апостериорные вероятности классов для объектов:, где — сигмоидная функция. -
Матрица штрафов (Сost matrix)
Матрица штрафов (Cost matrix) — матрица размером, где — количество классов, в которой по одной оси расположены прогнозы (forecast), по другой — истинные значения целевой переменной, а значения ячейки соответствуют штрафу (cost) за прогнозирование класса при истинном классе -
Переобучение (Overfitting)
Также здесь надо написать про зависимость от размера обучающей выборки и сложности модели -
DB-scan
Лекции Китова, с 62-64 Краткая идея[] Рассмотрим для каждой точки окрестность. Назовем ядерными точки, в окрестности которых точек. Назовем граничными - не ядерные точки, в окрестности которых есть ядерная. Назовем шумовыми точки, не являющиеся ни -
Последовательный отбор признаков
Так как признаки учитываются не по одному а сразу подпространством, то этот алгоритм хорошо обходит проблему похожих признаков. Однако он достаточно медленный, и отбирает признаки по жадному методу, в результате оказывается неоптимальным (хотя единственно оптимальный -
K-means
K-means - EMоподобный метрический алгоритм кластеризации. Обозначим за центр -го кластера, а за - номер кластера, которому принадлежит объект под номером. Количество кластеров предполагается известным. -
Признаковое представление документов
Бинарное представление документов: имеется множество уникальных слов, для каждого текста формируем бинарный вектор, i-ый элемент которого равен 1, если i-ое слово в словаре имеется в документе, иначе 0. TF: учитываем частоту появления слова -
Анализ данных
-
Связь с методом К-средних
K-means - это EM-алгоритм, когда он применяется к изначально нормально-распределенным кластерам, с одинаковыми априорными вероятностями, и единичными матрицами ковариации, при этом каждый объект принадлежит одному и только одному кластеру. Лекции Китова -
Оценка качества кластеризации
Данный вопрос коротко и понятно описан в лекциях Оценка качества кластеризации. -
Формула Надарая-Ватсона
Формула Надарая-Ватсона используется для решения задачи непараметрического восстановления регрессии. положим.
Близкая по теме вики

The Elder Scrolls Wiki
games
30тыс.
страниц100тыс.
изображений100
видео
The Elder Scrolls — серия компьютерных ролевых игр, созданная компанией Bethesda Softworks. Наша основная задача — качественное, понятное и красочное предоставление информации о вселенной The Elder Scrolls, а также освещение последних новостей о ней.