Содержание поста "Объяснение работы HDBSCAN и алгоритмов кластеризации на основе плотности (35-стр. pdf)"
Наши предположения 2
Набор данных для кластеризации 2
Сравнение алгоритма k-средних и HDBSCAN 3
Почему алгоритм k-средних ошибается? 3
Каковы характеристики наших данных? 4
Требование надежности в ходе исследования данных 5
Плотные области и моды многомерного распределения 6
А что такое кластер? 6
Посмотрим на основное распределение 7
Но что же такое кластер? 9
Построение иерархии 12
Локальная аппроксимация плотности 14
Подсчет соседей в пределах 𝜀-радиуса 14
Расстояние до k-го ближайшего соседа 15
Зафиксируем уровни и раскрасим области 17
Понижение уровня моря 19
Определение новой метрики расстояния 20
Проекция на 𝜆-пространство 21
Построение иерархического дерева с использованием 𝜆-пространства 23
Выбор гиперпараметров и другие важные моменты 25
min_samples 25
min_cluster_size 27
Преобразования данных 31
Оценка качества кластера 31
Резюме 33
Библиография 34
сборник_статей_по_ml
пост_книга_"сборник_статей_по_ml"