Содержание поста "Объяснение работы HDBSCAN и алгоритмов кластеризации на основе плотности (35-стр. pdf)"

Наши предположения 2

Набор данных для кластеризации 2

Сравнение алгоритма k-средних и HDBSCAN 3

Почему алгоритм k-средних ошибается? 3

Каковы характеристики наших данных? 4

Требование надежности в ходе исследования данных 5

Плотные области и моды многомерного распределения 6

А что такое кластер? 6

Посмотрим на основное распределение 7

Но что же такое кластер? 9

Построение иерархии 12

Локальная аппроксимация плотности 14

Подсчет соседей в пределах 𝜀-радиуса 14

Расстояние до k-го ближайшего соседа 15

Зафиксируем уровни и раскрасим области 17

Понижение уровня моря 19

Определение новой метрики расстояния 20

Проекция на 𝜆-пространство 21

Построение иерархического дерева с использованием 𝜆-пространства 23

Выбор гиперпараметров и другие важные моменты 25

min_samples 25

min_cluster_size 27

Преобразования данных 31

Оценка качества кластера 31

Резюме 33

Библиография 34

сборник_статей_по_ml

пост_книга_"сборник_статей_по_ml"

Материалы ИЦ «ГЕВИССТА»