Как сравнить датасеты с точками. Продолжение анализа Foursquare places
Это 2-ой пост про Foursquare places и вместе с тем рассказ о том, как сравнивать облака точек из двух пространственных наборов.
В прошлом посте я писала про то как скачать и предобработать данные из Foursquare places. Теперь настало время оценить их качество. Для этого я сравнила эти данные с официальным реестром зарегистрированных бизнесов в городе Тель-Авиве. Реестр я нашла на городском портале открытых данных.
Моя цель — понять, какие из категорий бизнесов Foursquare покрывает хорошо, а в каких есть пробелы.
🔧 Подготовка датасетов по шагам:
1. Ограничила датасет Foursquare рамками города
Сначала я загрузила географические границы Тель-Авива (GeoJSON) и оставила только те POIs, которые находятся внутри них.
2. Привела категории к общей системе
У Foursquare и муниципалитета разные классификации, поэтому я вручную (с помощью ChatGPT) сопоставила их. Для этого я составила словарь: в реестре категории крупнее, поэтому их я использовала как ключи, а листы категорий из Foursquare в качестве значений. Получились следующие укрупнённые категории:
Еда, Здоровье, Развлечения, Индустрия, Авто и транспорт, Магазины и торговля, Безопасность, Водный менеджмент, Заправки и Сельское хозяйство.
3. Перевела точки в гексагоны с помощью H3
Чтобы оценить плотность не одной цифрой на город, а массивом, я преобразовала координаты в ячейки H3 (гексагоны). Использование регулярной сетки - это очень удобный способ сравнения плотности точек: во-первых, она имеет фиксированную площадь, а значит достаточно просто посчитать кол-во объектов;
во-вторых, это дает возможность сделать выводы как об общей площади покрытия, так и покрытии в разных частях города;

