GeoBrain

Mar 29 2025 22:03

Как сравнить датасеты с точками. Продолжение анализа Foursquare places

Это 2-ой пост про Foursquare places и вместе с тем рассказ о том, как сравнивать облака точек из двух пространственных наборов.

В прошлом посте я писала про то как скачать и предобработать данные из Foursquare places. Теперь настало время оценить их качество. Для этого я сравнила эти данные с официальным реестром зарегистрированных бизнесов в городе Тель-Авиве. Реестр я нашла на городском портале открытых данных.

Моя цель — понять, какие из категорий бизнесов Foursquare покрывает хорошо, а в каких есть пробелы.

🔧 Подготовка датасетов по шагам:

1. Ограничила датасет Foursquare рамками города

Сначала я загрузила географические границы Тель-Авива (GeoJSON) и оставила только те POIs, которые находятся внутри них.

2. Привела категории к общей системе

У Foursquare и муниципалитета разные классификации, поэтому я вручную (с помощью ChatGPT) сопоставила их. Для этого я составила словарь: в реестре категории крупнее, поэтому их я использовала как ключи, а листы категорий из Foursquare в качестве значений. Получились следующие укрупнённые категории:

Еда, Здоровье, Развлечения, Индустрия, Авто и транспорт, Магазины и торговля, Безопасность, Водный менеджмент, Заправки и Сельское хозяйство.

3. Перевела точки в гексагоны с помощью H3

Чтобы оценить плотность не одной цифрой на город, а массивом, я преобразовала координаты в ячейки H3 (гексагоны). Использование регулярной сетки - это очень удобный способ сравнения плотности точек: во-первых, она имеет фиксированную площадь, а значит достаточно просто посчитать кол-во объектов;

во-вторых, это дает возможность сделать выводы как об общей площади покрытия, так и покрытии в разных частях города;

Mar 21 2025 20:26

Завершающий пост и открытый доступ

Всем привет. Вы могли заметить, что в последнее время постов стало меньше- к сожалению, проектов много, и времени не хватает, чтобы делиться качественным контентом. Поэтому я решила, что пришло время остановиться. Я буду продолжать иногда выкладывать сюда лонгриды, но уже только в открытый доступ.

Я очень благодарна всем, кто давал мне фидбек и задавал вопросы. Круто чувствовать, что то,что ты делаешь, кому-то помогает.

Про подписку

К сожалению, бусти не позволяет снизить стоимость подписки до 0. Сейчас я поставила мин стоимость 10 рублей. Я советую вам отменить ее, и остаться просто подписанными на меня. Как я сказала, все посты в будущем я буду выкладывать в открытый доступ. А если вам вдруг очень понравится пост, то вы всегда можете воспользоваться кнопкой сделать донат.

Если вдруг вы заметили,что какие-то посты стали вам недоступны после отмены подписки, напишите мне, я переведу их в раздел открытых или найду какое-то другое решение.

Ещё раз спасибо за то, что подписались и читали. Считаю эксперимент успешным 😊

Ольга Чудинова

Инесса, я вас понимаю, но я очень расстроена... Ждала с большим нетерпением каждый ваш пост, посколько это очень качественный контент!!! Вы мне открыли двери в мир геоаналитики на первом потоке по пространственному анализу и я до сих пор под впечатлением, продолжаю переваривать материал ))) Вы крутая!!! Спасибо за проект! Очень надеюсь, что у вас появится возможность возобновить его ))) В любом случае желаю вам успехов!!! heart

Mar 21 2025 21:11 (changed)

Mar 11 2025 00:57

Загрузка и обработка Foursquare Places

Level required:

Эксперт

Feb 25 2025 22:43

Они одинаковые, но все же они отличаются

Это короткий, но надеюсь полезный пост.

Иногда так случается, что вы строите модель на выборке, скажем, в Московской области, она показывает там очень хорошие результаты, даже на кроссвалидации, а потом вы решаете применить модель в Ленинградской области, и она разваливается.

Проблема в том, что какие-то из выбранных для модели факторов сильно отличаются в разных регионов. И для начала важно понять - какие. По-просту говоря, необходимо сравнить одни и те же показатели в разных выборках.

Предположим, что надо сравнить зарплаты в Московской и Ленинградской областях. Конечно, можно посмотреть на средние : например, 50 и 40 тыс; Но, как мы поймем много ли это 10 тыс разницы и что вызывает эту разницу: стабильно более низкие зарплаты в Ленинградской области или одна супер высокая зарплата в Москве?

Ответ: нужно смотреть на распределения. Причем не исходные, а стандартизированные: по ним можно будет сразу понять место второй выборки относительно первой и принять решение, насколько смещение существенно

В Python уже есть для этого готовые классы и хранятся они в библиотеке sklearn.

Как это работает? Так же как с обучением модели: обучаете объект-трансформер на одной выборке, а затем применяете к двум. Тем самым будет понятно, где зарплаты Ленинградской область находится в масштабах Московских

Способы стандартизации данных

1️⃣ StandardScaler

🔹 Когда? Если данные распределены примерно нормально и нет выбросов

🔹 Что делает? Меняет значения на стандартные отклонения(std), тем самым позволяя увидеть значительные отличия и выбросы ( за пределами 2 std)

Dec 01 2024 23:39

Foundation models в геоаналитике

Этот пост вдохновлен Population Dynamics Foundation Model (PDFM), выпущенной Google месяц назад. Для меня это была новая концепция, поэтому показалось интересным разобраться, что такое Foundation Model в контексте пространственного анализа. А так как тема очень актуальная, то решила сделать этот лонгрид доступным для всех)

P.S. по мере изучения модели, стало понятным, что пост получиться скорее познавательным, чем прикладным, поскольку модель Google покрывает только США, но знать, что такое существует все равно, на мой взгляд полезно.

Foundation models

Foundation model - это особенно модный нынче в data science термин, обозначающий универсальные модели, обученные на очень большом количестве данных, которые можно применять к большому набору разных задач. Обычно речь идет о deep leaning моделях. DALL-E и GPT-4 - это примеры foundation models. Их можно использовать как конечные модели для решения отдельных задач: например, распознавания/генерации текста и изображений - в этом случае они управляются промтами (Prompt engineering), так и для создания собственной модели под конкретную задачу. Именно так можно использовать новую модель Google.

То есть вместо того, чтобы с 0 собирать данные и обучать модель, можно только донастроить (fine-tune) существующую модель на небольшом семпле, собранном под конкретный кейс.

Вот ссылка на маркетплейс амазон, чтобы понять какие типы предобученных (pre-trained) моделей существуют

Ольга Чудинова

Здравствуйте! Очень интересные модели, большие возможности... Жду с нетерпением пример использования)

Dec 02 2024 06:03

Ольга Чудинова

Инна, интересно ваше мнение относительно того, в каких направлениях (областях, задачах) можно всё-таки применить модели, обученные на американских данных, для российской практики?

Dec 02 2024 06:19 (changed)

GeoBrain

Ольга Чудинова, могу ответить только математически: если российские данные похожи на те, что были в обучаемой выборке, то можно применить модель. Дальше решение должно применяться исходя из задачи, например если на открытие магазина в обеих странах влияют доходы населения и поток - чем выше, тем лучше, то модель можно применить. Конечно, всегда нужно валидировать результат

Dec 21 2024 20:49

Nov 22 2024 18:52