creator cover GeoBrain
GeoBrain

GeoBrain 

О чем думает, пишет и прогает геоаналитик

41subscribers

43posts

Showcase

15
goals1
$14.21 of $285 raised
Поддержать развитие этого блога

About

Привет!
Обо мне
Меня зовут Инесса, я Geo Data Scientist с экспертизой в Python, Data Scienсe и Urban Analytics.
Чем я занимаюсь
Занималась построением ML моделей, дата аналитикой и пространственным анализом в таких компаниях как Сбербанк, Мегафон, Яндекс, а сейчас работаю в испанском гео-консалтинговом стартапе Locatium.
У меня в портфолио аналитические проекты по заказу муниципалитетов, телекома, строительных и нефтяных компаний, а также сервисов быстрой доставки в России, Израиле, ОАЭ, Нигерии и США. 
Еще, в 2020 году я стала магистром Urban Analytics Университета Глазго, а в настоящее время делаю PhD в Еврейском университете в Иерусалиме.  Поэтому я активно слежу за последними публикациями и сама делаю исследования .
О чем блог
Это блог-эксперимент - первый блог про геоаналитику на русском языке. Здесь я буду делиться всем интересным и полезным, с чем я сталкиваюсь на работе и в академии.
Если вам интересен такой контент, подписывайтесь и оставляйте комментарии - вы моя мотивация писать больше и подробнее.  
Писать и говорить буду на следующие темы:
 - ГеоДанные: Где взять и как пользоваться
 - Разборы статей: новые подходы и инструменты
 - Подходы к решению бизнес-задач с использованием гео методов
 - Карьера и учеба в геоаналитике
 - Новости и обзоры событий и публикаций
Как меня найти
 А если хотите просто поболтать со мной или записаться на индивидуальную консультацию, то пишете в личку

Как сравнить датасеты с точками. Продолжение анализа Foursquare places

Это 2-ой пост про Foursquare places и вместе с тем рассказ о том, как сравнивать облака точек из двух пространственных наборов.
В прошлом посте я писала про то как скачать и предобработать данные из Foursquare places. Теперь настало время оценить их качество. Для этого я сравнила эти данные с официальным реестром  зарегистрированных бизнесов в городе Тель-Авиве.  Реестр я нашла на городском портале открытых данных.
Моя цель — понять, какие из категорий бизнесов Foursquare покрывает хорошо, а в каких есть пробелы. 
🔧 Подготовка датасетов по шагам:
1. Ограничила датасет Foursquare рамками города
Сначала я загрузила географические границы Тель-Авива (GeoJSON) и оставила только те POIs, которые находятся внутри них. 
2. Привела категории к общей системе
У Foursquare и муниципалитета разные классификации, поэтому я вручную (с помощью ChatGPT) сопоставила их. Для этого я составила словарь: в реестре категории крупнее, поэтому их я использовала как ключи, а листы категорий из Foursquare в качестве значений. Получились следующие укрупнённые категории:
Еда, Здоровье, Развлечения, Индустрия, Авто и транспорт, Магазины и торговля, Безопасность, Водный менеджмент, Заправки и Сельское хозяйство.
3. Перевела точки в гексагоны с помощью H3
Чтобы оценить плотность не одной цифрой на город, а массивом,   я преобразовала координаты в ячейки H3 (гексагоны). Использование регулярной сетки - это очень удобный способ сравнения плотности точек: во-первых, она имеет фиксированную площадь, а значит достаточно просто посчитать кол-во объектов;
во-вторых, это дает возможность сделать выводы как об общей площади покрытия, так и покрытии в разных частях города;

Завершающий пост и открытый доступ

Всем привет. Вы могли заметить, что в последнее время постов стало меньше- к сожалению, проектов много, и  времени не хватает, чтобы делиться качественным контентом. Поэтому я решила, что пришло время остановиться. Я буду продолжать иногда выкладывать сюда лонгриды, но уже только в открытый доступ.
Я очень благодарна всем, кто давал мне фидбек и задавал вопросы. Круто чувствовать, что то,что ты делаешь, кому-то помогает. 
Про подписку
К сожалению, бусти не позволяет снизить стоимость подписки до 0. Сейчас я поставила мин стоимость 10 рублей. Я советую вам отменить ее, и остаться просто подписанными на меня. Как я сказала, все посты в будущем я буду выкладывать в открытый доступ. А если вам вдруг очень понравится пост, то вы всегда можете воспользоваться кнопкой сделать донат.
Если вдруг вы заметили,что какие-то посты стали вам недоступны после отмены подписки, напишите мне, я переведу их в раздел открытых или найду какое-то другое решение.
Ещё раз спасибо за то, что подписались и читали. Считаю эксперимент успешным 😊
Инесса, я вас понимаю, но я очень расстроена... Ждала с большим нетерпением каждый ваш пост, посколько это очень качественный контент!!! Вы мне открыли двери в мир геоаналитики на первом потоке по пространственному анализу и я до сих пор под впечатлением, продолжаю переваривать материал ))) Вы крутая!!! Спасибо за проект! Очень надеюсь, что у вас появится возможность возобновить его ))) В любом случае желаю вам успехов!!! heart
Загрузка и обработка Foursquare Places
Level required:
Эксперт

Они одинаковые, но все же они отличаются

Это короткий, но надеюсь полезный пост.
Иногда так случается, что вы строите модель на выборке, скажем, в Московской области, она показывает там очень хорошие результаты, даже на кроссвалидации, а потом вы решаете применить модель в Ленинградской области, и она разваливается.
Проблема в том, что какие-то из выбранных для модели факторов сильно отличаются в разных регионов. И для начала важно понять - какие. По-просту говоря, необходимо сравнить одни и те же показатели в разных выборках.
Предположим, что надо сравнить зарплаты в Московской и Ленинградской областях. Конечно, можно посмотреть на средние : например, 50 и 40 тыс; Но, как мы поймем много ли это 10 тыс разницы и что вызывает эту разницу: стабильно более низкие зарплаты в Ленинградской области или одна супер высокая зарплата в Москве?
Ответ: нужно смотреть на распределения. Причем не исходные, а стандартизированные: по ним можно будет сразу понять место второй выборки относительно первой и принять решение, насколько смещение существенно
В Python уже есть для этого готовые классы и хранятся они в библиотеке sklearn.
Как это работает? Так же как с обучением модели: обучаете объект-трансформер на одной выборке, а затем применяете к двум. Тем самым будет понятно, где зарплаты Ленинградской область находится в масштабах Московских
Способы стандартизации данных
1️⃣ StandardScaler
🔹 Когда? Если данные распределены примерно нормально и нет выбросов
🔹 Что делает? Меняет значения на стандартные отклонения(std), тем самым позволяя увидеть значительные отличия и выбросы ( за пределами 2 std) 

Foundation models в геоаналитике

Этот пост вдохновлен Population Dynamics Foundation Model (PDFM), выпущенной  Google месяц назад. Для меня это была новая концепция, поэтому показалось интересным разобраться, что такое Foundation Model в контексте пространственного анализа. А так как тема очень актуальная, то решила сделать этот лонгрид доступным для всех)
P.S. по мере изучения модели, стало понятным, что пост  получиться скорее познавательным, чем прикладным, поскольку модель Google покрывает только  США, но знать, что такое существует все равно, на мой взгляд полезно. 
Foundation models
Foundation model - это особенно модный нынче в data science термин, обозначающий универсальные модели, обученные на очень большом количестве данных, которые можно применять к большому набору разных задач. Обычно речь идет о deep leaning моделях. DALL-E и GPT-4 - это примеры foundation models.  Их можно использовать как конечные модели для решения отдельных задач: например, распознавания/генерации текста и изображений - в этом случае они управляются промтами (Prompt engineering), так и для создания собственной модели под конкретную задачу. Именно так можно использовать новую модель Google.
То есть вместо того, чтобы с 0 собирать данные и обучать модель, можно только донастроить  (fine-tune) существующую модель на небольшом семпле, собранном под конкретный кейс.
Вот ссылка на маркетплейс амазон, чтобы понять какие типы предобученных (pre-trained) моделей существуют 
Здравствуйте! Очень интересные модели, большие возможности... Жду с нетерпением пример использования)
Инна, интересно ваше мнение относительно того, в каких направлениях (областях, задачах) можно всё-таки применить модели, обученные на американских данных, для российской практики?
Ольга Чудинова, могу ответить только математически: если российские данные похожи на те, что были в обучаемой выборке, то можно применить модель. Дальше решение должно применяться исходя из задачи, например если на открытие магазина в обеих странах влияют доходы населения и поток - чем выше, тем лучше, то модель можно применить. Конечно, всегда нужно валидировать результат
Большие данные на маленьком компьютере
Level required:
Эксперт
Как считать время в пути на общественном транспорте
Level required:
Эксперт
Эксперимент по сравнению открытых данных из Overturemaps и OSM
Level required:
Эксперт
Сколько McDonald's вы видите в этой точке? Подходы к обработке дубликатов POIs.
Level required:
Эксперт
Матрица связностей и матрица корреспонденций: как создать и какая разница?
Level required:
Эксперт
Subscription levels0
No subscription levels
Go up