Большие новости — теперь на «Если быть точным» есть каталог датасетов!
Привет, друзья! Это команда «Если быть точным», и у нас важные новости!
Наверняка вы знаете, что данные в России исчезают. Сведения о доходах и расходах чиновников, информация о госзакупках подсанкционных компаний, миграционная статистика — с 24 февраля 2022 года более 20 наборов данных были скрыты полностью или частично. Последние месяцы мы занимались тем, что пытались их «спасти».
Так у нас на сайте появился каталог — раздел с открытыми данными, собранными в удобные машиночитаемые датасеты. В таком формате вы их больше нигде не найдете. Чтобы собрать эти данные, мы обработали сотни таблиц из pdf-файлов, нашли скрытые API в недрах сайтов ведомств и вернулись в прошлое с помощью Wayback Machine, чтобы вернуть удаленные показатели.
Для каждого набора мы подготовили описание — об источниках, полноте и качестве данных. Доступных датасетов пока восемь.
🔸 Атмосфера: степень загрязнения в городах России с 2007 года. Данные для 220 населенных пунктов, в которых Росгидромет проводит регулярные наблюдения.
🔸 Объекты-загрязнители. Данные обо всех объектах, которые производят выбросы в стране, и о вредных веществах, которые в них содержатся. Ранее Росприроднадзор их скрыл.
🔸 Социально-экономические показатели. Почти 500 показателей о регионах России за 20 лет — от социально-демографических данных и уровня жизни до доходов и внешней торговли.
🔸 Учреждения уголовно-исполнительной системы. Из чего состоят, кто в них работает и за какие преступления в них сидят.
🔸 Смертность и заболеваемость среди заключенных и осужденных. Почти всю эту информацию ФСИН засекретила.
🔸 Преступность в России. Данные с 2011 года о типах и количестве правонарушений. Собраны с Портала правовой статистики
Генеральной прокуратуры, который перестал обновляться с начала этого года.
🔸 Волны жары. Длительные периоды жары летом 2023 года в 45 городах страны.
🔸 Онкология: численность больных и показатели диагностики. Обработанные данные из ежегодников Минздрава за последние 16 лет.
А еще мы запускаем отдельный чат для обсуждения и обмена знаниями об открытых данных. Если вы часто работаете со статистикой, любите обсуждать данные, у вас много вопросов или ответов — наше сообщество для вас.