Бонусные задания открытого курса по машинному обучению mlcourse.ai
Всем привет!
Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников.
Статьи на Хабре на русском все еще актуальны – вот первая. Впрочем, наиболее актуальная версия материалов – на английском, см. mlcourse.ai
C 2020 года курс – в режиме самостоятельного прохождения. Часть заданий мы выложили в открытый доступ, с решениями. А часть заданий доступны на Patreon и тут на Boosty – "Бонусные задания mlcourse.ai". Все – на английском (верим, что курс на русском возродится, но первые попытки, к сожалению, оказались не очень удачными).
В бонусной подписке вы получаете доступ к Jupyter Book с бонусными, «полноценными» (в отличие от демонстрационных) версиями заданий mlcourse.ai. В их числе – реализация деревьев решений, случайного леса, SGD и градиентного бустинга своими руками с нуля, а также задания, в которых вы под нашим чутким руководством за счет создания признаков и грамотной валидации модели бьете бейзлайны в Kaggle Inclass соревнованиях (“Alice” и “Medium”).
В качестве тизера – то самое легендарное задание на реализацию градиентного бустинга своими руками. Мы досконально разберемся с математикой, стоящей за этим алгоритмом, почему он обобщается на классификацию, регрессию и ранжирование.
Дальше мы на игрушечных примерах разберемся, как алгоритм работает. Вы получите похожие картинки, передающие "интуицию" того, что там происходит у бустинга под капотом.
Подробнее рассказываю про бонусные задания в этом посте в блоге.
Удачи!
machine learning
data science
pandas
kaggle
logistic regression
algorithms
gradient boosting
python
Doniyordjon Abduvaliev
Юрий добрый день, можете подсказать как найти train.json файл. У меня в папках его нет по 6 бонусному заданию
Aug 01 2023 06:54
Юра Кашницкий
Doniyordjon Abduvaliev, добрый день! В задании даются ссылки на соревнование Kaggle https://www.kaggle.com/c/how-good-is-your-medium-article/data?select=train.json ("Download the competition data and place it where it’s convenient for you. You can modify the path to data below."). Файлы довольно большие, поэтому их нет в папках.
Aug 01 2023 10:45
Doniyordjon Abduvaliev
сорри, не обратил внимание
Aug 02 2023 19:38