Реши задачу и получи скидку на мой курс по рядам
Реши задачу и получи скидку на мой курс по рядам https://drive.google.com/file/d/1r2Fo8yujVAuAF3kDMLmPeDOmKhm93U-d/view?usp=share_link.
Дана задача. Горизонт прогнозирования – 30 дней. Разбили набор на обучающую и тестовую выборки так, чтобы последние 30 дней попали в тестовую выборку. Критерий оценки – наибольшее из двух значений, первое значение – среднее значение RMSE, полученное методом 12-блочной перекрестной проверки модели расширяющимся/скользящим окном, запущенной на обучающей выборке, второе значение – значение RMSE, которое получено путем применения модели, обученной на всей обучающей выборке, к тестовой выборке. Можно применять только (S)ARIMA(X) библиотеки statsmodels. В зависимости от результата дам скидку на свой курс по рядам.
Тетрадка с базовыми моделями прилагается. Обрати внимание, что для ежедневного ряда период сезонной составляющей (s) выбран как для еженедельного ряда. Подумай, чем это обусловлено.
Идеи для конструирования признаков:
Календарные признаки, не только как целые числа, но и представленные как дамми-переменные, как дроби, как косинусы и синусы (чтобы передать информацию о циклическом характере календарного признака)
Компоненты Фурье
Сплайны
Тренды
Произведения компонент Фурье и календарных признаков
Произведения компонент Фурье и тренда
Индикаторы дат с пиками или спадами
Праздники
Количество дней до спада/пика
Компоненты, полученные в результате спектрально-сингулярного анализа
Вейвлеты
Идеи для преобразований:
Логарифмирование эндогенной переменной
Сглаживание выбросов методами скользящего среднего
Объявление выбросов пропусками с последующей импутацией (можно применить методы из библиотеки ETNA, реализовав в виде собственных функций или классов)
Подбор стартовой даты обучения
Агрегация-дезагрегация
Повышающая или понижающая коррекция прогнозов
Исключение нетипичных паттернов (будьте аккуратны с попаданием вырезанных диапазонов дат в проверочные выборки перекрестной проверки)
Коррекция прогнозов остатками (средним значением остатков и не только средним, усреднение не обязательно по всему обучающему набору, а по N последним наблюдениям обучающего набора)
Оценка
Плохо – 900 (нет скидки)
Удовлетворительно – 700 (скидка 20%)
Хорошо – 500 (скидка 50%)
Отлично – менее 500 (парень, мой курс тебе точно не нужен, а если нужен, приходи бесплатно)
Какое значение RMSE на перекрестной проверке реально можно выбить (S)ARIMA(X) на этой задаче? 450 вполне реально, нужно знать про подходящие преобразования и признаки. По опыту, 80% учеников доходят до 650 и сдаются.
Сроки
До 16 июля. С 16-го начнется новый набор на курс по рядам.
xlsx
Task.xlsx6.96 Mb
ipynb
Baseline.ipynb10.18 Mb
По всем вопросам пишем в Telegram @bertalanfi.
Успехов!
Creator has disabled comments for this post.