Catalogus / назад к курсам
Data ScienceСреднийPublished

Data Scientist: от данных до деплоя моделей

Практический курс по Data Science: от постановки ML-задачи и работы с данными до inference API, CI/CD и мониторинга моделей в продакшне. Вы пройдёте EDA, feature engineering, обучение и оценку моделей, experiment tracking, error analysis и deployment — чтобы собирать полноценный рабочий контур вокруг ML-решения.

#stepik-import
Data Scientist: от данных до деплоя моделей

О курсе

Подробнее о курсе

Этот курс посвящён полному прикладному циклу Data Science: от постановки ML-задачи и анализа данных до сервиса предсказаний, CI/CD и мониторинга модели в продакшне. Вместо абстрактного “обучили модель в ноутбуке и пошли дальше” Вы пройдёте весь рабочий контур, который нужен в реальных проектах: формализация задачи, выбор метрик, проверка качества данных, поиск утечек, построение признаков, обучение baseline- и gradient boosting-моделей, experiment tracking, оценка качества, error analysis, model serving, автоматические проверки и мониторинг после релиза. В курсе отдельно разобраны важные практические темы, которые часто упускают в классических ML-курсах: reproducibility, data leakage, стабильность признаков, ложное улучшение качества, API-контракт для inference, batch-inference, тестирование data pipeline и inference API, quality gates перед деплоем, data drift и prediction drift. Курс подойдёт тем, кто хочет не просто запускать модели, а понимать, как довести ML-решение до рабочего продакшн-сценария: с воспроизводимостью, валидацией, сервисом предсказаний, мониторингом и понятной коммуникацией результатов. Программа курса включает: — постановку ML-задачи и работу с данными; — feature engineering и подготовку признаков; — обучение и валидацию моделей; — experiment tracking и оценку качества; — error analysis и итеративное улучшение; — подготовку модели к деплою; — CI/CD для ML-проектов; — мониторинг и поддержку моделей в продакшне; — коммуникацию результатов и ограничений модели.

Записей
0
Slug
data-scientist-ot-dannyh-do-deploya-modelei

Структура курса

Секции и уроки

9 секц.
Секция 1

Постановка ML-задачи и работа с данными

7 уроков
Урок 1
От бизнес-проблемы к ML-постановке
5 шагов
Урок 2
Формализация метрик и trade-offs
8 шагов
Урок 3
Инвентаризация источников данных
9 шагов
Урок 4
Настройка reproducibility и версионирование данных
6 шагов
Урок 5
Exploratory Data Analysis: распределения и аномалии
7 шагов
Урок 6
Поиск data leakage и временных утечек
5 шагов
Урок 7
Валидация качества данных и построение чек-листа
4 шагов
Секция 2

Feature engineering и подготовка признаков

6 уроков
Урок 1
Базовые трансформации: кодирование и нормализация
4 шагов
Урок 2
Работа с пропусками и выбросами
5 шагов
Урок 3
Генерация доменных признаков
7 шагов
Урок 4
Feature selection: фильтры и embedded методы
8 шагов
Урок 5
Валидация устойчивости признаков
6 шагов
Урок 6
Построение feature pipeline
7 шагов
Секция 3

Обучение и валидация моделей

4 уроков
Урок 1
Baseline-модель и train/val/test split
8 шагов
Урок 2
Выбор валидационной стратегии
6 шагов
Урок 3
Обучение gradient boosting моделей
9 шагов
Урок 4
Интерпретация learning curves и диагностика переобучения
7 шагов
Секция 4

Эксперимент-трекинг и оценка моделей

5 уроков
Урок 1
Настройка эксперимент-трекинга (MLflow / Weights & Biases)
7 шагов
Урок 2
Сравнение экспериментов и версионирование моделей
8 шагов
Урок 3
Выбор метрик оценки
7 шагов
Урок 4
Оценка на holdout и кросс-валидация
7 шагов
Урок 5
Обнаружение ложного улучшения качества
5 шагов
Секция 5

Error analysis и итеративное улучшение

4 уроков
Урок 1
Построение confusion matrix и анализ ошибок по классам
4 шагов
Урок 2
Сегментация ошибок по признакам
7 шагов
Урок 3
Качественный анализ сложных примеров
6 шагов
Урок 4
Формулирование гипотез и планирование следующей итерации
6 шагов
Секция 6

Подготовка модели к деплою

5 уроков
Урок 1
Сериализация модели и артефактов
8 шагов
Урок 2
Проектирование контракта inference API
6 шагов
Урок 3
Разработка минимального FastAPI-сервиса
6 шагов
Урок 4
Обработка ошибок и валидация входа
8 шагов
Урок 5
Batch-inference для офлайн-сценариев
9 шагов
Секция 7

CI/CD для ML-проектов

5 уроков
Урок 1
Юнит-тесты для data pipeline и feature engineering
6 шагов
Урок 2
Интеграционные тесты inference API
8 шагов
Урок 3
Настройка CI-пайплайна (GitHub Actions / GitLab CI)
7 шагов
Урок 4
Автоматизация сборки и регистрации артефактов
7 шагов
Урок 5
Релизные проверки качества модели
6 шагов
Секция 8

Мониторинг и поддержка моделей в продакшне

6 уроков
Урок 1
Мониторинг базовых метрик: latency, throughput, errors
8 шагов
Урок 2
Логирование предсказаний и ground truth
9 шагов
Урок 3
Детекция data drift: распределения признаков
8 шагов
Урок 4
Мониторинг prediction drift и качества модели
9 шагов
Урок 5
Обнаружение деградации модели и триггеры переобучения
8 шагов
Урок 6
Построение дашборда мониторинга модели
8 шагов
Секция 9

Коммуникация результатов и работа с заинтересованными сторонами

4 уроков
Урок 1
Подготовка понятной презентации результатов для бизнеса
4 шагов
Урок 2
Документирование ограничений и рисков модели
5 шагов
Урок 3
Объяснение trade-offs: точность vs скорость, recall vs precision
5 шагов
Урок 4
Взаимодействие с инженерной командой: SLA и требования к инфрас…
9 шагов
Поддержка