Data ScienceСредний

Data Scientist: от данных до деплоя моделей

Практический курс по Data Science: от постановки ML-задачи и работы с данными до inference API, CI/CD и мониторинга моделей в продакшне. Вы пройдёте EDA, feature engineering, обучение и оценку моделей, experiment tracking, error analysis и deployment — чтобы собирать полноценный рабочий контур вокруг ML-решения.

Свободный темп обучения

9 модулей • 46 уроков

6 учащихся

Есть пробный урок

#stepik-import

Описание

Этот курс посвящён полному прикладному циклу Data Science: от постановки ML-задачи и анализа данных до сервиса предсказаний, CI/CD и мониторинга модели в продакшне.

Вместо абстрактного “обучили модель в ноутбуке и пошли дальше” Вы пройдёте весь рабочий контур, который нужен в реальных проектах: формализация задачи, выбор метрик, проверка качества данных, поиск утечек, построение признаков, обучение baseline- и gradient boosting-моделей, experiment tracking, оценка качества, error analysis, model serving, автоматические проверки и мониторинг после релиза.

В курсе отдельно разобраны важные практические темы, которые часто упускают в классических ML-курсах: reproducibility, data leakage, стабильность признаков, ложное улучшение качества, API-контракт для inference, batch-inference, тестирование data pipeline и inference API, quality gates перед деплоем, data drift и prediction drift.

Курс подойдёт тем, кто хочет не просто запускать модели, а понимать, как довести ML-решение до рабочего продакшн-сценария: с воспроизводимостью, валидацией, сервисом предсказаний, мониторингом и понятной коммуникацией результатов.

Программа курса включает:

— постановку ML-задачи и работу с данными;

— feature engineering и подготовку признаков;

— обучение и валидацию моделей;

— experiment tracking и оценку качества;

— error analysis и итеративное улучшение;

— подготовку модели к деплою;

— CI/CD для ML-проектов;

— мониторинг и поддержку моделей в продакшне;

— коммуникацию результатов и ограничений модели.

P.S. Ранее курс размещался на Stepik, отзывы ниже взяты оттуда

Автор курса

Алексей Малышкин

Разрабатываю образовательные материалы по программированию, машинному обучению и анализу данных. Темы: Python-разработка, аналитика, ML-инструменты (LangChain, vector databases, AI agents), компьютерное зрение. Стараюсь объяснять технические концепции понятно и структурировано. Ранее преподавал на Stepik и обучил более 2000 студентов.

Программа

Секция 1

Постановка ML-задачи и работа с данными

Модуль уже открыт

Урок 1

От бизнес-проблемы к ML-постановкеПробный

Урок 2

Формализация метрик и trade-offs

Урок 3

Инвентаризация источников данных

Урок 4

Настройка reproducibility и версионирование данных

Урок 5

Exploratory Data Analysis: распределения и аномалии

Урок 6

Поиск data leakage и временных утечек

Урок 7

Валидация качества данных и построение чек-листа

Секция 2

Feature engineering и подготовка признаков

Модуль уже открыт

Урок 1

Базовые трансформации: кодирование и нормализация

Урок 2

Работа с пропусками и выбросами

Урок 3

Генерация доменных признаков

Урок 4

Feature selection: фильтры и embedded методы

Урок 5

Валидация устойчивости признаков

Урок 6

Построение feature pipeline

Секция 3

Обучение и валидация моделей

Модуль уже открыт

Урок 1

Baseline-модель и train/val/test split

Урок 2

Выбор валидационной стратегии

Урок 3

Обучение gradient boosting моделей

Урок 4

Интерпретация learning curves и диагностика переобучения

Секция 4

Эксперимент-трекинг и оценка моделей

Модуль уже открыт

Урок 1

Настройка эксперимент-трекинга (MLflow / Weights & Biases)

Урок 2

Сравнение экспериментов и версионирование моделей

Урок 3

Выбор метрик оценки

Урок 4

Оценка на holdout и кросс-валидация

Урок 5

Обнаружение ложного улучшения качества

Секция 5

Error analysis и итеративное улучшение

Модуль уже открыт

Урок 1

Построение confusion matrix и анализ ошибок по классам

Урок 2

Сегментация ошибок по признакам

Урок 3

Качественный анализ сложных примеров

Урок 4

Формулирование гипотез и планирование следующей итерации

Секция 6

Подготовка модели к деплою

Модуль уже открыт

Урок 1

Сериализация модели и артефактов

Урок 2

Проектирование контракта inference API

Урок 3

Разработка минимального FastAPI-сервиса

Урок 4

Обработка ошибок и валидация входа

Урок 5

Batch-inference для офлайн-сценариев

Секция 7

CI/CD для ML-проектов

Модуль уже открыт

Урок 1

Юнит-тесты для data pipeline и feature engineering

Урок 2

Интеграционные тесты inference API

Урок 3

Настройка CI-пайплайна (GitHub Actions / GitLab CI)

Урок 4

Автоматизация сборки и регистрации артефактов

Урок 5

Релизные проверки качества модели

Секция 8

Мониторинг и поддержка моделей в продакшне

Модуль уже открыт

Урок 1

Мониторинг базовых метрик: latency, throughput, errors

Урок 2

Логирование предсказаний и ground truth

Урок 3

Детекция data drift: распределения признаков

Урок 4

Мониторинг prediction drift и качества модели

Урок 5

Обнаружение деградации модели и триггеры переобучения

Урок 6

Построение дашборда мониторинга модели

Секция 9

Коммуникация результатов и работа с заинтересованными сторонами

Модуль уже открыт

Урок 1

Подготовка понятной презентации результатов для бизнеса

Урок 2

Документирование ограничений и рисков модели

Урок 3

Объяснение trade-offs: точность vs скорость, recall vs precision

Урок 4

Взаимодействие с инженерной командой: SLA и требования к инфрас…