Machine LearningНачальный

ML Engineer / Data Scientist: табличные модели в продакшн

Практический курс для тех, кто хочет получить навыки ML Engineer / Data Scientist на реальных табличных задачах. В курсе Вы не просто обучите CatBoost/LightGBM, а соберёте полноценный production-style пайплайн: подготовка данных, feature engineering (генерация признаков), корректная валидация, защита от leakage (утечек), тюнинг через Optuna, интерпретация через SHAP, batch-инференс и REST API для предсказаний.

Свободный темп обучения

8 модулей • 40 уроков

2 учащихся

#stepik-import

Описание

Этот курс — про инженерную сборку сильных моделей на табличных данных под реальные задачи. Мы идём от подготовки данных и корректной валидации к CatBoost/LightGBM, feature engineering и тюнингу гиперпараметров (включая Optuna). Дальше — интерпретация модели (feature importance, SHAP) и диагностика типовых провалов качества: leakage, неправильный split, переобучение и ошибки preprocessing.

Ничего лишнего: каждое занятие заканчивается артефактом — ноутбук/скрипт, таблица экспериментов, отчёт метрик, сохранённая модель или inference pipeline. В финале Вы соберёте воспроизводимый пайплайн обучения и инференса (batch + простой REST API), который можно положить в GitHub-портфолио.

Автор курса

Алексей Малышкин

Разрабатываю образовательные материалы по программированию, машинному обучению и анализу данных. Темы: Python-разработка, аналитика, ML-инструменты (LangChain, vector databases, AI agents), компьютерное зрение. Стараюсь объяснять технические концепции понятно и структурировано. Ранее преподавал на Stepik и обучил более 2000 студентов.

Программа

Секция 1

Подготовка данных и инфраструктура ML-проекта

Модуль уже открыт

Урок 1

Настройка окружения и структура ML-проекта

Урок 2

Версионирование данных и моделей с DVC

Урок 3

Exploratory Data Analysis табличных данных

Урок 4

Обработка пропусков в табличных данных

Урок 5

Кодирование категориальных признаков

Секция 2

Feature Engineering для табличных данных

Модуль уже открыт

Урок 1

Генерация признаков на основе бизнес-логики

Урок 2

Полиномиальные признаки и взаимодействия

Урок 3

Агрегатные признаки и группировки

Урок 4

Автоматический Feature Engineering с Featuretools

Секция 3

Обучение моделей CatBoost

Модуль уже открыт

Урок 1

Первая модель CatBoost для классификации

Урок 2

Встроенная обработка категорий в CatBoost

Урок 3

Кросс-валидация для CatBoost

Урок 4

CatBoost для задачи регрессии

Секция 4

Обучение моделей LightGBM

Модуль уже открыт

Урок 1

Первая модель LightGBM для классификации

Урок 2

Обработка категориальных признаков в LightGBM

Урок 3

Кросс-валидация для LightGBM

Урок 4

LightGBM для задачи регрессии

Секция 5

Тюнинг гиперпараметров моделей

Модуль уже открыт

Урок 1

Grid Search для подбора гиперпараметров

Урок 2

Random Search для ускоренного тюнинга

Урок 3

Bayesian Optimization с Optuna

Урок 4

Тюнинг параметров регуляризации

Урок 5

Сравнение стратегий тюнинга

Секция 6

Интерпретация и отладка моделей

Модуль уже открыт

Урок 1

Feature Importance в CatBoost и LightGBM

Урок 2

SHAP-значения для глобальной интерпретации

Урок 3

SHAP-значения для локальных предсказаний

Урок 4

Диагностика переобучения и underfitting

Урок 5

Выявление data leakage

Урок 6

Анализ ошибок модели

Секция 7

Автоматизация и deployment моделей

Модуль уже открыт

Урок 1

Автоматизация обучения с Python-скриптами

Урок 2

Создание inference pipeline

Урок 3

Unit-тесты для ML-пайплайна

Урок 4

Deployment модели через REST API с FastAPI

Урок 5

Batch-инференс для больших объемов данных

Урок 6

Контейнеризация модели с Docker

Секция 8

Мониторинг моделей в продакшне

Модуль уже открыт

Урок 1

Метрики для мониторинга качества модели

Урок 2

Детектирование дрейфа признаков

Урок 3

Детектирование дрейфа предсказаний

Урок 4

Система алертов для деградации модели

Урок 5

Dashboard для визуализации метрик

Урок 6

Стратегия переобучения модели