Catalogus / назад к курсам
Data ScienceНачальныйPublished

Data Engineering Fast‑Track: Kafka → Airflow → Spark

Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов. Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

#stepik-import
Data Engineering Fast‑Track: Kafka → Airflow → Spark

О курсе

Подробнее о курсе

Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA. Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill. Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается. Вы также можете задать любой вопрос по курсу в telegram @alexey_stepik

Записей
7
Slug
data-engineering-fast-track-kafka-airflow-spark

Структура курса

Секции и уроки

8 секц.
Секция 1

Введение в Data Engineering

4 уроков
Урок 1
Введение в курс
1 шагов
Урок 2
Роль инженера данных
8 шагов
Урок 3
Обзор инструментов: Kafka, Airflow, Spark
7 шагов
Урок 4
Среда разработки и инструменты
9 шагов
Секция 2

Apache Kafka — основы

4 уроков
Урок 1
Архитектура и ключевые понятия Kafka
16 шагов
Урок 2
Развёртывание и конфигурация Kafka
14 шагов
Урок 3
Управление топиками и партициями
16 шагов
Урок 4
Продюсеры и консюмеры
15 шагов
Секция 3

Apache Kafka — продвинутые темы

4 уроков
Урок 1
Модели доставки и группы консюмеров
13 шагов
Урок 2
Streams API
13 шагов
Урок 3
Connect API
14 шагов
Урок 4
Тюнинг и масштабирование Kafka
12 шагов
Секция 4

Apache Airflow — основы

4 уроков
Урок 1
Концепция DAG и организация кодовой базы
14 шагов
Урок 2
Операторы и сенсоры
11 шагов
Урок 3
Планирование и параметры DAG
14 шагов
Урок 4
Переменные, подключения и XCom
13 шагов
Секция 5

Apache Airflow — продвинутые возможности

4 уроков
Урок 1
Управление зависимостями и надёжность
14 шагов
Урок 2
Пользовательские операторы, сенсоры и плагины в Airflow
12 шагов
Урок 3
Интеграция Airflow с внешними сервисами
14 шагов
Урок 4
Мониторинг, интерфейс Airflow и best practices
8 шагов
Секция 6

Apache Spark — основы

4 уроков
Урок 1
Архитектура Apache Spark и RDD
9 шагов
Урок 2
Spark SQL, DataFrame и Dataset
6 шагов
Урок 3
Join’ы и перекос данных: производительность без магии
12 шагов
Урок 4
Lakehouse с Delta/Iceberg: upsert, compaction, time-travel
12 шагов
Секция 7

Apache Spark — потоковая обработка и интеграция с Kafk

4 уроков
Урок 1
Введение в Structured Streaming
1 шагов
Урок 2
Чтение и запись данных из Kafka
4 шагов
Урок 3
Оконные операции и управление временем
12 шагов
Урок 4
Stateful-операции и stream-static join
12 шагов
Секция 8

Проектный модуль: end‑to‑end пайплайн

1 уроков
Урок 1
Итоговый проект: построение пайплайна
2 шагов
Поддержка