Data ScienceНачальныйPublished

Data Engineering Fast‑Track: Kafka → Airflow → Spark

Практический fast-track по data engineering: за 4–6 недель собираем рабочий конвейер Kafka → Spark → Lakehouse под управлением Airflow. Разберём batch и streaming, окна и watermark, схемы и контракты. Мини‑проекты, Docker Compose, шаблоны DAG и пайплайнов. Курс подойдёт инженерам, аналитикам и тем, кто хочет освоить современные пайплайны данных с уверенным Python.

#stepik-import

Data Engineering Fast‑Track: Kafka → Airflow → Spark

О курсе

Подробнее о курсе

Этот курс — быстрый и практичный вход в инженерию данных. Вместо длинной теории вы сразу собираете рабочий конвейер: источники шлют события в Kafka, Spark их очищает и агрегирует (batch и streaming), результаты складываются в Parquet/Delta/Iceberg, а Airflow следит за расписанием, зависимостями и SLA. Мы разбираем, как выбирать ключи и партиции в Kafka, как настроить окна и watermark в стриминге, как не утонуть в shuffle и перекосе ключей в Spark, и как избежать «мелких файлов» в озере. В конце у вас будет шаблон проекта: Docker-компоуз, минимальный DAG, стрим из Kafka в таблицу, проверки свежести и сценарий backfill. Формат: короткая теория → пошаговая инструкция → мини-практика. Всё можно повторить локально: репозиторий с compose-файлами и кодом прилагается. Вы также можете задать любой вопрос по курсу в telegram @alexey_stepik

Записей

Slug

data-engineering-fast-track-kafka-airflow-spark

Структура курса

Секции и уроки

8 секц.

Секция 1

Введение в Data Engineering

4 уроков

Урок 1

Введение в курс

1 шагов

Урок 2

Роль инженера данных

8 шагов

Урок 3

Обзор инструментов: Kafka, Airflow, Spark

7 шагов

Урок 4

Среда разработки и инструменты

9 шагов

Секция 2

Apache Kafka — основы

4 уроков

Урок 1

Архитектура и ключевые понятия Kafka

16 шагов

Урок 2

Развёртывание и конфигурация Kafka

14 шагов

Урок 3

Управление топиками и партициями

16 шагов

Урок 4

Продюсеры и консюмеры

15 шагов

Секция 3

Apache Kafka — продвинутые темы

4 уроков

Урок 1

Модели доставки и группы консюмеров

13 шагов

Урок 2

Streams API

13 шагов

Урок 3

Connect API

14 шагов

Урок 4

Тюнинг и масштабирование Kafka

12 шагов

Секция 4

Apache Airflow — основы

4 уроков

Урок 1

Концепция DAG и организация кодовой базы

14 шагов

Урок 2

Операторы и сенсоры

11 шагов

Урок 3

Планирование и параметры DAG

14 шагов

Урок 4

Переменные, подключения и XCom

13 шагов

Секция 5

Apache Airflow — продвинутые возможности

4 уроков

Урок 1

Управление зависимостями и надёжность

14 шагов

Урок 2

Пользовательские операторы, сенсоры и плагины в Airflow

12 шагов

Урок 3

Интеграция Airflow с внешними сервисами

14 шагов

Урок 4

Мониторинг, интерфейс Airflow и best practices

8 шагов

Секция 6

Apache Spark — основы

4 уроков

Урок 1

Архитектура Apache Spark и RDD

9 шагов

Урок 2

Spark SQL, DataFrame и Dataset

6 шагов

Урок 3

Join’ы и перекос данных: производительность без магии

12 шагов

Урок 4

Lakehouse с Delta/Iceberg: upsert, compaction, time-travel

12 шагов

Секция 7

Apache Spark — потоковая обработка и интеграция с Kafk

4 уроков

Урок 1

Введение в Structured Streaming

1 шагов

Урок 2

Чтение и запись данных из Kafka

4 шагов

Урок 3

Оконные операции и управление временем

12 шагов

Урок 4

Stateful-операции и stream-static join

12 шагов

Секция 8

Проектный модуль: end‑to‑end пайплайн

1 уроков

Урок 1

Итоговый проект: построение пайплайна

2 шагов