Machine LearningСредний

Computer Vision Engineer: от детекции и Doc-AI до продакшна

Практический курс по Computer Vision. Соберёте продакшн-сервис: датасет → обучение (YOLO/RT-DETR, SAM), трекинг, OCR/Doc-AI, веб-приложение (UI+API) и мониторинг. Экспорт в ONNX/TensorRT/OpenVINO, батчинг/квантование под CPU/GPU. Плюс профессиональные блоки: mAP/IoU/Dice и калибровка доверия, QA разметки и аугментации, p95/стоимость, дрейф данных и алерты, guardrails (NMS/правила), A/B-тесты, Triton/gRPC/FastAPI.

Свободный темп обучения

10 модулей • 60 уроков

13 учащихся

Есть пробный урок

#stepik-import

Описание

Этот курс — про продакшн-компьютерное зрение. Вы пройдёте путь от данных и разметки до работающего сервиса с метриками качества, скорости и стоимости инференса. Мы не ограничиваемся ноутбуками: строим сервисы, считаем p95-латентность и cost/1000 кадров, настраиваем мониторинг и приватность.

Что внутри. Детекция и сегментация (YOLOv8/YOLO11, RT-DETR, SAM), Doc-AI (PaddleOCR + LayoutParser), экспорт и ускорение (ONNX/TensorRT/OpenVINO, квантизация INT8, батчинг, динамические инпуты), сервисный слой (FastAPI, очереди Redis/RabbitMQ, rate-limit, ретраи), деплой (Docker/Compose, канареечные релизы), наблюдаемость (Prometheus/Grafana, структурированные логи, алерты).

Практика и артефакты.

Retail: детектор пустых полок → mAP, p95, cost/req, дашборд.

Пром: сегментация дефектов → IoU/Dice, отчёт по браку для менеджмента.

Офис: Doc-AI для чеков/актов → JSON → БД, SLA эндпоинта.

Каждый модуль завершается артефактом: модель/скрипт инференса/эндпоинт/отчёт или дашборд. Все репозитории воспроизводимы (Makefile, docker-compose, инструкции «из коробки»).

Почему это ценно. Вы научитесь не только обучать модели, но и обосновывать ROMI: корректно мерить качество, latency и стоимость, находить узкие места, безопасно обновлять модели (канарейка/shadow), соблюдать политику PII (маскирование лиц/номеров, аудит доступа).

Формат: короткая теория → код → автопроверки/чек-листы → мини-итог. Финал — деплой сервиса с мониторингом и отчётом метрик.

Автор курса

Алексей Малышкин

Разрабатываю образовательные материалы по программированию, машинному обучению и анализу данных. Темы: Python-разработка, аналитика, ML-инструменты (LangChain, vector databases, AI agents), компьютерное зрение. Стараюсь объяснять технические концепции понятно и структурировано. Ранее преподавал на Stepik и обучил более 2000 студентов.

Программа

Секция 1

Введение и быстрый старт

Модуль уже открыт

Урок 1

Как будем работать: цели, стек, проекты

Урок 2

Окружение: venv vs Docker/Compose (минимум)

Урок 3

CLI/утилиты для CVПробный

Урок 4

Метрики CV простым языкомПробный

Урок 5

Бенчмарк CPU/GPU (если есть)Пробный

Урок 6

Git/Make/README как контракт воспроизводимости

Секция 2

Данные и разметка

Модуль уже открыт

Урок 1

Сбор данных и схема классовПробный

Урок 2

Разметка детекции (Label Studio/Roboflow)Пробный

Урок 3

Разметка сегментации (semantic/instance)

Урок 4

Разметка документов (Doc-AI)

Урок 5

Валидация датасета

Урок 6

Аугментации и синтетика

Секция 3

Детекция: YOLO / RT-DETR

Модуль уже открыт

Урок 1

YOLO — базовая тренировка (сложный)

Урок 2

Рецепты улучшения: EMA, cosine LR, freeze, AMP (сложный)

Урок 3

RT-DETR — альтернатива для продакшна (сложный)

Урок 4

Постпроцесс и калибровка порогов

Урок 5

Экспорт детектора в ONNX (сложный)

Урок 6

Error analysis детектора

Секция 4

Сегментация: SAM и адаптеры

Модуль уже открыт

Урок 1

SAM — принципы и промпты (сложный)

Урок 2

Fine-tune SAM: адаптер/LoRA (сложный)

Урок 3

Instance vs Semantic — метрики и выводы

Урок 4

Постпроцесс масок

Урок 5

Экспорт сегментации в ONNX (сложный)

Урок 6

Витринка: сегментация дефектов + отчёт брака

Секция 5

Doc-AI: OCR + Layout → JSON → БД

Модуль уже открыт

Урок 1

OCR базовый (PaddleOCR) (сложный)

Урок 2

Layout/структура документов (сложный)

Урок 3

Нормализация полей и правила

Урок 4

Контракт JSON и валидация схемы

Урок 5

API `/doc-parse` и запись в БД

Урок 6

Витринка: Doc-AI end-to-end (сложный)

Секция 6

Экспорт и ускорение (ONNX/OpenVINO/TensorRT)

Модуль уже открыт

Урок 1

ONNXRuntime на CPU (сложный)

Урок 2

OpenVINO: IR и INT8 PTQ (сложный)

Урок 3

TensorRT: FP16/INT8 на GPU (сложный)

Урок 4

Батчинг и конвейерность

Урок 5

Стоимость инференса

Урок 6

Кейс «до/после» оптимизаций

Секция 7

Сервис: FastAPI, очереди, надёжность

Модуль уже открыт

Урок 1

Базовый API `/predict` + OpenAPI

Урок 2

Очереди и воркеры (Redis/RabbitMQ) (сложный)

Урок 3

Rate-limit, тайм-ауты, ретраи (сложный)

Урок 4

Структурированные логи и трассировка

Урок 5

Файлы, потоки, хранилища

Урок 6

Нагрузочное тестирование и HAR-реплеи

Секция 8

Наблюдаемость, качество и дрейф

Модуль уже открыт

Урок 1

Prometheus экспортёр

Урок 2

Grafana дашборд и алерты

Урок 3

Качество оффлайн и регрессия

Урок 4

Дрейф данных

Урок 5

Дрейф качества

Урок 6

Отчётность для бизнеса

Секция 9

Деплой и релизы

Модуль уже открыт

Урок 1

Docker-образы для CV

Урок 2

Compose-стек: API + Redis + Prom + Grafana

Урок 3

Blue-Green и Canary (сложный)

Урок 4

Shadow-traffic

Урок 5

Версионирование весов и откаты

Урок 6

CI/CD минимум (сложный)

Секция 10

Приватность, безопасность и ROMI. Финал

Модуль уже открыт

Урок 1

Приватность изображений (PII)

Урок 2

Security-базис сервиса

Урок 3

ROMI для SMB-кейсов

Урок 4

Финальный проект: Retail «пустые полки» (сложный)

Урок 5

Финальный проект: Пром «дефекты»

Урок 6

Финальный проект: Doc-AI «чеки/акты» (сложный)