Catalogus / назад к курсам
Machine LearningСреднийPublished

Computer Vision Engineer: от детекции и Doc-AI до продакшна

Практический курс по Computer Vision. Соберёте продакшн-сервис: датасет → обучение (YOLO/RT-DETR, SAM), трекинг, OCR/Doc-AI, веб-приложение (UI+API) и мониторинг. Экспорт в ONNX/TensorRT/OpenVINO, батчинг/квантование под CPU/GPU. Плюс профессиональные блоки: mAP/IoU/Dice и калибровка доверия, QA разметки и аугментации, p95/стоимость, дрейф данных и алерты, guardrails (NMS/правила), A/B-тесты, Triton/gRPC/FastAPI.

#stepik-import
Computer Vision Engineer: от детекции и Doc-AI до продакшна

О курсе

Подробнее о курсе

Этот курс — про продакшн-компьютерное зрение. Вы пройдёте путь от данных и разметки до работающего сервиса с метриками качества, скорости и стоимости инференса. Мы не ограничиваемся ноутбуками: строим сервисы, считаем p95-латентность и cost/1000 кадров, настраиваем мониторинг и приватность. Что внутри. Детекция и сегментация (YOLOv8/YOLO11, RT-DETR, SAM), Doc-AI (PaddleOCR + LayoutParser), экспорт и ускорение (ONNX/TensorRT/OpenVINO, квантизация INT8, батчинг, динамические инпуты), сервисный слой (FastAPI, очереди Redis/RabbitMQ, rate-limit, ретраи), деплой (Docker/Compose, канареечные релизы), наблюдаемость (Prometheus/Grafana, структурированные логи, алерты). Практика и артефакты. Retail: детектор пустых полок → mAP, p95, cost/req, дашборд. Пром: сегментация дефектов → IoU/Dice, отчёт по браку для менеджмента. Офис: Doc-AI для чеков/актов → JSON → БД, SLA эндпоинта. Каждый модуль завершается артефактом: модель/скрипт инференса/эндпоинт/отчёт или дашборд. Все репозитории воспроизводимы (Makefile, docker-compose, инструкции «из коробки»). Почему это ценно. Вы научитесь не только обучать модели, но и обосновывать ROMI: корректно мерить качество, latency и стоимость, находить узкие места, безопасно обновлять модели (канарейка/shadow), соблюдать политику PII (маскирование лиц/номеров, аудит доступа). Формат: короткая теория → код → автопроверки/чек-листы → мини-итог. Финал — деплой сервиса с мониторингом и отчётом метрик.

Записей
0
Slug
computer-vision-engineer-ot-detekcii-i-doc-ai-do-prodakshna

Структура курса

Секции и уроки

10 секц.
Секция 1

Введение и быстрый старт

6 уроков
Урок 1
Как будем работать: цели, стек, проекты
7 шагов
Урок 2
Окружение: venv vs Docker/Compose (минимум)
9 шагов
Урок 3
CLI/утилиты для CV
8 шагов
Урок 4
Метрики CV простым языком
7 шагов
Урок 5
Бенчмарк CPU/GPU (если есть)
6 шагов
Урок 6
Git/Make/README как контракт воспроизводимости
8 шагов
Секция 2

Данные и разметка

6 уроков
Урок 1
Сбор данных и схема классов
9 шагов
Урок 2
Разметка детекции (Label Studio/Roboflow)
11 шагов
Урок 3
Разметка сегментации (semantic/instance)
11 шагов
Урок 4
Разметка документов (Doc-AI)
9 шагов
Урок 5
Валидация датасета
8 шагов
Урок 6
Аугментации и синтетика
8 шагов
Секция 3

Детекция: YOLO / RT-DETR

6 уроков
Урок 1
YOLO — базовая тренировка (сложный)
13 шагов
Урок 2
Рецепты улучшения: EMA, cosine LR, freeze, AMP (сложный)
17 шагов
Урок 3
RT-DETR — альтернатива для продакшна (сложный)
14 шагов
Урок 4
Постпроцесс и калибровка порогов
12 шагов
Урок 5
Экспорт детектора в ONNX (сложный)
17 шагов
Урок 6
Error analysis детектора
17 шагов
Секция 4

Сегментация: SAM и адаптеры

6 уроков
Урок 1
SAM — принципы и промпты (сложный)
19 шагов
Урок 2
Fine-tune SAM: адаптер/LoRA (сложный)
28 шагов
Урок 3
Instance vs Semantic — метрики и выводы
17 шагов
Урок 4
Постпроцесс масок
13 шагов
Урок 5
Экспорт сегментации в ONNX (сложный)
22 шагов
Урок 6
Витринка: сегментация дефектов + отчёт брака
12 шагов
Секция 5

Doc-AI: OCR + Layout → JSON → БД

6 уроков
Урок 1
OCR базовый (PaddleOCR) (сложный)
25 шагов
Урок 2
Layout/структура документов (сложный)
16 шагов
Урок 3
Нормализация полей и правила
15 шагов
Урок 4
Контракт JSON и валидация схемы
11 шагов
Урок 5
API `/doc-parse` и запись в БД
14 шагов
Урок 6
Витринка: Doc-AI end-to-end (сложный)
19 шагов
Секция 6

Экспорт и ускорение (ONNX/OpenVINO/TensorRT)

6 уроков
Урок 1
ONNXRuntime на CPU (сложный)
18 шагов
Урок 2
OpenVINO: IR и INT8 PTQ (сложный)
21 шагов
Урок 3
TensorRT: FP16/INT8 на GPU (сложный)
16 шагов
Урок 4
Батчинг и конвейерность
15 шагов
Урок 5
Стоимость инференса
10 шагов
Урок 6
Кейс «до/после» оптимизаций
15 шагов
Секция 7

Сервис: FastAPI, очереди, надёжность

6 уроков
Урок 1
Базовый API `/predict` + OpenAPI
14 шагов
Урок 2
Очереди и воркеры (Redis/RabbitMQ) (сложный)
28 шагов
Урок 3
Rate-limit, тайм-ауты, ретраи (сложный)
20 шагов
Урок 4
Структурированные логи и трассировка
14 шагов
Урок 5
Файлы, потоки, хранилища
11 шагов
Урок 6
Нагрузочное тестирование и HAR-реплеи
14 шагов
Секция 8

Наблюдаемость, качество и дрейф

6 уроков
Урок 1
Prometheus экспортёр
14 шагов
Урок 2
Grafana дашборд и алерты
13 шагов
Урок 3
Качество оффлайн и регрессия
13 шагов
Урок 4
Дрейф данных
14 шагов
Урок 5
Дрейф качества
13 шагов
Урок 6
Отчётность для бизнеса
12 шагов
Секция 9

Деплой и релизы

6 уроков
Урок 1
Docker-образы для CV
18 шагов
Урок 2
Compose-стек: API + Redis + Prom + Grafana
10 шагов
Урок 3
Blue-Green и Canary (сложный)
21 шагов
Урок 4
Shadow-traffic
16 шагов
Урок 5
Версионирование весов и откаты
15 шагов
Урок 6
CI/CD минимум (сложный)
19 шагов
Секция 10

Приватность, безопасность и ROMI. Финал

6 уроков
Урок 1
Приватность изображений (PII)
15 шагов
Урок 2
Security-базис сервиса
13 шагов
Урок 3
ROMI для SMB-кейсов
15 шагов
Урок 4
Финальный проект: Retail «пустые полки» (сложный)
19 шагов
Урок 5
Финальный проект: Пром «дефекты»
16 шагов
Урок 6
Финальный проект: Doc-AI «чеки/акты» (сложный)
20 шагов
Поддержка