Catalogus / назад к курсам
Machine LearningНачальныйPublished

LLMOps & Evaluation: из песочницы в продакшн

Практический курс по LLMOps. Соберёте продакшн-контур для LLM: eval-фреймворк (LangSmith/Ragas/OpenAI Evals), quality-гейты в CI/CD, алёрты на дрейф, монитринг скорости и стоимости, управление промпт-версиями и безопасность. Плюс профессиональные блоки: synthetic data для тестов, LLM-based judges, отчётность для релиз-комитета и runbook’и инцидентов.

#stepik-import
LLMOps & Evaluation: из песочницы в продакшн

О курсе

Подробнее о курсе

LLMOps & Evaluation (PRO) — это практический курс о том, как вывести работу с GPT и другими LLM из песочницы в продакшн. Мы разберём полный цикл: от построения пайплайнов (RAG, агенты) до оценки качества, мониторинга и оптимизации стоимости. Вы научитесь бороться с галлюцинациями, автоматизировать A/B-тесты и настраивать метрики, которые реально отражают работу модели. В курсе: практические инструменты: LangSmith, Ragas, OpenAI Evals, PromptLayer; автоматизированные тесты и synthetic data; мониторинг качества, латентности и затрат; safety-тесты и контроль рисков. Итог — вы сможете построить надёжную LLM-систему с измеримым качеством и управляемой стоимостью. Вы можете задать любой вопрос по курсу автору @alexey_stepik А больше информации о ML/AI/DS вы можете узнать в нашем тгк Data Trends AI & ML

Записей
1
Slug
llmops-evaluation-iz-pesochnicy-v-prodakshn

Структура курса

Секции и уроки

7 секц.
Секция 1

Введение в LLMOps

5 уроков
Урок 1
Почему обычный prompt engineering не работает в продакшне
15 шагов
Урок 2
Классические боли
15 шагов
Урок 3
Обзор инструментов для LLMOps
13 шагов
Урок 4
Разбор реальных кейсов, где LLMOps сделал разницу
6 шагов
Урок 5
Практикум
5 шагов
Секция 2

Архитектура и пайплайны LLM-приложений

5 уроков
Урок 1
Компоненты продакшн-системы
14 шагов
Урок 2
Best practices для пайплайнов RAG и агентов
13 шагов
Урок 3
Управление версиями промптов и моделей (PromptOps)
15 шагов
Урок 4
Логирование и трассировка: как не терять контроль над моделью
10 шагов
Урок 5
Практикум
8 шагов
Секция 3

Метрики качества LLM-систем

5 уроков
Урок 1
Почему «accuracy» ≠ качество в LLM
10 шагов
Урок 2
Классические метрики
11 шагов
Урок 3
Современные метрики
12 шагов
Урок 4
User-oriented метрики
14 шагов
Урок 5
Как построить дашборд для мониторинга качества
12 шагов
Секция 4

Evaluation на практике

5 уроков
Урок 1
Как тестировать промпты и пайплайны (unit tests для LLM)
13 шагов
Урок 2
Автоматизированные A/B тесты с помощью LLM-оценки
13 шагов
Урок 3
Human-in-the-loop: когда и зачем нужны люди в тестировании
14 шагов
Урок 4
Генерация тест-датасетов (synthetic data) для проверки модели
14 шагов
Урок 5
Практика: написать собственный фреймворк для оценки
11 шагов
Секция 5

LLM Monitoring & Observability

4 уроков
Урок 1
Как мониторить продакшн-LLM
11 шагов
Урок 2
Alerting и логирование промптов/ответов
12 шагов
Урок 3
Борьба с деградацией качества (drift detection)
14 шагов
Урок 4
Cost management: оптимизация бюджета на LLM
13 шагов
Секция 6

Advanced Topics (для PRO)

5 уроков
Урок 1
Ragas: как построить автоматическую систему оценки RAG-проектов
9 шагов
Урок 2
OpenAI Evals и Custom Evals
11 шагов
Урок 3
LLM-based judges (оценка ответов через LLM)
8 шагов
Урок 4
Safety & Red-teaming
8 шагов
Урок 5
Интеграция с CI/CD: автоматические quality-гейты для деплоя
8 шагов
Секция 7

Практический проект

4 уроков
Урок 1
Построение RAG-системы с автоматической оценкой качества
1 шагов
Урок 2
Настройка метрик и мониторинга
1 шагов
Урок 3
Проведение A/B тестов между версиями промптов
1 шагов
Урок 4
Сбор и анализ результатов → финальный отчёт
1 шагов
Поддержка