Sergei Notevskii
Строю AI-платформы для production: LLM, STT, embeddings, агенты, инференс, оценка качества, защитные контуры, наблюдаемость, стоимость и ответственность.
Почему мне можно доверять
Публичные, очищенные заметки из production-контекста.
Production AI-платформы
LLM · STT · embeddings · агенты
Свой инференс
vLLM · GPU · маршрутизация
Системы качества
Оценки · регрессии · обратная связь
Публичные материалы
Habr · Telegram · доклады
После демо
Демо работает. Потом начинается production.
Задержка скачет.
Стоимость токенов растёт.
Промпты ломаются.
Агенты уходят в цикл.
Оценки качества нет.
Владелец качества размыт.
Слои платформы
Хэндбук устроен вокруг ответственности платформы, а не вокруг хайпа.
Продуктовые сценарии
Ценность, риски, владелец и критерии успеха.
AI Gateway
Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.
Стратегия провайдеров
MaaS, self-hosted и гибридный подход как стратегия, а не религия.
Маршрутизация моделей
Алиасы, резервные пути, канареечные выкатки и версии моделей.
Где я полезен
Разбор архитектуры, стратегия платформы, контроль качества и экономика инференса.
Проекты
Хэндбук - главный проект. Вокруг него растут инструменты и шаблоны.
Production AI Platform Handbook
Карта платформенной ответственности для команд, которые идут от API-ключа и демо к инференсу, маршрутизации, оценке качества, стоимости и владельцам.
Prefix Cache Auditor
Локальный инструмент для поиска нестабильного префикса, динамических полей, дрейфа схем инструментов и рекомендаций по кешу.
Набор проверок качества ИИ
Чеклист готовности к выкатке: проверка качества, регрессии, канареечная выкатка, обратная связь, резервный маршрут и ответственность.
Тексты
Публичные статьи становятся главами, чеклистами и инструментами внутри хэндбука.
Habr: Короткий промпт не значит дешёвый промпт
Agent loops, стабильный список инструментов и дизайн промпта с учётом кеша.
Habr: 7 анти-паттернов prefix cache
Дрейф timestamp, плавающий порядок инструментов, round-robin маршрутизация и KV-cache.
Habr: Реальная стоимость с кешем
Почему выбор модели нельзя считать только по цене токенов.
Telegram: AI да парен!
Заметки про AI-платформы, vLLM, агентов и продакшн-компромиссы.
Выступления
Доклады становятся главами про стратегию, инференс и экономику.
From MaaS to self-hosted / on-premise models
Merge Tatarstan 2026. Практический доклад о внутреннем провайдере моделей, self-hosted и мифах перед миграцией.
AI-агенты без тумана
Internal AI conference / Habr follow-up. Рабочая модель: где LLM-вызов, где процесс, а где agent loop.
Экономика prefix cache
Public article series. Как разбирать падение доли попаданий в кеш, рост стоимости и скачки задержки после небольших правок.
Форматы взаимодействия
Понятные форматы для докладов, разборов и разговоров на уровне руководства.
Разбор архитектуры
Проверка AI Gateway, маршрутизации, кеша, качества, наблюдаемости, стоимости и ответственности до того, как это станет платформенным долгом.
Рабочая сессия для руководства
Синхронизация стратегии MaaS vs self-hosted, зрелости платформы, ответственности команды и первого плана развития.
Доклад или подкаст
Практичный разговор о production AI-платформах без хайпа.
Коллаборация по хэндбуку
Превращение публичных заметок, инструментов и шаблонов в устойчивые материалы хэндбука.
Об авторе
Sergei Notevskii
Я пишу Production AI Platform Handbook: практический хэндбук для команд, которые превращают AI-демо в production-платформу.
Центральная фраза
Материалы публичные и очищенные: без внутренних деталей, но с production-вкусом.
ПодробнееНачни с карты
Модель заменяема. Платформа накапливает эффект.
Первый релиз намеренно небольшой: карта, модель зрелости, основные слои платформы и практические инструменты.