AI Platform Lead

Sergei Notevskii

Строю AI-платформы для production: LLM, STT, embeddings, агенты, инференс, оценка качества, защитные контуры, наблюдаемость, стоимость и ответственность.

От API-ключа к платформе
01API-ключ / демо
02Gateway
03Маршрутизация / инференс / кеш
04Оценка качества / наблюдаемость / стоимость
05Защитные контуры / ответственность

Почему мне можно доверять

Публичные, очищенные заметки из production-контекста.

Production AI-платформы

LLM · STT · embeddings · агенты

Свой инференс

vLLM · GPU · маршрутизация

Системы качества

Оценки · регрессии · обратная связь

Публичные материалы

Habr · Telegram · доклады

После демо

Демо работает. Потом начинается production.

01

Задержка скачет.

02

Стоимость токенов растёт.

03

Промпты ломаются.

04

Агенты уходят в цикл.

05

Оценки качества нет.

06

Владелец качества размыт.

Слои платформы

Хэндбук устроен вокруг ответственности платформы, а не вокруг хайпа.

L01

Продуктовые сценарии

Ценность, риски, владелец и критерии успеха.

L02

AI Gateway

Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.

L03

Стратегия провайдеров

MaaS, self-hosted и гибридный подход как стратегия, а не религия.

L04

Маршрутизация моделей

Алиасы, резервные пути, канареечные выкатки и версии моделей.

Открыть полную карту из 12 слоёв

Где я полезен

Разбор архитектуры, стратегия платформы, контроль качества и экономика инференса.

AI-платформы
Свой инференс
vLLM и GPU
Маршрутизация и резервные пути
Экономика prefix cache
Оценка качества и релизный контроль
Наблюдаемость LLM
Защитные контуры и ответственность

Проекты

Хэндбук - главный проект. Вокруг него растут инструменты и шаблоны.

Тексты

Публичные статьи становятся главами, чеклистами и инструментами внутри хэндбука.

Выступления

Доклады становятся главами про стратегию, инференс и экономику.

From MaaS to self-hosted / on-premise models

Merge Tatarstan 2026. Практический доклад о внутреннем провайдере моделей, self-hosted и мифах перед миграцией.

AI-агенты без тумана

Internal AI conference / Habr follow-up. Рабочая модель: где LLM-вызов, где процесс, а где agent loop.

Экономика prefix cache

Public article series. Как разбирать падение доли попаданий в кеш, рост стоимости и скачки задержки после небольших правок.

Форматы взаимодействия

Понятные форматы для докладов, разборов и разговоров на уровне руководства.

Об авторе

Sergei Notevskii

Я пишу Production AI Platform Handbook: практический хэндбук для команд, которые превращают AI-демо в production-платформу.

Центральная фраза

Материалы публичные и очищенные: без внутренних деталей, но с production-вкусом.

Подробнее

Начни с карты

Модель заменяема. Платформа накапливает эффект.

Первый релиз намеренно небольшой: карта, модель зрелости, основные слои платформы и практические инструменты.

Открыть карту