Транскрибация звонков и STT — бизнес-разбор и способы реализации

transcription · 2026 · аналитический брифинг

Документ для команды: чем транскрибировать звонки и встречи на русском, что реально доступно из РФ под санкциями, сколько это стоит — и какие в итоге есть способы реализации. Без кода: только разбор движков, сравнение инструментов, цены и решения по сценарию.

Главное за 30 секунд. Для русского Whisper — не лидер: RU-специализированные модели (GigaAM, T-one) бьют его на звонках почти вдвое. EU-санкции от 22.01.2026 закрывают западные AI-облака для РФ — деплоибельны без барьера только RU-native (Yandex SpeechKit, SaluteSpeech) и self-hosted OSS. Самый дешёвый стек — локальная запись Telemost (0 ₽) + GigaAM на CPU (≈ $0 маржинально); самый дешёвый облачный — Yandex async ~$0.075/ч. У Telemost нет bot/transcript-API → путь к тексту = запись → STT; Meet/Zoom закрываются через Recall.ai / RTMS / Meet REST.
Содержание
  1. Контекст и задача
  2. Государственные ограничения: санкции 22.01.2026
  3. STT-движки и API: качество русского и доступность
  4. SaaS-нотейкеры (готовый продукт)
  5. Захват звонка по платформам
  6. Цены: $/час и $/мес за seat
  7. Способы реализации (обзор подходов)
  8. Рекомендация по сценарию
Часть I · Бизнес-разбор

1. Контекст и задача

Задача — транскрибировать звонки и встречи (преимущественно на русском) и получать на выходе текст с разделением по спикерам. Цель — собрать решение из существующих инструментов, а не писать STT с нуля. Три фактора переворачивают наивный выбор «возьмём Whisper и Otter»:

1 · Русский ≠ Whisper

RU-специализированные модели GigaAM и T-one бьют Whisper-large-v3 на звонках примерно вдвое. На call-center: T-one 8.63% WER против Whisper 19–23%.

2 · Санкции отсекают западное

С 22.01.2026 ЕС запретил AI-сервисы в РФ; OpenAI банит RU-аккаунты; оплата с РФ-карт сломана. Деплоибельны без барьера только RU-native и self-hosted (§2).

3 · Telemost ломает захват

У Telemost нет ни bot-API, ни media/transcript-API — только управление встречами. Единственный путь к транскрипту: запись → постобработка STT.

Дальше — три сравнительные оси: чем распознавать (движки/API), чем пользоваться «из коробки» (SaaS-нотейкеры), как достать аудио из звонка (захват по платформам). Каждая ось упирается в санкционный фильтр и в цену.

2. Государственные ограничения: санкции 22.01.2026

EU Art.5n рег. (EU) 833/2014, расширение 22.01.2026. Прямой запрет на предоставление «AI services» в РФ — «доступ к hosted AI models», «платформы для training / fine-tuning / inference», явно «irrespective of whether delivered via APIs, cloud-based platforms or similar means». Это юридический фильтр, который для РФ-команды часто важнее сырого качества. squirepattonboggs.com — EU sanctions update (Art.5n, рег. 833/2014)

К санкционному запрету добавляются два практических блокера: OpenAI не включает РФ в список поддерживаемых стран и банит RU-аккаунты, а оплата западных сервисов с РФ-карт (Visa/MC российских банков) не работает — нужна иностранная карта или крипта.

developers.openai.com/api/docs/supported-countries (РФ не в списке поддерживаемых стран)

Классификация по деплоибельности из РФ

КатегорияИнструментыСтатус из РФ
RU-native облакоYandex SpeechKit, SaluteSpeech (Sber)✓ без барьера
Self-hosted OSSGigaAM, T-one, Whisper/faster-whisper, WhisperX, Vosk, NeMo✓ обходит санкции (свой сервер)
Западное облакоOpenAI, AssemblyAI, Google, Azure, ElevenLabs Scribe, Groq Whisper✗ юр. + платёжный риск
Западный on-premDeepgram (on-prem), Azure (контейнеры)⚠️ только если лицензия исполнима под санкциями

⚠️ Явный IP-геоблок западных STT с РФ не подтверждён — главный блокер биллинг, не блок. Исполнимость on-prem-лицензий Deepgram/Azure для РФ-юрлица под санкциями — открытый вопрос.

Вывод. Структурное преимущество RU-native и self-hosted важнее сырого WER: можно выбрать самый точный движок (ElevenLabs Scribe, 3.1% FLEURS) и не суметь легально/платёжно его использовать. Поэтому практический выбор сужается до Yandex / Salute / OSS.

3. STT-движки и API: качество русского и доступность

Главный фильтр — колонка «Из РФ». Качество русского измеряется через WER (Word Error Rate, ниже = лучше), но честного кросс-провайдерного RU-бенчмарка не существует (см. оговорку ниже), поэтому ранги достоверны внутри одной таблицы, не между абсолютами.

3.1 Облачные STT API

ПровайдерRU качествоRealtimeДиаризацияSelf-hostИз РФ
Yandex SpeechKit RU~95–97% (не бенч.)датолько 2 спикера✓ без барьера
SaluteSpeech (Sber) RUсильное (не бенч.)дада, >2✓ без барьера
ElevenLabs Scribe3.1% FLEURS (лучший)да (без диариз.)48 спикеров✗ санкции
OpenAI Whisper API5.7% FLEURSдада (4o-diarize)— (OSS да)✗ блок
AssemblyAIслабый рассказRU c 03.2026да✗ санкции
Groq Whisper (large-v3)= Whisperда (managed)нет✗ санкции
Deepgram Nova-3не публ.дада✓ on-prem✗ (on-prem ⚠️)
Azure AI Speechне публ.да35 спикеров✓ контейнеры✗ (контейнер ⚠️)

Доступность из РФ: EU Art.5n / рег. 833/2014 · OpenAI supported-countries. Документация движков: Yandex SpeechKit · SaluteSpeech · ElevenLabs Scribe (ru)

3.2 Open-source (self-hosted, обходит санкции)

ПроектRU качество (WER)ДиаризацияRealtimeЖелезоЛицензия
GigaAM-v3 (Sber) OSSRU-SOTA · 0.9% CV / 9.5% callнет (+ pyannote)ограниченноCPU-okMIT
T-one (T-Bank) OSScall-center 8.63%нет (+ pyannote)да (300 мс)CPU-okApache-2.0
Whisper / faster-whisper5.4% CV / 23% callнетбатчGPU (CPU слабо)MIT
WhisperX= Whisper✓ pyannoteбатчGPUBSD-2
Vosk4.4% crowd / 36% callнетдаCPU-only / edgeApache-2.0
NVIDIA NeMo~Whisper-tier (мультиязык)✓ SortformerдаGPUApache / CC-BY

github.com/salute-developers/GigaAM · github.com/voicekit-team/T-one · openai/whisper · m-bain/whisperX · NVIDIA-NeMo · pyannote 3.1 (диаризация)

Лучший RU self-hosted стек с диаризацией: GigaAM / T-one (ASR) + pyannote (диаризация) — паттерн как в WhisperX, но с RU-акустикой, которая ~в 2× точнее Whisper на звонках.

3.3 WER-матрица русского

МодельCommonVoice ruGolos FarfieldCall-centerТип / доступ
GigaAM-v3 RNNT0.93.99.5OSS MIT · RU ✓
GigaAM-v2 RNNT2.6810.22OSS MIT
T-one (71M)5.328.63OSS Apache · стриминг
ElevenLabs Scribe5.5облако · 3.1 FLEURS · РФ ✗
Whisper large-v35.4–5.7816.419.4–23.1OSS MIT · generalist
Vosk-ru-0.42~6.14.4 (crowd)36.0OSS · CPU/edge
Yandex SpeechKitне публикует WER — ~95–97% accuracy (3rd-party)облако · RU ✓
SaluteSpeechне публикует WERоблако · RU ✓
Бенчмарк-оговорка. Open ASR Leaderboard не покрывает русский → честного кросс-провайдерного RU WER не существует. Цифры — из вендорских таблиц на разных сплитах: доверять рангам внутри таблицы, не абсолютам между ними. Yandex/Sber WER не публикуют — их «качество русского» это практика/маркетинг, не бенчмарк. Russian ASR Leaderboard · GigaAM-v3 (HF) · T-one (HF)

4. SaaS-нотейкеры — готовый продукт

Если строить не хочется — есть готовые «нотейкеры»: подключаются ботом к звонку и отдают транскрипт + саммари. Главные фильтры для РФ: поддержка русского, поддержка Telemost и возможность оплаты.

СервисРусскийTelemostЗахватAPIИз РФ (оплата)
mymeet.ai RUда✓ бот-в-Telemostбот✓ ₽
Krispда✓ захват ОС-звукабез ботаслабыйкарта ✗
Firefliesпосредственнотолько uploadбот + APIсильныйкарта ✗
MeetGeekдатолько uploadботAPI + MCPкарта ✗
Semblyда (заявл.)только uploadботда (MCP)карта ✗
Read.aiда (аналитика)ботдакарта ✗
tl;dvне подтв.только uploadбот + desktopслабыйкарта ✗
Nottaнестабильнотолько uploadботспорнокарта ✗
Otter.aiнет русскогоботслабыйкарта ✗

Русское качество SaaS — вендорская заявка, пилотировать перед покупкой. Оплата всех западных с РФ-карт сломана (см. §2) → иностранная карта/крипта. mymeet.ai — RU-native исключение (оплата ₽).

Единственный «из коробки» под Telemost и РФ: mymeet.ai — единственный нотейкер с ботом-в-Telemost, русский, диаризация, оплата в рублях. Альтернатива без бота — Krisp (захватывает системный звук ОС, работает с любой платформой), но оплата только западной картой.

5. Захват звонка по платформам

STT-движок бесполезен без аудио. Три подхода: (A) бот в звонке, (B) запись → постобработка, (C) официальный API/SDK платформы. Возможности резко различаются по платформам — и именно Telemost ломает «бот»-подход.

ПлатформаБот-в-звонке?Нативная транскрипция (тариф)Media / stream API?Лучший путь
Google Meet✓ Recall / PuppeteerGemini (Business Standard+)Conference Records REST · Media API = Dev Previewсвой Workspace → REST; иначе Recall-бот → свой STT
Zoom✓ Recall / SDKCloud Recording (Pro+)✓ RTMS (live, без бота)свой org + realtime → RTMS; иначе Recall
Yandex Telemostтолько mymeet.ai / DIY«конспект» (Yandex 360, платно)✗ только управление встречамизапись .webm → SpeechKit / GigaAM
любая (incl. Telemost)Krisp — захват системного звука ОС
Платформа Google Meetбот / нативн. / REST ZoomRTMS / бот / запись Yandex Telemostнет media-API Способ A · бот (Recall.ai $0.65/ч) C · Zoom RTMS (live, без бота) C · Meet REST / нативн. конспект B · запись .webm → STT A · mymeet.ai (бот-в-Telemost) STT-движок SpeechKit / GigaAM + pyannote (диаризация)
Telemost — узкое место. Нет ни bot-API, ни media/transcript-API: программно встроить «слушающего бота» нельзя. Реалистичные пути — нативный «конспект» Yandex 360 (платно, seat) или бесплатная локальная запись → свой STT; готовый сторонний бот для Telemost есть только у mymeet.ai.

6. Цены: $/час и $/мес за seat

Цены приведены к сравнимым единицам: STT API и компьют → $/час аудио; SaaS и платформы → $/мес за пользователя (seat). Курс конверсии $1 = ₽79. «Бесплатный» open-source не бесплатен — платишь за компьют.

Ключевой вывод по стоимости. Самый дешёвый облачный STT — Yandex async-deferred ~$0.075/ч (₽9.14). Но self-host GigaAM на CPU ≈ $0 маржинально (только своё железо) — и это ещё и обходит санкции. Готовый бот Recall.ai — $0.65/ч, в разы дороже.

6.1 STT API — $/час аудио

ПровайдерДешевейший батчStreamingFree / кредитИз РФ
Yandex SpeechKit RU$0.075 (₽9.14)$0.32 (₽39)грант ₽4–10k · 60 дн
SaluteSpeech RU~$0.46 (₽36)~$0.46100 мин/мес (физл.)
AssemblyAI$0.15 (U-2)$0.45 (U-3)$50 кредит
OpenAI$0.18 (4o-mini)$1.02 (RT)
Google STT$0.24 (Dyn.Batch)~$0.96 std60 мин/мес
Deepgram Nova-3~$0.26~$0.29$200 кредитon-prem
Azure Speech$0.36 (fast)$1.00 (RT)F0 5ч/месконтейнер
ElevenLabs Scribe$0.40 (v1)$0.28 (v2 RT)10k кред./мес

Yandex SpeechKit pricing · SaluteSpeech tariffs · AssemblyAI · OpenAI · Google STT · Deepgram · Azure Speech · ElevenLabs

⚠️ Deepgram батч и Google standard — разметка страниц противоречива (sales-quoted/snippet). Цены батч/async, без НДС.

6.2 SaaS-нотейкеры — free-лимит + дешевейший платный (годовой)

СервисFree-тарифДешевейший платныйРусскийИз РФ (оплата)
mymeet.ai RU180 мин/мес850₽ (~$8) Liteда✓ ₽
MeetGeek3 ч/мес$9.99 Proдакарта ✗
Firefliesтранскрипт. безлим$10 Proпосредств.карта ✗
Semblyтриал$10 Basicдакарта ✗
Notta120 мин/мес~$8.17 Proнестаб.карта ✗
Otter300 мин/мес$8.33 Proнеткарта ✗
Read.ai5 транскр./мес$15 Proдакарта ✗
tl;dvбезлим зап., 10 саммари lifetime$18 Proдакарта ✗
Krispтолько 7-дн триал$8 Coreдакарта ✗

mymeet.ai · MeetGeek · Fireflies · Sembly · Notta · Otter · Read.ai · tl;dv · Krisp

⚠️ Krisp: бессрочного free НЕТ — только 7-дневный триал (проверено 2026-05-29). tl;dv годовые цены не подтверждены (страница JS-only).

6.3 Захват / платформы — seat + $/час

СервисЦенаЧто даёт
Recall.ai$0.65/ч (запись $0.50 + транскр. $0.15)бот Meet/Zoom/Teams; первые 5ч free; без месячной платы
Zoom Pro$13.33/польз/мес (год.)cloud-запись + нативный транскрипт
Zoom RTMSпо запросу (sales)live аудио + транскрипт без бота
Google Workspace Standard$14/польз/мес (год.)Meet-транскрипт + Gemini-конспект
Yandex 360 Минимальный RU319₽/польз/месAI-«конспект» + запись Telemost на Диск
Telemost локальная запись RU0₽ (любой тариф).webm для постобработки в свой STT

Recall.ai pricing · Zoom · Zoom RTMS · Google Workspace · Yandex 360

6.4 Стоимость хостинга «бесплатных» OSS (компьют, не лицензия)

ОпцияЦена компьюта$/час аудио
GigaAM / T-one на CPU (своё железо)$0≈ $0 маржинально
GPU-аренда RTX 4090$0.18–0.69/ч~$0.02–0.03
Groq Whisper large-v3-turbomanaged$0.04 РФ ✗
Fireworks / Groq large-v3managed$0.05–0.19
Replicate T4$0.81/ч~$0.10–0.20

Groq · Fireworks · Replicate · RunPod (RTX 4090)

Часть II · Способы реализации

7. Какие есть способы реализации

На уровне выбора подхода (без деталей сборки) решение раскладывается на две оси: как достать аудио (захват) и чем распознать (STT-движок). Захват: запись / бот / нативный stream-API. Движок: self-host vs RU-облако vs западное (под санкциями).

1 · Self-host OSS

≈ $0 маржинально без санкций

GigaAM (точность, CPU) или T-one (live-телефония) + pyannote для диаризации. RU-SOTA качество, данные не покидают инфру. «Цена» — инженерный сетап пайплайна.

2 · RU-облако

без барьера быстрый старт

Yandex SpeechKit (дешевле всех — $0.075/ч; диаризация только 2 спик.) или SaluteSpeech (диаризация >2, но 15k ₽/мес минималка юрлиц). Без своего железа.

3 · Западное облако

под санкциями

ElevenLabs Scribe / OpenAI / AssemblyAI / Groq — лучший WER, но юр.+платёжный риск (§2). On-prem Deepgram/Azure — теоретический «escape hatch» при исполнимой лицензии.

Ось захвата

бот / запись / API

Meet/Zoom: Recall.ai-бот или нативные API (RTMS / Meet REST). Telemost: только запись → STT (нет media-API) либо готовый mymeet.ai-бот.

Что важнее? приватность / скорость / WER приватность скорость макс. WER Self-host OSS GigaAM / T-one + pyannote ≈ $0, без санкций RU-облако SpeechKit $0.075/ч / SaluteSpeech Западное облако Scribe / OpenAI под санкциями Барьеры из РФ: 1) EU Art.5n (22.01.2026) 2) оплата РФ-картой сломана Захват аудио (общая ось) Meet/Zoom → Recall.ai-бот · Zoom RTMS · Meet REST ····· Telemost → запись .webm (нет media-API) / mymeet.ai-бот любой захват → выбранный STT-движок выше

Self-host vs облако — какой путь под какой приоритет

АспектSelf-host OSSRU-облакоЗападное облако
Маржинальная цена≈ $0 (CPU) / $0.02–0.03 (GPU)$0.075–0.46/ч$0.15–0.40/ч
Доступность из РФ✓ обходит санкции✓ без барьера✗ юр.+оплата
RU качествоRU-SOTA (GigaAM/T-one)сильное (не бенч.)лучший WER (Scribe)
Диаризация+ pyannote (отдельно)Salute >2 / Yandex 2 спик.да (48 спик. Scribe)
Стартинженерный сетапключ API сразуключ + иностр. оплата

8. Рекомендация по сценарию

Русский звонок, приватность / минимум денег

Локальная запись Telemost (0₽) + GigaAM на CPU + pyannote. RU-SOTA без GPU, ≈ $0 маржинально, без санкций, данные не покидают инфру. Цена — инженерный сетап пайплайна.

github.com/salute-developers/GigaAM

Русский звонок, без своего железа

Yandex SpeechKit (дешевле всех — $0.075/ч; минус — диаризация 2 спик.) или SaluteSpeech (диаризация >2, free 100 мин, но 15k ₽/мес минималка юрлиц). Захват Telemost — запись → API.

Западная встреча (Meet / Zoom)

Свой Workspace/org → нативные API (Meet REST / Zoom RTMS). Иначе Recall.ai-бот ($0.65/ч) → свой RU-STT. Готовый продукт — Fireflies / MeetGeek (русский тестировать).

Готовый продукт под Telemost

mymeet.ai — единственный нотейкер с ботом-в-Telemost, русский, диаризация, оплата ₽ (от 850₽/мес). Без бота для любой платформы — Krisp (захват ОС-звука).

Оптимальный путь для РФ-команды.