Транскрибация звонков + STT: сравнение готовых инструментов

report · домен transcription · май 2026 · фокус — русский язык, Telemost/Meet/Zoom, доступность из РФ

Цель — собрать решение из существующих инструментов, не писать STT с нуля. Три фактора переворачивают наивный выбор «возьмём Whisper и Otter»:

1. Для русского Whisper — не лидер. RU-специализированные модели (GigaAM, T-one) бьют Whisper-large-v3 на звонках ≈ в 2 раза.
2. Санкции отсекают западные облака. EU с 22.01.2026 запретил AI-сервисы в РФ; OpenAI банит RU-аккаунты; оплата с РФ-карт сломана. Деплоибельны без барьера только RU-native и self-hosted.
3. Telemost ломает захват. Нет ни bot-API, ни media/transcript-API — только управление встречами. Путь к транскрипту = запись → постобработка.

1. STT API — под собственную интеграцию

Облачные движки. Колонка «Из РФ» — решающий фильтр: западные за санкционной стеной.

ПровайдерRU качествоRealtimeДиаризацияЦена (батч)Self-hostИз РФ
Yandex SpeechKit RU~95–97% (не бенч.)датолько 2 спик.async deferred ~$0.075/ч✓ без барьера
SaluteSpeech (Sber) RUсильное (не бенч.)дада, >236 ₽/ч · free 100мин✓ без барьера
OpenAI Whisper API5.7% FLEURSда4o-diarize$0.003–0.017/мин— (OSS да)✗ блок
Deepgram Nova-3не публ.дада$0.0077/мин✓ on-prem✗*
AssemblyAIслабый рассказRU с 03.2026да$0.21/ч
Google Chirp 2/3не публ.дада$0.004/мин
Azure AI Speechне публ.да35 спик.$0.18/ч✓ контейнеры
ElevenLabs Scribe3.1% FLEURS (лучший)да (без диариз.)48 спик.от $0.40/ч

* Deepgram/Azure on-prem — единственный западный «escape hatch» при исполнимой лицензии. Цены — батч/async, без НДС.

2. Open-source — self-hosted (обходит санкции)

ПроектRU качество (WER)ДиаризацияRealtimeЖелезоЛицензия
GigaAM-v3 (Sber) OSSRU-SOTA 0.9% CV / 9.5% callнет (pyannote)ограниченноCPU-okMIT
T-one (T-Bank) OSScall-center 8.63%нет (pyannote)300мсCPU-okApache-2.0
Whisper / faster-whisper5.4% CV / 23% callнетбатчGPU (CPU слабо)MIT
WhisperX= Whisper✓ pyannoteбатчGPUBSD-2
Vosk4.4% crowd / 36% callнетдаCPU-only/edgeApache-2.0
NVIDIA NeMo~Whisper-tier (мультиязык)✓ SortformerдаGPUApache/CC-BY
Лучший RU self-hosted стек с диаризацией: GigaAM/T-one (ASR) + pyannote (диаризация) — паттерн как в WhisperX, но с RU-акустикой, которая ~в 2× точнее Whisper на звонках.

3. Качество русского — WER-матрица

Word Error Rate, ниже = лучше. Ключевой паттерн: чистая речь (CommonVoice) ≠ звонки (call-center) — generalist'ы рушатся на звонках.

МодельCommonVoice ruGolos FarfieldCall-centerТип / доступ
GigaAM-v3 RNNT0.93.99.5OSS MIT · RU ✓
GigaAM-v2 RNNT2.6810.22OSS MIT
T-one (71M)5.328.63OSS Apache · стриминг
ElevenLabs Scribe5.5облако · 3.1 FLEURS · РФ ✗
Whisper large-v35.4–5.7816.419.4–23.1OSS MIT · generalist
Vosk-ru-0.42~6.14.4 (crowd)36.0OSS · CPU/edge
Yandex SpeechKitне публикует WER — ~95–97% accuracy (3rd-party)облако · RU ✓
SaluteSpeechне публикует WERоблако · RU ✓
Бенчмарк-оговорка. Open ASR Leaderboard не покрывает русский → честного кросс-провайдерного RU WER не существует. Цифры — из вендорских таблиц на разных сплитах; доверять рангам внутри таблицы, не абсолютам между ними.

4. SaaS-нотейкеры — готовый продукт

СервисРусскийTelemostЗахватAPIЦена (вход)
mymeet.ai RUда✓ бот-в-Telemostботfree 180мин
Krispда✓ OS-захватбез ботаслабый7-дн триал / $8
Firefliesпосредств.только uploadбот + API-инъекциясильныйfree / $10
MeetGeekдатолько uploadботAPI + MCPfree / $9.99
Semblyда (заявл.)только uploadботда$10
tl;dvне подтв.только uploadбот + desktopслабыйfree / $18
Read.aiда (аналитика)ботда$15
Nottaнестабильнотолько uploadботBusiness+$8.17
Otter.aiнет русскогоботслабый$8.33
Cuboxне нотейкер — это read-later/закладки (ошибка категории), исключён

Цены — минимальный платный тариф, $/мес если не указано. Оплата всех 9 западных с РФ-карт сломана → иностранная карта/крипта. Русское качество SaaS — вендорская заявка, пилотировать перед покупкой.

5. Захват аудио по платформам

STT-движок бесполезен без аудио. Три подхода: (A) бот в звонке, (B) запись → постобработка, (C) официальный API/SDK. Возможности резко различаются:

Платформа Google Meetбот / нативн. / REST ZoomRTMS / бот / запись Yandex Telemostнет media-API Способ A · бот (Recall.ai $0.50/ч) C · Zoom RTMS (live, без бота) C · Meet REST / нативн. конспект B · запись .webm → STT A · mymeet.ai (бот-в-Telemost) STT-движок SpeechKit / GigaAM + pyannote (диаризация)
ПлатформаБот-в-звонке?Нативная транскрипция (тариф)Media/stream API?Лучший путь
Google Meet✓ Recall / PuppeteerGemini (Business Standard+)Conference Records REST · Media API = Dev Previewсвой Workspace → REST; иначе Recall-бот → свой STT
Zoom✓ Recall / SDKCloud Recording (Pro+)✓ RTMS (live, без бота)свой org + realtime → RTMS; иначе Recall
Yandex Telemostтолько mymeet.ai / DIY«конспект» (Yandex 360 бизнес, платно)✗ только управление встречамизапись .webm → SpeechKit
любая (incl. Telemost)Krisp — захват системного звука ОС

6. Рекомендации по сценарию

Готовый продукт + нужен Telemost

mymeet.ai (бот-в-Telemost, RU, диаризация) или Krisp (захват ОС-звука, без бота). Для Meet/Zoom — Fireflies / MeetGeek, но русский тестировать.

Своя интеграция, RU-cloud

Yandex SpeechKit (прайм; async ~$0.075/ч; минус — диаризация только 2 спик.) или SaluteSpeech (диаризация >2, free 100мин, но 15k ₽/мес минималка юрлиц).

Self-host / приватность / обход санкций

GigaAM (точность, CPU) или T-one (live-телефония) + pyannote для диаризации. Realtime+диаризация в одном фреймворке — NeMo. Edge/без GPU — Vosk.

Захват звонка под свой STT

Meet/Zoom: Recall.ai (realtime per-participant аудио) или нативные API (Zoom RTMS / Meet REST). Telemost: запись → постобработка.

7. Оговорки