Готовый продукт + нужен Telemost
mymeet.ai (бот-в-Telemost, RU, диаризация) или Krisp (захват ОС-звука, без бота). Для Meet/Zoom — Fireflies / MeetGeek, но русский тестировать.
Цель — собрать решение из существующих инструментов, не писать STT с нуля. Три фактора переворачивают наивный выбор «возьмём Whisper и Otter»:
Облачные движки. Колонка «Из РФ» — решающий фильтр: западные за санкционной стеной.
| Провайдер | RU качество | Realtime | Диаризация | Цена (батч) | Self-host | Из РФ |
|---|---|---|---|---|---|---|
| Yandex SpeechKit RU | ~95–97% (не бенч.) | да | только 2 спик. | async deferred ~$0.075/ч | — | ✓ без барьера |
| SaluteSpeech (Sber) RU | сильное (не бенч.) | да | да, >2 | 36 ₽/ч · free 100мин | — | ✓ без барьера |
| OpenAI Whisper API | 5.7% FLEURS | да | 4o-diarize | $0.003–0.017/мин | — (OSS да) | ✗ блок |
| Deepgram Nova-3 | не публ. | да | да | $0.0077/мин | ✓ on-prem | ✗* |
| AssemblyAI | слабый рассказ | RU с 03.2026 | да | $0.21/ч | — | ✗ |
| Google Chirp 2/3 | не публ. | да | да | $0.004/мин | — | ✗ |
| Azure AI Speech | не публ. | да | 35 спик. | $0.18/ч | ✓ контейнеры | ✗ |
| ElevenLabs Scribe | 3.1% FLEURS (лучший) | да (без диариз.) | 48 спик. | от $0.40/ч | — | ✗ |
* Deepgram/Azure on-prem — единственный западный «escape hatch» при исполнимой лицензии. Цены — батч/async, без НДС.
| Проект | RU качество (WER) | Диаризация | Realtime | Железо | Лицензия |
|---|---|---|---|---|---|
| GigaAM-v3 (Sber) OSS | RU-SOTA 0.9% CV / 9.5% call | нет (pyannote) | ограниченно | CPU-ok | MIT |
| T-one (T-Bank) OSS | call-center 8.63% | нет (pyannote) | 300мс | CPU-ok | Apache-2.0 |
| Whisper / faster-whisper | 5.4% CV / 23% call | нет | батч | GPU (CPU слабо) | MIT |
| WhisperX | = Whisper | ✓ pyannote | батч | GPU | BSD-2 |
| Vosk | 4.4% crowd / 36% call | нет | да | CPU-only/edge | Apache-2.0 |
| NVIDIA NeMo | ~Whisper-tier (мультиязык) | ✓ Sortformer | да | GPU | Apache/CC-BY |
Word Error Rate, ниже = лучше. Ключевой паттерн: чистая речь (CommonVoice) ≠ звонки (call-center) — generalist'ы рушатся на звонках.
| Модель | CommonVoice ru | Golos Farfield | Call-center | Тип / доступ |
|---|---|---|---|---|
| GigaAM-v3 RNNT | 0.9 | 3.9 | 9.5 | OSS MIT · RU ✓ |
| GigaAM-v2 RNNT | 2.68 | — | 10.22 | OSS MIT |
| T-one (71M) | 5.32 | — | 8.63 | OSS Apache · стриминг |
| ElevenLabs Scribe | 5.5 | — | — | облако · 3.1 FLEURS · РФ ✗ |
| Whisper large-v3 | 5.4–5.78 | 16.4 | 19.4–23.1 | OSS MIT · generalist |
| Vosk-ru-0.42 | ~6.1 | 4.4 (crowd) | 36.0 | OSS · CPU/edge |
| Yandex SpeechKit | не публикует WER — ~95–97% accuracy (3rd-party) | облако · RU ✓ | ||
| SaluteSpeech | не публикует WER | облако · RU ✓ | ||
| Сервис | Русский | Telemost | Захват | API | Цена (вход) |
|---|---|---|---|---|---|
| mymeet.ai RU | да | ✓ бот-в-Telemost | бот | — | free 180мин |
| Krisp | да | ✓ OS-захват | без бота | слабый | 7-дн триал / $8 |
| Fireflies | посредств. | только upload | бот + API-инъекция | сильный | free / $10 |
| MeetGeek | да | только upload | бот | API + MCP | free / $9.99 |
| Sembly | да (заявл.) | только upload | бот | да | $10 |
| tl;dv | не подтв. | только upload | бот + desktop | слабый | free / $18 |
| Read.ai | да (аналитика) | — | бот | да | $15 |
| Notta | нестабильно | только upload | бот | Business+ | $8.17 |
| Otter.ai | нет русского | — | бот | слабый | $8.33 |
| Cubox | не нотейкер — это read-later/закладки (ошибка категории), исключён | ||||
Цены — минимальный платный тариф, $/мес если не указано. Оплата всех 9 западных с РФ-карт сломана → иностранная карта/крипта. Русское качество SaaS — вендорская заявка, пилотировать перед покупкой.
STT-движок бесполезен без аудио. Три подхода: (A) бот в звонке, (B) запись → постобработка, (C) официальный API/SDK. Возможности резко различаются:
| Платформа | Бот-в-звонке? | Нативная транскрипция (тариф) | Media/stream API? | Лучший путь |
|---|---|---|---|---|
| Google Meet | ✓ Recall / Puppeteer | Gemini (Business Standard+) | Conference Records REST · Media API = Dev Preview | свой Workspace → REST; иначе Recall-бот → свой STT |
| Zoom | ✓ Recall / SDK | Cloud Recording (Pro+) | ✓ RTMS (live, без бота) | свой org + realtime → RTMS; иначе Recall |
| Yandex Telemost | только mymeet.ai / DIY | «конспект» (Yandex 360 бизнес, платно) | ✗ только управление встречами | запись .webm → SpeechKit |
| любая (incl. Telemost) | — | — | — | Krisp — захват системного звука ОС |
mymeet.ai (бот-в-Telemost, RU, диаризация) или Krisp (захват ОС-звука, без бота). Для Meet/Zoom — Fireflies / MeetGeek, но русский тестировать.
Yandex SpeechKit (прайм; async ~$0.075/ч; минус — диаризация только 2 спик.) или SaluteSpeech (диаризация >2, free 100мин, но 15k ₽/мес минималка юрлиц).
GigaAM (точность, CPU) или T-one (live-телефония) + pyannote для диаризации. Realtime+диаризация в одном фреймворке — NeMo. Edge/без GPU — Vosk.
Meet/Zoom: Recall.ai (realtime per-participant аудио) или нативные API (Zoom RTMS / Meet REST). Telemost: запись → постобработка.