Как быстро перевести видео и аудио в текст: 4 полезных сервиса

Во время созвонов приходится обсуждать много деталей с клиентами или коллегами. Раньше, чтобы не упустить, кто кому и что поручил, приходилось переслушивать записи по нескольку раз. Теперь можно расшифровывать записи онлайн и экономить уйму времени. Но какие программы использовать?

Я протестировал самые популярные сервисы для расшифровок, которые работают без VPN: Speechnotes, Speech2Text, Sonix и Teamlogs. Для этого взял запись заседания рабочей группы «Женщины в СД» на YouTube и загрузил ее в каждый расшифровщик. Вот что из этого вышло.

1. Speechnotes

Популярный ИИ-сервис для расшифровки аудио. Требуется регистрация. После нее попадаем на страничку расшифровки. Тут все просто: подгружаем ролик с YouTube. В моем случае это запись онлайн-совещания со всеми вытекающими нюансами: шум в переговорной, невнятная местами речь, кашель, похожие друг на друга голоса.

Часовой ролик расшифровывался около 15 минут. Готовую расшифровку можно отправить на почту, скачать в форматах pdf или doc.

Структура документа на первый взгляд неплохая: сервис расставил таймкоды. Но реплики двух спикеров склеились в самом начале — текст придется просмотреть глазами.

Что понравилось:

  • Бесплатно расшифрует 50 минут записи для новых пользователей.
  • Умеет работать со ссылками и всеми популярными форматами: mp3, mp4, wav, mov, avi, mpeg, dss, aac, m4a, opus, ogg, raw, flac, amr, webm.
  • Быстро расшифровывает, расставляет спикеров и таймкоды.
  • Час записи обрабатывает за 15 минут.

Что не понравилось:

  • Путает спикеров.
  • Интерфейс страдает технозависимостью. Новый клиент не сразу поймет, где находится кнопка регистрации.
  • Без регистрации не получится протестировать сервис.
  • Оплатить можно только через PayPal. Два часа расшифровки стоят 1164 руб.

Оценки сервиса:

  • Качество расшифровки – 5/10
  • Скорость расшифровки – 8/10
  • Цена – 2/10

2. Speech2Text

Интерфейс очень человечный: нет непонятных кнопок и можно протестировать сервис без регистрации. Бесплатно расшифрует 15 минут без регистрации, а с ней — три часа. Если зайти на сайт по реферальной ссылке — подарят шесть часов бесплатной расшифровки.

Чтобы создать аккаунт, нужно указать почту, номер телефона и имя. Мы подгрузили нашу запись через ссылку на YouTube. Почти часовой ролик расшифровался за 13 минут. Сервис автоматически распознал язык и выделил всех спикеров.

Результат можно скачать в семи вариантах: с таймкодами, с выделенными спикерами, без них, с пролинкованными таймкодами. Через кнопку «Поделиться» можно получить ссылку на готовую расшифровку.

Я решил сразу посмотреть, как он отображает субтитры в плеере. Можно выбрать конкретный таймкод, и плеер переключится на нужный момент.

В отзывах другие пользователи отмечают, что сервис чистит звук оригинала и расшифровывает даже очень плохие записи. Специально прослушал запись в плеере — заметно, что сервис почистил звук и убрал шумы.

В готовой расшифровке все выглядит чисто и аккуратно. Нет беспорядочного полотна текста. Сам текст расшифровался полностью — сервис вытянул из записи даже зажеванные слова, проставил запятые и не склеил предложения. 

Что понравилось:

  • Доступные тарифы. Стоимость часа расшифровки — 30 руб.
  • Разбирает записи даже очень плохого качества.
  • Поддерживает 99 языков.
  • Принимает ссылки и все форматы аудио и видео.
  • Один час записи обрабатывает за 13 минут.
  • Экспортирует расшифровку в docx, txt, pdf, srt и выдаст ссылку на расшифровку.
  • Корпоративным пользователям открывает API.
  • Полезный интерфейс без визуального шума. Проставляет таймкоды, вшивает ссылку к нужному моменту в записи. Можно послушать запись с готовыми субтитрами внутри Speech2Text-плеера.

Что не понравилось:

  • Стоит делать расшифровки еще быстрее.

Оценки сервиса:

  • Качество расшифровки – 10/10
  • Скорость расшифровки – 8/10
  • Цена – 10/10

3. Teamlogs

Интерфейс без обилия непонятных кнопок, но первое впечатление смазывает невозможность загрузить запись по ссылке. После загрузки файла пришлось зарегистрироваться, чтобы посмотреть расшифровку. Первые 15 минут бесплатно.

Расшифровка часового совещания заняла около 20 минут. ИИ автоматически определил язык, количество спикеров — и даже не спутал два похожих голоса в начале созвона.

Готовую расшифровку можно отредактировать и скачать в docx, xlsx и srt. Есть возможность поделиться ссылкой на расшифровку.

Что понравилось:

  • Бесплатно расшифрует 15 минут после первой регистрации.
  • Человекоориентированный интерфейс и подробный FAQ.
  • Поддерживает все популярные форматы аудио и видео.
  • Час записи расшифровывает за 20 минут.

Что не понравилось:

  • Не работает со ссылками.
  • Нужно регистрироваться, чтобы протестировать сервис.
  • Час стоит 600 руб. Если каждый день расшифровывать только один час созвона, в месяц набежит больше 13 тыс. руб.

Оценки сервиса:

  • Качество расшифровки – 9/10
  • Скорость расшифровки – 8/10
  • Цена – 7/10

4. Sonix

Еще один приятный интерфейс на старте. Дают 30 минут бесплатной расшифровки, но только после регистрации.

Лендинг переведен, а страничка транскрибации – нет. Чтобы посмотреть расшифровку, нужно заполнить анкету. Пока не заполните — не пустит. Плюс к технозависимости и минус к человечности в интерфейсе.

После анкеты откроется окошко с готовым текстом и плеером. Здесь же редактируется текст. Если нажать на любое слово в редакторе, плеер автоматически переключится на соответствующий таймкод.

Часовой ролик расшифровал за 15 минут. В отзывах другие пользователи упоминают, что шумные ролики нужно предварительно очистить вручную от шумов — ИИ иногда путает буквы и окончания. В моем случае он запутался с голосами — склеил реплики двух спикеров в одну. Придется проверять, какой спикер что сказал.

Экспортирует во все форматы, включая ссылки.

Что понравилось:

  • Бесплатно расшифровывает 30 минут записи.
  • Принимает почти все форматы аудио и видео.
  • Час записи распознает за 15 минут.
  • Экспортирует расшифровку в docx, txt, pdf, srt. Умеет разделять текст на таймкоды и спикеров.

Что не понравилось:

  • Записи с шумами расшифровывает некорректно либо не полностью. Чтобы получить хорошую расшифровку, придется сначала отдельно почистить звук в редакторе.
  • Без регистрации протестировать сервис не получится.
  • Модальное окно с анкетой отвлекает от работы.
  • Страница транскрибации не переведена.
  • Чтобы расшифровать один час, придется заплатить 970 руб. — слишком дорого. Тем более что расшифровку с плохим качеством придется отсматривать на предмет ошибок.

Оценки сервиса:

  • Качество расшифровки – 6/10
  • Скорость расшифровки – 8/10
  • Цена – 6/10

Итоги 

У всех протестированных сервисов высокая скорость — не приходится ждать по сорок минут, пока сделают текст. Неплохое качество расшифровки у Teamlogs и Speech2Text. По цене однозначно выигрывает второй: качественную расшифровку дешевле 30 руб. я больше нигде не нашел.

 

Speechnotes

Speech2Text

Teamlogs

Sonix

Качество

5/10

10/10

9/10

6/10

Скорость
расшифровки

8/10

8/10

8/10

8/10

Цена

2/10

10/10

7/10

6/10

Читайте также:

Расскажите коллегам:
Комментарии
Оставлять комментарии могут только зарегистрированные пользователи
Статью прочитали
Обсуждение статей
Все комментарии
Дискуссии
Все дискуссии
HR-новости
Исследование: как разные поколения выбирают работу

Зумеры сильнее акцентируют внимание на work-life balance, миллениалы – на зарплате, а для поколения X важнее стабильность и надежность компании.

Сколько компании тратят на обучение топ-менеджеров

Треть компаний выделяют на обучение одного топ-менеджера от 500 тыс. руб. в год.

56% россиян поддерживают наем сотрудников с ограниченными возможностями

При этом только 40% опрошенных считают, что их офис приспособлен для людей с ограниченными возможностями здоровья.

Россияне назвали главные причины для увольнения

Топ причин для увольнения у опрошенных в возрасте 18-34 лет отличается от респондентов, которым 35-49 лет.