Технологии распознавания речи прочно вошли в нашу повседневную жизнь. С помощью простых голосовых команд мы можем включить свет, узнать прогноз погоды на завтра, послушать любимую музыку. Бизнес тоже не отстает от тенденций и активно внедряет технологии Speech-to-Text. Согласно прогнозу Gartner, уже в 2023 году технологию перевода звука в текст и продукты на ее основе будут использовать 25% компаний.
Популярность подобных решений обусловлена возможностями автоматизации, которые технология распознавания речи дает бизнесу. Разбираемся, как это работает и какие решения на базе Speech-to-Text актуальны сегодня.
Что такое распознавание речи
Простыми словами, распознавание речи — это процесс обработки голоса с последующим переводом аудио-информации в текст. Первые попытки реализовать подобную технологию были еще в 50-х годах прошлого века, однако настоящего успеха удалось достичь только с развитием Machine Learning (ML) и искусственного интеллекта (AI).
Сегодня технология активно используется в повседневной жизни. Практически в каждом смартфоне есть свой виртуальный ассистент, выполняющий голосовые команды пользователя: запустить приложение, сделать звонок, включить фонарик. Умные колонки, поселившиеся в наших домах, тоже используют технологию распознавания речи. С помощью таких устройств мы можем включить музыку или фильм, управлять освещением в комнате или другими бытовыми приборами.
Однако наиболее интересные сценарии технология распознавания речи реализуются в бизнес-среде. Наверняка вы и сами сталкивались с голосовыми ботами-консультантами, которые выполняют работу не хуже настоящих операторов.
Как работает технология
Перевод голоса в текст происходит в три этапа.
Анализ сигнала
После получения сигнала система записывает его и отправляет на сервер. Там он очищается от лишних шумов, помех и всего того, что помешает распознаванию речи. Уже «чистый» сигнал разбивается на фонемы — маленькие фрагменты длительностью до 25 мс. Сервер «прогоняет» каждую фонему через акустическую модель и определяет, какие звуки произнёс пользователь. Чем больше циклов обучения прошла система, тем точнее будет результат.
Расшифровка полученного аудио
Система уже хранит в себе некие эталонные варианты различных слов, слогов и звуков. С помощью machine learning подбираются наиболее подходящие варианты слов, которые произнес пользователь, а также определяется контекст.
Преобразование в текст
Языковая модель помогает определить порядок слов и по контексту подставить нераспознанные слова. В декодере информация от двух моделей — акустической и языковой — объединяется и превращается в текст.
Технология распознавания речи и искусственный интеллект
Как вы уже знаете, первые попытки перевести человеческий голос в текст предпринимались еще в середине прошлого столетия.
Первой системой, умеющей распознавать речь, была Audrey. Огромная машина понимала только цифры — от 0 до 9. Как можно догадаться, реального применения она не нашла. Однако Audrey положила начало другим, более совершенным изобретениям.
В 1976 году Университет Карнеги — Меллона показал Harpy. Система, подобно современным решениям, разделяла услышанные слова на аллофоны. Harpy подтвердил, что ключ к успеху в распознавании речи — сравнение небольших фрагментов, а не целых слов. Увы, система корректно распознавала меньше половины аллофонов.
Серьезных подвижек в разработке Speech-to-Text технологий не было вплоть до 1990-х годов. К этому времени компьютеры стали уже достаточно мощны, чтобы распознавать голос на лету, и в 1996 году была представлена первая коммерческая программа, которая умела распознавать непрерывный поток человеческой речи. Использовалась она преимущественно в медицине — программа стенографировала речь врача, пока тот описывал результаты рентгенограммы.
Прошло чуть больше 20 лет — и сегодня мы живем в мире, где технология распознавания речи кажется чем-то естественным и неотъемлемым. Важную роль в том, насколько точно и быстро современные системы умеют переводить речь в текст, сыграл искусственный интеллект.
Технологии искусственного интеллекта расширили возможности в области распознавания речи:
- Перевод голоса в текст стал точнее и эффективнее.
- Системы научились распознавать не только слова и намерения говорящего, но и эмоциональную окраску речи.
- Возможности ИИ сделали технологию распознавания речи интересной не только ученым и исследователям, но и коммерческому сектору.
Где применяется распознавание речи
Технология распознавания речи проникла глубоко в наш быт.
- Голосовые ассистенты
- Умный дом
- Здравоохранение
Как распознавание речи используется в бизнесе
Сценарии применения Speech-to-Text крайне разнообразны.
- Сбор и автоматическая каталогизация данных
- Рекрутинг
- Оценка качества обслуживания
- Автоматизация колл-центров
- Расшифровка аудио и видеофайлов
Решение Speech RePort™ от VOICECOM
Speech RePort™ — движок от компании VoiceCom, который выводит распознавание речи и голосовую биометрию на качественно новый уровень.
Основные усилия при работе с системой Speech RePort были направлены на повышение производительности и качества распознавания речи:
- Скорость распознавания в офлайн-режиме (HTTP): ¼
- Количество одновременно поддерживаемых диалогов в онлайн режиме (gRCP) на одном ядре CPU: 4
- Возможна модификация словаря распознавания и адаптация языковой модели под целевую предметную область.