Партнерский проект

Технология распознавания речи и ее значение для бизнеса

Технологии распознавания речи прочно вошли в нашу повседневную жизнь. С помощью простых голосовых команд мы можем включить свет, узнать прогноз погоды на завтра, послушать любимую музыку. Бизнес тоже не отстает от тенденций и активно внедряет технологии Speech-to-Text. Согласно прогнозу Gartner, уже в 2023 году технологию перевода звука в текст и продукты на ее основе будут использовать 25% компаний.

18 июля 2022 г.

Узнайте, как работает технология распознавания речи, ее значение для бизнеса, где используется
голосовое управление и какие задачи помогает решать технология Speech RePort™ от VOICECOM.

Популярность подобных решений обусловлена возможностями автоматизации, которые технология распознавания речи дает бизнесу. Разбираемся, как это работает и какие решения на базе Speech-to-Text актуальны сегодня.

Что такое распознавание речи

Простыми словами, распознавание речи — это процесс обработки голоса с последующим переводом аудио-информации в текст. Первые попытки реализовать подобную технологию были еще в 50-х годах прошлого века, однако настоящего успеха удалось достичь только с развитием Machine Learning (ML) и искусственного интеллекта (AI).

Сегодня технология активно используется в повседневной жизни. Практически в каждом смартфоне есть свой виртуальный ассистент, выполняющий голосовые команды пользователя: запустить приложение, сделать звонок, включить фонарик. Умные колонки, поселившиеся в наших домах, тоже используют технологию распознавания речи. С помощью таких устройств мы можем включить музыку или фильм, управлять освещением в комнате или другими бытовыми приборами.

Однако наиболее интересные сценарии технология распознавания речи реализуются в бизнес-среде. Наверняка вы и сами сталкивались с голосовыми ботами-консультантами, которые выполняют работу не хуже настоящих операторов.

Как работает технология

Перевод голоса в текст происходит в три этапа.

Анализ сигнала

После получения сигнала система записывает его и отправляет на сервер. Там он очищается от лишних шумов, помех и всего того, что помешает распознаванию речи. Уже «чистый» сигнал разбивается на фонемы — маленькие фрагменты длительностью до 25 мс. Сервер «прогоняет» каждую фонему через акустическую модель и определяет, какие звуки произнёс пользователь. Чем больше циклов обучения прошла система, тем точнее будет результат.

Расшифровка полученного аудио

Система уже хранит в себе некие эталонные варианты различных слов, слогов и звуков. С помощью machine learning подбираются наиболее подходящие варианты слов, которые произнес пользователь, а также определяется контекст.

Преобразование в текст

Языковая модель помогает определить порядок слов и по контексту подставить нераспознанные слова. В декодере информация от двух моделей — акустической и языковой — объединяется и превращается в текст.

Технология распознавания речи и искусственный интеллект

Как вы уже знаете, первые попытки перевести человеческий голос в текст предпринимались еще в середине прошлого столетия.

Первой системой, умеющей распознавать речь, была Audrey. Огромная машина понимала только цифры — от 0 до 9. Как можно догадаться, реального применения она не нашла. Однако Audrey положила начало другим, более совершенным изобретениям.

В 1976 году Университет Карнеги — Меллона показал Harpy. Система, подобно современным решениям, разделяла услышанные слова на аллофоны. Harpy подтвердил, что ключ к успеху в распознавании речи — сравнение небольших фрагментов, а не целых слов. Увы, система корректно распознавала меньше половины аллофонов.

Серьезных подвижек в разработке Speech-to-Text технологий не было вплоть до 1990-х годов. К этому времени компьютеры стали уже достаточно мощны, чтобы распознавать голос на лету, и в 1996 году была представлена первая коммерческая программа, которая умела распознавать непрерывный поток человеческой речи. Использовалась она преимущественно в медицине — программа стенографировала речь врача, пока тот описывал результаты рентгенограммы.

Прошло чуть больше 20 лет — и сегодня мы живем в мире, где технология распознавания речи кажется чем-то естественным и неотъемлемым. Важную роль в том, насколько точно и быстро современные системы умеют переводить речь в текст, сыграл искусственный интеллект.

Технологии искусственного интеллекта расширили возможности в области распознавания речи:

Перевод голоса в текст стал точнее и эффективнее.
Системы научились распознавать не только слова и намерения говорящего, но и эмоциональную окраску речи.
Возможности ИИ сделали технологию распознавания речи интересной не только ученым и исследователям, но и коммерческому сектору.

Где применяется распознавание речи

Технология распознавания речи проникла глубоко в наш быт.

Голосовые ассистенты
Умный дом
Здравоохранение

Как распознавание речи используется в бизнесе

Сценарии применения Speech-to-Text крайне разнообразны.

Сбор и автоматическая каталогизация данных
Рекрутинг
Оценка качества обслуживания
Автоматизация колл-центров
Расшифровка аудио и видеофайлов

Решение Speech RePort™ от VOICECOM

Speech RePort™ — движок от компании VoiceCom, который выводит распознавание речи и голосовую биометрию на качественно новый уровень.

Основные усилия при работе с системой Speech RePort были направлены на повышение производительности и качества распознавания речи:

Скорость распознавания в офлайн-режиме (HTTP): ¼
Количество одновременно поддерживаемых диалогов в онлайн режиме (gRCP) на одном ядре CPU: 4
Возможна модификация словаря распознавания и адаптация языковой модели под целевую предметную область.

Напишите нам

Обсудим все детали и разработаем план действий по внедрению цифровых продуктов для вашего бизнеса