8 (800) 234-44-44
Партнерский проект

Технология распознавания речи и ее значение для бизнеса

18 июля 2022 г.

Технологии распознавания речи прочно вошли в нашу повседневную жизнь. С помощью простых голосовых команд мы можем включить свет, узнать прогноз погоды на завтра, послушать любимую музыку. Бизнес тоже не отстает от тенденций и активно внедряет технологии Speech-to-Text. Согласно прогнозу Gartner, уже в 2023 году технологию перевода звука в текст и продукты на ее основе будут использовать 25% компаний.

Популярность подобных решений обусловлена возможностями автоматизации, которые технология распознавания речи дает бизнесу. Разбираемся, как это работает и какие решения на базе Speech-to-Text актуальны сегодня.

Что такое распознавание речи

Простыми словами, распознавание речи — это процесс обработки голоса с последующим переводом аудио-информации в текст. Первые попытки реализовать подобную технологию были еще в 50-х годах прошлого века, однако настоящего успеха удалось достичь только с развитием Machine Learning (ML) и искусственного интеллекта (AI).

Сегодня технология активно используется в повседневной жизни. Практически в каждом смартфоне есть свой виртуальный ассистент, выполняющий голосовые команды пользователя: запустить приложение, сделать звонок, включить фонарик. Умные колонки, поселившиеся в наших домах, тоже используют технологию распознавания речи. С помощью таких устройств мы можем включить музыку или фильм, управлять освещением в комнате или другими бытовыми приборами.

Однако наиболее интересные сценарии технология распознавания речи реализуются в бизнес-среде. Наверняка вы и сами сталкивались с голосовыми ботами-консультантами, которые выполняют работу не хуже настоящих операторов.

Как работает технология

Перевод голоса в текст происходит в три этапа.

Анализ сигнала

После получения сигнала система записывает его и отправляет на сервер. Там он очищается от лишних шумов, помех и всего того, что помешает распознаванию речи. Уже «чистый» сигнал разбивается на фонемы — маленькие фрагменты длительностью до 25 мс. Сервер «прогоняет» каждую фонему через акустическую модель и определяет, какие звуки произнёс пользователь. Чем больше циклов обучения прошла система, тем точнее будет результат.

Расшифровка полученного аудио

Система уже хранит в себе некие эталонные варианты различных слов, слогов и звуков. С помощью machine learning подбираются наиболее подходящие варианты слов, которые произнес пользователь, а также определяется контекст.

Преобразование в текст

Языковая модель помогает определить порядок слов и по контексту подставить нераспознанные слова. В декодере информация от двух моделей — акустической и языковой — объединяется и превращается в текст.

Технология распознавания речи и искусственный интеллект

Как вы уже знаете, первые попытки перевести человеческий голос в текст предпринимались еще в середине прошлого столетия.

Первой системой, умеющей распознавать речь, была Audrey. Огромная машина понимала только цифры — от 0 до 9. Как можно догадаться, реального применения она не нашла. Однако Audrey положила начало другим, более совершенным изобретениям.

В 1976 году Университет Карнеги — Меллона показал Harpy. Система, подобно современным решениям, разделяла услышанные слова на аллофоны. Harpy подтвердил, что ключ к успеху в распознавании речи — сравнение небольших фрагментов, а не целых слов. Увы, система корректно распознавала меньше половины аллофонов.

Серьезных подвижек в разработке Speech-to-Text технологий не было вплоть до 1990-х годов. К этому времени компьютеры стали уже достаточно мощны, чтобы распознавать голос на лету, и в 1996 году была представлена первая коммерческая программа, которая умела распознавать непрерывный поток человеческой речи. Использовалась она преимущественно в медицине — программа стенографировала речь врача, пока тот описывал результаты рентгенограммы.

Прошло чуть больше 20 лет — и сегодня мы живем в мире, где технология распознавания речи кажется чем-то естественным и неотъемлемым. Важную роль в том, насколько точно и быстро современные системы умеют переводить речь в текст, сыграл искусственный интеллект.

Технологии искусственного интеллекта расширили возможности в области распознавания речи:

  • Перевод голоса в текст стал точнее и эффективнее.
  • Системы научились распознавать не только слова и намерения говорящего, но и эмоциональную окраску речи.
  • Возможности ИИ сделали технологию распознавания речи интересной не только ученым и исследователям, но и коммерческому сектору.

Где применяется распознавание речи

Технология распознавания речи проникла глубоко в наш быт.

  • Голосовые ассистенты
  • Не факт, что во время звонка на горячую линию компании вы столкнетесь с «живым» оператором. С каждым днем вероятность услышать, что вам ответит голосовой бот, растет. Внедрение виртуальных ассистентов экономит ресурсы и компании, и клиента.

  • Умный дом
  • Благодаря технологиям распознавания речи мы можем голосом включить или выключить свет, поставить кино.

  • Здравоохранение
  • Решения Speech-to-Text проникают даже в такую чувствительную сферу, как медицина. Продукты на базе технологий распознавания речи позволяют автоматически заполнять документы пациента, пока врач занят его осмотром.

Как распознавание речи используется в бизнесе

Сценарии применения Speech-to-Text крайне разнообразны.

  • Сбор и автоматическая каталогизация данных
  • После беседы с клиентом оператору придется потратить время на то, чтобы вручную занести в базу данных всю полученную от него информацию. Внедрение технологий распознавания речи снижает количество ручных операций: с ее помощью все данные будут сохраняться автоматически (без участия менеджера или оператора) в CRM или любой другой системе.

  • Рекрутинг
  • Первый раунд собеседования можно провести без HR-специалиста. Виртуальный HR на базе AI способен задать нужные вопросы кандидату, оценить его ответы и проанализировать, подходит ли вакансия соискателю.

  • Оценка качества обслуживания
  • Узнать мнение об уровне сервиса можно и без оператора в колл-центре. Связаться с клиентом можно с помощью голосового бота — он сам задаст нужные вопросы и автоматически занесет полученные данные в систему.

  • Автоматизация колл-центров
  • Голосовым ботам можно поручить наиболее рутинные операции — обработку входящих звонков, работу по готовому скрипту. Это позволит снизить количество «потерянных» обращений, повысить эффективность колл-центра и снизить регулярные затраты на коммуникации.

  • Расшифровка аудио и видеофайлов
  • Нередко компаниям приходится переводить записи совещаний в текст. Как правило, эту задачу делегируют новичкам или не самым квалифицированным специалистам. Однако с расшифровкой записей справится бот, в то время как сотрудник компании сможет уделить время более важным рабочим задачам или приобретению новых навыков.

Решение Speech RePort™ от VOICECOM

Speech RePort™ — движок от компании VoiceCom, который выводит распознавание речи и голосовую биометрию на качественно новый уровень.

Основные усилия при работе с системой Speech RePort были направлены на повышение производительности и качества распознавания речи:

  1. Скорость распознавания в офлайн-режиме (HTTP): ¼
  2. Количество одновременно поддерживаемых диалогов в онлайн режиме (gRCP) на одном ядре CPU: 4
  3. Возможна модификация словаря распознавания и адаптация языковой модели под целевую предметную область.
Поделиться

Похожие статьи

/ Решим ваши задачи