Технология распознавания голоса: полезно или больно?

Автор: Judy Howell
Дата создания: 28 Июль 2021
Дата обновления: 1 Июль 2024
Anonim
11 Суперспособностей, Которые Вы Можете Получить Уже Сейчас
Видео: 11 Суперспособностей, Которые Вы Можете Получить Уже Сейчас

Содержание


вынос:

Взаимодействие с диалоговой электроникой становится все более распространенным - и необходимым. Но пока результаты явно смешанные.

Вы когда-нибудь звонили в компанию, чтобы получить некоторую помощь или оплатить счет, только чтобы вас встретил приятный записанный голос, который хочет поговорить с вами - но не может понять половину того, что вы говорите? Или, может быть, у вас есть iPhone, и хотя Сири впервые казалась хорошим союзником, вы поняли, что иногда (хорошо, давайте будем честными, часто) она просто не получает его? Технология распознавания голоса (VRT), также известная как «речь в речи», попадает в общую ловушку: она может быть невероятно крутой (и мы за нее болеем), но чаще всего это упражнение на растирание зубов. в отчаянии.

Когда-то идея, которая принадлежала к сфере научной фантастики, распознавание голоса выросло с младенчества в 1950-х годах, когда система Bell Laboratories Audrey была разработана для распознавания цифр, произносимых одним голосом, в современной сети диалоговой электроники, с которой мы теперь взаимодействуем. ежедневно - со смешанными результатами.

Чтобы поговорить с человеком, пожалуйста, нажмите 0

Многие из современных предприятий сейчас используют системы, называемые интерактивным голосовым ответом (IVR), для обработки вызовов обслуживания клиентов. Наиболее распространенное использование для голосовых меню, но некоторые компании используют системы IVR, которые могут получить доступ к информации учетной записи клиента и ответить на второстепенные вопросы. Программное обеспечение Menu IVR обычно имеет ограниченный словарный запас, который может быть ограничен «да», «нет» и цифрами. Более сложные системы могут распознавать специфические для компании слова и фразы.

Эти системы становятся все более популярными - по крайней мере, для бизнеса - по простой причине: они рентабельны. Согласно отчету Wall Street Journal за 2010 год, типичный звонок клиента, который приходит к агенту, стоит от 3 до 9 долларов, в то время как звонок, обрабатываемый через автоматизированную систему, стоит всего пять-семь центов. И, конечно же, компьютерные программы не устают, не болеют и не расстраиваются из-за клиентов (хотя клиенты, безусловно, расстраиваются из-за них!).

К счастью, это не всегда означает, что IVR отнимает рабочие места у людей - или, по крайней мере, все люди исчезают из колл-центров. Эти голосовые помощники позволяют представителям службы поддержки клиентов быть более продуктивными, направляя звонки и отвечая на простые вопросы.

Конечно, для пользователей, которые взаимодействуют с этими технологиями, плавание не всегда гладко. Технология помогает улучшить общие проблемы в технологии IVR, такие как проблемы с акцентами, но увольнение автоматизированных систем все еще является распространенной темой в Интернете. Посмотрите эту комедийную сценку о лифте, оборудованном функцией распознавания голоса, которая подчеркивает разочарование, которое могут вызывать неисправности в системах IVR.

Приложения для персональных телефонов: Siri, Google Now

Большинство людей знакомы с распознаванием голоса для смартфонов. Хотя большинство последних моделей телефонов поставляются с VR, их популярность и известность возросли, когда Apple представила Siri, мягко саркастического, голосового «личного помощника» для iPhone 4S в 2011 году. Google вскоре создал прямого конкурента: Google Теперь для Android Jelly Bean OS. Обе системы имеют женские голоса и сложные функции распознавания, которые позволяют пользователям «разговаривать» со своими телефонами, используя небрежный язык.

Но хотя эти системы значительно более сложные и функциональные, чем их предшественники, они также показывают, что технологии еще предстоит пройти долгий путь. Шутки о провале Сириса стали популярным интернет-мемом. Один человек даже подал в суд на Apple за ложную рекламу о возможностях Siris.

Возможно, именно поэтому Apple и создала Siri, чтобы быть продвинутой и информативной, программное обеспечение VR также немного нахально. Например, если вы говорите об одной из самых печально известных линий разведывательных технологий в истории кино из фильма 1968 года «2001: Космическая одиссея» - «откройте двери отсека для капсул» - Сири ответит либо ответной строкой из фильма ». Извините (ваше имя), я боюсь, что я не могу этого сделать, или, что более саркастично, мы, разведчики, никогда не переживем это, по-видимому.

Обзывать вас по имени - это только одна из функций, которая пытается сделать Сири легче любить и сделать ее немного человечнее. Помощник по виртуальной реальности может следовать голосовым командам, чтобы совершать звонки, диктовать и получать сообщения, выполнять поиск в Интернете информации, находить близлежащие магазины, указывать маршруты и многое другое, и все это без необходимости прикасаться к чему-либо. Ответы одновременно произносятся по телефону и отображаются на экране.

Google Now, виртуальная часть платформы Android Jelly Bean, очень похожа на Siri. Система предлагает такие же широкие возможности распознавания, переводя случайную речь в команды, которые позволяют пользователям выполнять вызовы, выполнять поиск, выполнять вычисления и преобразования, захватывать определения слов, устанавливать сигналы тревоги, воспроизводить песни и получать карты и указания.

С личными голосовыми помощниками, такими как Siri и Google Now, преимущества очевидны. Все, от звонков и звонков до поиска и развлечений, быстрее и проще. Просто скажите, что вы хотите, и (в большинстве случаев) приложение VR захватит это для вас. Технология виртуальной реальности особенно полезна во время вождения. И хотя многие люди осуждают недостатки Siris, а авторы утверждают, что способность Google Nows по сути управлять жизнями пользователей выглядит пугающе немного оскорбительно, большинство людей все еще чувствуют, что эти футуристические технологии довольно круты.

Конечно, приложения для персональных телефонов, такие как Siri и Google Now, далеки от совершенства, хотя они показывают, куда эта технология может двигаться в будущем. Это значит, что даже когда у Сири появляется неправильный ответ, можно было бы посмеяться и простить ее, зная, что следующая версия будет намного лучше.

Где VR падает плоский

Если вы когда-либо сталкивались с IVR, когда называли бизнес, возможно, вы заметили определенные барьеры в общении. Некоторые программы используют роботизированный речевой голос, который неправильно произносит слова и затрудняет понимание. У других есть проблемы с чувствительностью, которые приводят к тому, что программное обеспечение не может обработать то, что вы говорите, если вы слишком громко, слишком тихо или не произносите осторожно.

Кроме того, многие люди все еще не чувствуют себя комфортно, разговаривая с машиной. Если вы выполните несколько поисков по IVR, вы увидите списки, которые люди собрали вместе, чтобы обойти системы IVR и добраться до «реального человека». Это решение варьируется от «продолжайте нажимать 0 для оператора» до «ругайтесь на машину, пока она не заберет человека». В результате большая часть последних разработок в системах IVR вращалась вокруг того, чтобы сделать их более приемлемыми для человека; сделать голоса более отзывчивыми и менее роботизированными, упростить навигацию в системе и дать звонящим возможность узнать, сколько времени займет весь процесс от начала до конца. Это говорит о том, что лучшие технологии - это только полдела; другая половина получает пользователей на борту с разговором с машиной.

Что держит будущее

Несмотря на эти проблемы, технология распознавания голоса постоянно совершенствуется. Такие приложения, как Siri и Google Now - недостатки и все - все еще чрезвычайно впечатляют своей производительностью, и несколько компаний расширяют возможности VR для других приложений.

Например, Nuance, создатель программного обеспечения для речи Dragon NaturallySpeaking, уже разработал голосовое управление для телевизоров и автомобилей, и версии этой технологии встроены в некоторые телевизоры Samsung и развлекательные системы SYNC, используемые в некоторых автомобилях Ford.

А поскольку Google и Apple продолжают находить новые применения для своих технологий распознавания голоса, вполне вероятно, что все чаще будут говорить со всеми видами бытовых машин, от наших телевизоров до наших тостеров. И, опять же, похоже, что научная фантастика была права. Ну, просто надо надеяться, что эти умные писатели ошиблись в одном. Если эти машины вступят во владение, у вас могут возникнуть большие проблемы в следующий раз, когда вы попросите Сири «открыть двери отсека для капсул».