04:20, 24 июля 2018

Как голосовые помощники появились из ниоткуда

Оригинальный материал по ссылке: https://medium.com/space10/how-voice-assistants-seemingly-came-from-nowhere-33747876b91f

Незаметно для себя, мы стали общаться с девайсами так же, как и с людьми. Вместо того чтобы кликать кнопки на экране, в 2016 мы просто произносим громко вслух команду, и спикер с голосовым помощником с точностью понимает, что мы имели в виду.

За последние несколько лет, такие изобретения как Siri Apple, Google Assistant и Microsoft Cortana поменяли наше представление о голосовом общении при помощи девайсов.

Когда презентовали Siri в 2011 году наряду с iPhone 4S - это было нечто невероятное. Голосовой помощник, который понимает вас и даже подшучивает? Как компьютер может быть настолько обворожительным? Siri понимает контекст команды и когда вы спрашиваете понадобится ли зонтик на этих выходных, она автоматически ищет прогноз погоды.

Перемотаем время вперед, до сегодняшнего дня, теперь такие девайсы как Amazon’s Echo и Google Home, являются маленькими спикерами с мощными микрофонами на вашем столе. Они могут услышать вас с любой точки в комнате, понимать вас, и выполнять вашу команду в течение миллисекунд.

Всего пару лет назад, фраза «Хорошо Гугл, потуши свет» была несбыточной мечтой, а теперь любой может приобрести эту технологию за пару сотен долларов.

Amazon Echo и Google Home – это голосовые помощники которые стали частью дома и вы можете не прерываясь общаться с ними в любое время суток. Этим они и отличаются от других инструментов, встроенных в карманные компьютеры.

Ваш новый лучший друг.

Медленный, но верный прогресс.

Как же мы достигли этого? Ну, это был нелегкий путь. Многие годы это был очень медленный прогресс. В далеком 1970 IBM имел компьютер, который мог принять одно простое сообщение и распознать в нем слова, но с одним условием: это занимало у него около часа.

Еще большей проблемой помимо качества звука являлся тот факт, что предложение могло начаться с любого слова, и чтобы разобрать предложение из 5 слов, нужно обработать 20 000 слов. Другими словами, это огромная задача сперва распознать, что вы сказали и только после этого приступать к выполнению вашей команды.

Одна из крупнейших компаний по распознаванию речи компания Nuance предоставила технологию для Siri. Голосовой помощник изначально был проектом, спонсированный военными, но в итоге превратился в отдельную компанию.

Интересный факт о компании Nuance заключается не только в том что они распознают речь, но и то что они крупно инвестируют в искусственный интеллект (ИИ), который необходим для понимания слов которые мы произносим.

Нейронные сети копируют систему обучения человеческого мозга. Источник: Sandy van Helden

Google, Amazon и Microsoft также крупно инвестируют в ИИ или если быть точнее в нейронные соединения, чтобы точнее понимать что именно вы имели в виду из миллиона разных вариантов в каждом предложении.

Основная проблема компьютеров заключается в том, что они в отличие от людей не очень хорошо понимают причины или контекст. Порядок слов в предложении может существенно поменять его значение, но компьютер не может интуитивно понять этого. Нейронные сети помогут компьютерам решить эту проблему.

Я не учила Google что такое пляж, но он откуда-то знает, что это.

Нейронные сети опираясь на входящие данные используют алгоритмы чтобы совершенствовать себя и лучше понимать этот мир. Чем чаще вы используете голосового помощника, тем умнее он становится. Нейронные сети используют колоссальные объемы больших данных, гораздо больше чем доступно на вашем телефоне.

Так в чем же заключается этот прорыв? Он заключается в двух вещах которые слились воедино: диапазон частот и облачный хостинг.

Голосовая обработка всегда была сложной задачей так как ваше устройство было недостаточно быстрым для обработки данных. До недавнего времени, ваши соединения были слишком медленными чтобы дополнительно посылать данные куда-то еще.

В 2016, когда высокоскоростной интернет на дому стал нормой, люди могли посылать голосовые данные за считанные секунды. Проблема диапазона частот по большей части решилась.

За последние десятилетия произошел фундаментальный сдвиг в использовании компьютера в бизнес целях. Раньше, чтобы создать онлайн услугу, вам приходилось покупать оборудование, арендовать помещение и покупать доступ к интернет провайдеру.

Теперь, благодаря Amazon Web Services у вас есть доступ к самому мощному компьютеру в мире всего за пару центов в час, не вставая с вашего дивана.

Если отбросить модный интерфейс Siri, то можно сказать, что она является продуктом закона Мура о том, что мощность компьютеров удваивается каждые два года. Единственной причиной почему Siri выпустили сейчас, а не раньше, это то, что компьютеры не были достаточно мощными для разговорных целей.

Большие данные

Другой проблемой на пути голосовых помощников было то что, они ничего не знали. Каждый голосовой помощник начинал с нуля и нуждался в обучении. Если вы использовали ранние голосовые программы такие как Dragon Dictate в 1990-х, вы наверняка помните, что вам приходилось часами напролет читать фразы компьютеру. Как мы уже сказали ранее, чем больше информации обрабатывается, тем лучше голосовой помощник.

Другой проблемой являются микрофоны. Для компьютера очень тяжело понять, что вы говорите, учитывая весь шум на заднем фоне. Микрофоны используемые Google Home and Amazon Echo дальнепольные, и позволяют девайсам вникнуть в ваш голос независимо от того, где вы находитесь в комнате и какой шум у вас за спиной.

Концепция микрофонных лучей и технология дальнего поля не новые, но алгоритмы, которые определяют ваш голос в комнате новинка. Высокотехнологичное аудио – это основа для компьютера чтобы понимать задачи и сокращать ошибочные команды.

Amazon была первой компанией которая использовала эти мощные микрофоны чтобы решить проблему качества голоса и теперь все в индустрии следуют им. Вы можете обнаружить эти микрофоны в Google Home и Sense.

Несовершентва голосовых помощников

При всех преимуществах Siri и Google Assistant, они все-таки еще не так хороши. Например, если вы спросите Siri «где лучшая тайская еда в округе?» и затем сразу спросите «Как это далеко?», то она не сможет правильно ответить на второй вопрос, так как не может связать два вопроса в единый диалог.

В этом плане Google Assistant находится на шаг впереди. Если вы спросите «как называется тот фильм с Дженнифер Лоуренс» и затем год его выпуска, то он выдаст вам правильный ответ.

Ключ к успеху заключается в понимании истинного значения мест, вещей и контекста. Google знает где вы находитесь, где вы были, как далеко вы обычно ездите, сколько времени вы проводите дома, когда в последний раз вы ездили за границу и много другой информации. Но Google не знает, как и когда правильно использовать эти данные. Голосовые помощники понимают, что мы им говорим и отвечают нам, но до сих пор не могут соединить все нужные точки вместе.

Разработки в области по обработке данных, диапазоне частот и нейронных сетях ведут к тому, что через пять лет мы будем недоумевать о том, как мы раньше жили без голосовых помощников.

Оуэн Уильямс (Owen Williams), 7 декабря 2016

Источник: Chatty devices, Sandy van Helden

Еще по теме