Qualcomm рассказала о новой системе распознавания речи, которая работает без подключения к Интернету


Оглавление (нажмите, чтобы открыть):

BlindDroid

Навигация

Andro >

  • Сентябрь (2)
  • Август (2)
  • Июль (1)
  • Март (1)
  • Февраль (1)
  • Январь (2)
  • Октябрь (4)
  • Август (2)

  • Июль (7)
  • Июнь (5)
  • Май (5)
  • Апрель (1)
  • Март (2)
  • Февраль (8)
  • Январь (6)

Категории

Загрузка компонента для распознавания речи офлайн.

Чтобы распознавание речи работало офлайн, нужно на устройстве с версией Android 4.1 и выше, подгрузить русский голосовой офлайн пакет. Подчёркиваю, если версия Android ниже чем 4.1, то офлайн распознавание не было ещё Google предусмотрено, можете даже не стараться его искать.

Для загрузки компонента офлайн на ваше устройство, нужно пройти по пути:

  • Для 4.1: Настройки тел\Язык и ввод\Голосовой поиск\Распознавание речи офлайн\Все,
  • Для 4.3: Настройки тел\Моё устройство\Язык и ввод\Голосовой поиск\Распознавание речи офлайн\Все,
  • Для 8.1: Настройки тел\Google\Поиск, Ассистент и голосовое управление\Голосовой поиск\Распознавание речи офлайн\Все,


В списке предлагаемых пакетов найти «русский (Россия)» и загрузить его. После этого действия, распознавание речи должно работать без подключения к интернету.
Внимание! Пути настроек были указаны на примере аппаратов Samsung, которые шли с версией ОС Android 4.1, 4.3, 8.1.

Также ещё можно проверить настройку по пути:

  • Для 4.1: Настройки тел\Язык и ввод\Распознавание голоса,
  • Для 4.3: Настройки тел\Моё устройство\Язык и ввод\Распознавание голоса,

Разработана офлайн-система распознавания речи, работающая с точностью в 97%

Как правило, различные системы распознавания речи, лиц, переводчики и прочие используют огромные серверные мощности для своей работы. А для того, чтобы сделать их доступными для каждого, разработчики передают все данные по интернету, что не дает возможности использовать их в офлайне. Однако современные алгоритмы нейросетей помогают добиться действительно потрясающих результатов. Не так давно Microsoft и Google уже сделали свои переводчики на основе нейросетей полностью независящим от сети, а сейчас настало время алгоритмов распознавания голоса.

За разработку отвечает группа исследователей из Университета Ватерлоо и стартапа под названием DarwinAI. Их технология получила название EdgeSpeechNets.

«В этом исследовании мы используем стратегию создания архитектуры с низким уровнем нагрузки на устройство, но со всеми плюсами подхода с использованием мощной нейросети с глубоким машинным обучением.»

Для начала эксперты создали прототип будущей системы, который выполнял распознавание речи, но обладал ограниченным словарным запасом. При этом он был способен выявлять известные ему ключевые слова даже из очень быстрого потока речи. После этого полученные данные использовались для преобразования звукового сигнала в математическую формулу. Эта формула и использовалась в дальнейшем для проектирования нейросети, которая обладала бы высокой производительностью, но была бы не требовательна к железу.

После этого ученые решили испытать получившуюся программу. Для этого использовалось хранилище Google Speech Commands, которое содержит 65000 1-секундных звуковых образцов. В итоге одна из версий системы, а именно EdgeSpeechNet-D, показала просто отличный результат, достигнув точности в 97% на довольно слабом смартфоне Motorola Moto E c процессором 1,4 ГГц.

«EdgeSpeechNet имеет более высокую точность распознавания при гораздо низких затратах на вычисления. Полученные результаты демонстрируют, что EdgeSpeechNet смогла достичь самой современной производительности, требуя значительно меньше вычислительной мощности, что делает их очень подходящими для использования в мобильных устройствах и приложениях.»

Эту и другие новости вы можете обсудить в нашем чате в Телеграм.

Новая система распознавания голоса Google работает в автономном режиме

Как известно, голосовой ввод на любом смартфоне влечёт за собой небольшую задержку, чтобы Siri, Alexa или Google обработали пользовательский запрос в облаке. Корпорации добра удалось усовершенствовать Ассистента Google для работы в автономном режиме.


В основном задержка распознавания голоса происходит из-за того, что продиктованная информация отсылается со смартфона на серверы голосовых помощников, где анализируется и отправляется обратно. Этот процесс может занять от нескольких миллисекунд до нескольких полных секунд или дольше, в зависимости от скорости интернет-соединения.

Полноценное локальное распознавание голоса на устройстве невозможно из-за контекста предложения, которое смартфоны без участия серверов ИИ сами определить не могут.

Тем не менее Google удалось продвинуться дальше всех в развитии этого направления: оффлайн-распознавание голоса теперь доступно всем владельцам гаджетов Pixel.

В оффлайн-режиме голосовой ввод работает быстрее

Разработчикам корпорации удалось создать небольшую и достаточно эффективную модель, которая умещается в телефоне (обновление весит всего 80 мегабайт) и способна слышать и транскрибировать речь в зависимости от контекста.

К сожалению, это только первые шаги в развитии полноценного локального голосового распознавания: диктовка работает только для клавиатуры Gboard на смартфонах Pixel и доступна лишь для американского диалекта английского языка.

Мастер Йода рекомендует:  Как с помощью сервиса Typekit добавить на свой сайт новые шрифты

Представители Google сообщили, что им предстоит еще много работы по локализации продукта, поэтому доступность автономного голосового распознавания на русском языке — всего лишь вопрос времени.

С другой стороны, улучшенное автономное распознавание голоса на текущий момент является бессмысленным, так как другие продукты Google работают только в онлайн-режиме, а тексты обычных SMS-сообщений можно набирать и без этой функции.

Google научат распознавать речь без подключения к интернету

Подписаться:

Поделиться:

Корпорация Apple занимается созданием нового сервиса, позволяющего распознавать музыку. Таким образом, купертиновцы смогут избавиться от своего конкурента –…

Компания Google делает постепенное обновление системы голосового распознавания речи для системы Android. Новая версия движка расширяет возможности голосового…

Компания Microsoft разрабатывает первую в мире систему, способную распознавать слова и фразы в человеческой речи. В будущем технология позволит наладить…


Издание «ВладТайм»(новости России, Украины и мира).

Новая система распознавания речи offline от Qualcomm

Технические специалисты Qualcomm, работающие с искусственным интеллектом, немного рассказали о программе, распознающей речь. Именно над этим проектом сейчас работает команда Qualcomm. Это система распознавания речи, которая не требует подключения к сети Internet, а следовательно — и облачных вычислений. Офлайн – система корректно распознает слова, словосочетания, короткие предложения в 95 % случаев. Также может адаптироваться под конкретных пользователей.

Система распознавания речи состоит из нескольких типов нейронных сетей:

  1. Рекуррентный. Пользуется собственной памятью при обработке информации входящего потока.
  2. Сверхточный. Создает имитацию связей между отдельными нейронами в мозге человека.

Преимущества и недостатки новой программы распознавания речи

Плюсы локальной системы.

Преобладающее большинство систем распознавания речи функционируют посредством облака. Облако является самой тяжелой вычислительной частью вычислений, которую реализуют серверы удаленного плана. Тут у пользователей зачастую возникает вопрос безопасности и конфиденциальности. Если распознавание речи происходит непосредственно на самом устройстве пользователя, то данный вопрос устраняется. Важно, что сама система распознавания речи не отправляет данные облаку. Плюсом является также то, что на команды программа реагирует без промедлений.

Ограничения локальной системы.

Алгоритм программы распознавания речи создан исключительно для работы в режиме офлайн. Система не имеет возможности искать ответы на заданные вопросы в сети Internet. При этом упускается способность применять более объемные ресурсы информации, которые обычно доступны системам, работающих с применением вычислений в облаке.

Компания «Qualcomm» неуклонно двигается в направлении систем распознавания речи, функционирующих офлайн. В феврале 2020 года Qualcomm выпустит движок Qualcomm AI Engine. Он предназначен с целью создания системы машинного обучения. При этом они не привязываются к Сети и облачным вычислениям.

В разделе «IT – услуги» (анкор) вы сможете найти много полезной информации и услуг для вашего бизнеса.

Google научилась распознавать речь без подключения к Интернету


Вы могли подумать, что вес автономной системы распознавания речи теперь будет сильно увеличен, но не тут то было. Ее размер составляет всего около 20 Мб.

В компании отмечают, что программа обладает достаточно низким уровнем погрешности, хоть его коэффициент и в несколько раз превышает этот показатель у аналогичных продуктов других производителей.

Испытания новой системы, которые принесли положительные результаты, проходили на смартфоне Nexus 5. В ходе тестирования у программы распознавания речи и диктовки, работающей в режиме реального времени, был выявлен коэффициент погрешности 13.5%.

На сегодняшний день это единственная программа для распознавания речи в режиме реального времени, имеющая такие показатели.

Как включить распознавание голоса оффлайн

В данном телефоне присутствует распознавание речи или голосовой ввод, но работает он только через интернет, подключаясь к сервисам Google. Но телефон можно научить распознавать речь и без интернета, мы рассмотрим как включить распознавание русского языка в оффлайн. Для работы данного метода у вас должны быть установлены два приложения Voice Search и Google Search, хотя в заводской прошивки данные программки уже присутствуют.

Для прошивки Язык и ввод — Голосовой поиск — Распознавание речи оффлайн .

Выбираем русский язык и скачиваем его.

Для прошивки 2.8B

В новой прошивке пункт меню «Распознавание речи оффлайн» отсутствует.

Если до обновления прошивки у вас были установлены оффлайн пакеты, и вы не делали вайпов (сброса настроек) при обновлении, то они должны были сохранится. Иначе придется откатываться на прошивку 2.2, устанавливать голосовые пакеты, а уже потом обновлять систему до 2.8B.

Для устройств Rev.B

Устанавливаем апдейт через рекавери и наслаждаемся распознаванием голоса в оййлайн.


2. Скачиваем базу для русской речи, и копируем на SD-карту

Скачать Russian_offline.zip 1301

3. Войти в рекавери, зажав ( Громкость + и Вкл ) при выключенном телефоне.

4. Выбрать Apply update from external storage и выбираем скачанный архив.

5. По окончанию установки, выбираем Reboot system now

6. Через RootExplorer или подобный софт можно проверить наличие файлов на системном диске. В папке

.\system\usr\srec\ru-RU\ должны быть следующие файлы:

Обновление Google Search позволяет использовать распознавание речи без подключения к интернету в сторонних приложениях

Как вы, наверное, знаете, на днях обновилось приложение Google Search, в котором появился виджет Google Now. Однако, это совсем не главное, что несет нам обновление этого приложения Google.

Мастер Йода рекомендует:  Коррекция цвета с помощью Apply Image

Самым важным для нас в этом обновлении будет то, что, как выяснила команда разработчиков utter!, теперь распознавание речи в автономном режиме, появившееся в операционной системе Android 4.1 могут использовать приложения сторонних разработчиков.

До этого, только приложения Google могли пользоваться загруженными словарями для автономного распознавания речи. Теперь ими могут воспользоваться и такие программы, как персональный помощник utter!, позволяющий управлять вашим устройством с помощью голосовых команд.

Это особенно важно в наших краях, когда не всегда имеется доступ к бесплатному или недорогому интернет трафику. Я думаю, многие из владельцев планшетов или телефонов с Android 4.1 и выше, мечтали о подобной возможности.

Конечно же, первыми, кто воспользовался новыми возможностями, были разработчики вышеуказанного приложения utter!, и теперь все что вам требуется, чтобы автономное распознавание речи заработало в этой программе – это настроить языковые пакеты.

Не все устройства поддерживают автономное распознавание речи, но для тех, кто имеет поддержку, способ настройки достаточно прост. Достаточно открыть меню настроек Google Now и скачать необходимые вам языковые пакеты.


Само собой, чтобы иметь возможность воспользоваться всем этим, вам необходимо, чтобы на планшете или телефоне была установлена операционная система Android версии 4.1 Jelly Bean и выше.

Google тестирует систему оффлайнового распознавания речи

Google создала оффлайновую систему распознавания речи, которая намного быстрее и точнее аналогичной системы, имеющей подключение к сети Интернет. Более того, она уже протестирована на смартфоне Nexus 5. Правда, в настоящее время её возможности весьма ограничены, поскольку более сложные команды всё же должны отправляться на сервер, что, в свою очередь, приводит к повышению времени обработки.

Google удалось создать программу размером всего 20,3 МБ, которая в 7 раз быстрее онлайновой системы распознавания голоса, а её процент ошибок составляет всего 13,5%. Для того чтобы добиться такой экономии ресурсов, сервис использует единственную модель как для диктовки, так и для голосовых команд. Для уменьшения его размера компания также применяла и дополнительные технологии сжатия.

Чтобы система научилась распознавать голос, были проведены тренировки с использованием трёх миллионов анонимных голосовых семплов. При этом для каждого семпла было создано порядка 20 искажённых шумом версий.

Вполне вероятно, что уже в ближайшем будущем разработка найдет применение не только в смартфонах, но и в носимых устройствах.

63 комментария

Давно жду этого

можно будет ставить напоминания без инета, ништяк

А маты добавят?
Например сделал что то не так, сказал . и последнее действие отменяется

Romero F.,
Кстати, а ведь идея то здравая. Все мои неудачи заканчиваются часто подобными словцами )))

g00fy,
А что за такой уродский телефон на постере?

Devijack,
Гнусмас С7 в презервативе))

У меня всего один вопрос: где этот чудо апк?)


karimovrt,
это называется Ассистент Дуся. И давно работает, без инета неачиная с андроида 4.1 🙂

JamesonRU,
на Wear тоже?

JamesonRU,
Гуглы сильно отстают со своим речевым анализатором. У майков он уже давно появился.

JamesonRU,
без инета работает не дуся, а движок который ты выбрал в настройках

Devijack,
siemens sxg75

g00fy,
вот ненадо классику марать каким-то самсунгом.

ValeriyVK,
Вот точно! Гуфи совсем дурной

ValeriyVK,
Hijacker56,
Согласен! Сам в восторге был от дизайна этой трубки. Зря его написал, надо было айфон писать ))) Тупанул, ребят, сорян!

g00fy,
Неннне — тогда вам нужно для отмены использовать приличные поговорки или выражения — означающие ошибку или разочарование. очень полезно.

Гриша007,
в андройд «P»

Гриша007,
вообще в 4.1 уже было. И ксати в нексусе кое-что поломали, в их программах не работает! например в переводчике. или в поиске контактов. Разработчик ассистента Дуси что-то поправил усебя и у него работает.

Сам не похвалишь, никто не похвалит)))

Аналог Сири бы лучше создали для Андройда.

dimas-46,
Есть ассистент Дуся. Правда она не особо разговорчива, но по функционалу у неё нет аналогов.


Sanchez_a777,
название конечно жесть. Ладно хоть не Пердуся.

Sanchez_a777,
Руки + Tasker + Autovoice и делай почти все что хочешь

woloss,
На много проще купить Дусю (если живёшь не по пиратскому кодексу). К тому же она дружит с таскером.

Sanchez_a777,
Хватит уже рекламы, зарябило.

woloss,
согласен, мощная связка, сюда же можно добавить и остальные плагины auto*

а чем так хороша сири?

Siri хороша функционалом и общительная, а вот гугл тупо запросы в инет дает и показывает на экране.

Говорить с телефоном. Вижу пользу только за рулем или в похожих ситуациях, когда неудобно наживать кнопки.

My House,
Вспоминается Терминатор-3 как Арни сказал «Поговори с рукой» — это уже действительность, а тогда все посмеялись.

Crea,
Гугл не только запросы дает)еще может открывать и закрывать программы, набирать номер абонента, открывать настройки, записывать напоминания, ставить будильник и тд.

alex_preacher,
Но он не будет дуть гугбки если ты назовешь его сирей или катаной и не скажет «вот и топай в своей сири». неужели ты не видишь этой жизненно необходимой недоработки.

Мастер Йода рекомендует:  6 парадигм программирования, которые изменят ваше мнение о коде

Crea,
функционал у гугло помощника выше. И оно говорит. Полно роликов на ютубе на этот счет.

Crea,
Сири без инета зачастую бесполезна

dimas-46,
Зачем? Говорить нужно с людьми, а по части реальных запросов сири не такая умная.

dimas-46,
Твой сири даже фонарик включить не может в отличии от гугла)))

Всего 20 мб — действительно, достижение! У Гугла все приложения раздуты до неприличия, фастфудом что ли напичканы.

Объясните мне, кто-нибудь, неужели голосовой ввод имеет реально важное место в нашей жизни?
Неужели чтобы чиркнуть пару слов для напоминания сложно это сделать двумя свайпами на клавиатуре? Я не рассматриваю сейчас ситуацию за рулём автомобиля. Подобная ситуация, когда нужно что-то найти/запомнить/напомнить случается на улице, на работе, в кафе. Я часто бываю в общественных местах и за всё время существования андроида слышал «ок гугл, сделай то-то. » от силы пару раз. Да и дико, наверное, до сих пор для людей, когда ты разговариваешь с телефоном.

DixD3,
а мне нравится, лень трогать мобилу, по этому я с ней просто говрю

ZlouGrib,
Да просто рукава твоей белой рубашки за спиной связаны))

DixD3,
Я думаю что это наработка на будущее, рано или поздно придется отказаться от экрана с тачем в пользу других устройств ввода-вывода. Тач и экран уйдут в прошлое как кнопочный телефон с однострочным текстовым экранчиком. Будут 3д очки, голосовое управление, и компьютер в формате часов на руке или портсигара в кармане

DixD3,
так получилось что разбил телефон, и не было возможности поменять экран некоторое время. а работала (понимала нажатия) на нем примерно четверть экрана — вот тут то голосовое управление меня очень спасло, с тех пор привык им пользоваться

DixD3,
Вегда выпиливаю гугл из прошивки, кроме маркета.

Как работает распознавание речи в iOS 13.2

Несмотря на простоту и логичность iOS, иногда мы можем даже не подозревать о существовании в ней тех или иных функций, пока случайно на них не наткнемся. В таких ситуациях мы чаще всего верим, что открыли Америку, не подозревая о том, что Apple целенаправленно добавила в свою операционную систему найденный нами механизм для нашего же удобства. Чаще всего находка проявляет себя сама, но иногда для того, чтобы определить скрытое нововведение, может понадобиться нечто вроде лакмусовой бумажки, роль которой запросто может исполнить стороннее приложение.

Наверняка вы не знали, что в iOS 13.2 появилась поддержка API распознавания речи. Не то чтобы iOS раньше плохо распознавала речь, просто раньше для того, чтобы перевести речь в текст приложениям чаще всего требовалось подключение к интернету. Но благодаря новому пакету инструментов, появившихся в iOS с последним обновлением, теперь разработчики, которые интегрируют API в свои приложения, смогут существенно облегчить жизнь своим пользователям.

Как перевести речь в текст на iOS

Первым приложением, которое продемонстрировало работу нового API, стало Dictation от студии Blueshift. Оно работает без подключения к интернету и распознает речь в реальном времени на 13 языках мира. Русский среди них тоже есть, а вот других языков, на которых говорят в странах СНГ, нет. Однако это ограничение самого приложения, а не служб, которые Apple внедрила в iOS 13.2. Поэтому, если разработчики этого или любого другого софта с функцией распознавания речи с последующей транскрипцией, захотят, чтобы новые языки появились, ничто и никто, в том числе Apple, им не помешает.

На данный момент Dictation от Blueshift является первым в своем роде приложением, которое основывается на API Apple и умеет переводить речь в текст без подключения к интернету. Видимо, этим обусловлена его цена — разработчики хотят за доступ к возможностям своей программы 2 тысячи рублей в год, продавая его по подписке. Это довольно дорого, учитывая, что возможности Dictation ограничиваются только записью, транскрибированием и редактированием речи.

Зачем может понадобиться распознавание речи

Возможность транскрибировать свою речь без подключения к интернету может оказаться довольно полезной самому широкому кругу пользователей. Первое, что приходит на ум — запись лекций, которые затем не придется расшифровывать самостоятельно, потому что это можно поручить приложению. При этом неважно, будет интернет доступен во время записи или нет — расшифровка записанной речи произойдет в любом случае. А поскольку для этого ее не приходится отправлять на удаленный сервер, удается обеспечить сохранность конфиденциальных данных, потому что они не покидают пределов устройства, ведь все вычисления производятся в его памяти.

Скорее всего, вскоре разработчики распробуют преимущества нового API и начнут оснащать свои приложения его поддержкой. А раз так, наверняка цены, по которым они будут доступны в App Store, начнут падать, пока не достигнут сколь-нибудь приемлемых для большинства пользователей пределов. Но что еще более важное, — это проработка новых сценариев использования, в которых транскрипция голосовых заметок может пригодиться. Если разработчики найдут применение этой функции, она может появиться в большом количестве программ разной направленности — от текстовых редакторов до приложений для заметок.

Добавить комментарий