Lyrebird создала ИИ, способный синтезировать голос любого человека


Запущен сервис Lyrebird способный воссоздать любой голос с помощью ИИ

Нейросеть, которая говорит вашим голосом.

Команда канадского стартапа Lyrebird запустила бета-версию инструмента, позволяющего воспроизвести любой человеческий голос с помощью искусственного интеллекта.

Технологию тестировали на протяжении четырех месяцев, но доступной для всех пользователей она стала впервые. Теперь любой желающий может бесплатно испытать алгоритм Lyrebird, разработанный в Монреальском университете, — и послушать своего цифрового клона.

Ранее разработчики уже показывали примеры работу их технологии в экспериментальном порядке, записав искусственную беседу между Бараком Обамой, Дональдом Трампом и Хиллари Клинтон.

Однако вместо обещанной в мае одной минуты звука, необходимой для копирования голоса, пользователю придется начитать не менее тридцати предложений на английском языке, которые предложит ему программа. И вуаля, ваш компьютерный двойник готов.

Сервис изучит ваши особенности и интонации, а затем предложит «прочитать» этим голосом любой текст. Теперь на ваш выбор напишите или скопируйте любой английский текст (например, одну из речей американского президента или диалоги Симпсонов) и слушайте, что получилось.

Так например звучит голос бывшего американского президента по версии Lyrebird:


Система несовершенна, предупреждают создатели, но сходство заметно. Технология находится на ранней стадии разработки, и сгенерированная речь может звучать «несовершенно», признают в компании. Чем больше предложений вы прочитаете, тем точнее получится слепок голоса.

В ближайшие месяцы компания планирует обновить сервис, чтобы совершенствовать создаваемые пользователями голоса.

Также стартап договорился о сотрудничестве с 10 разработчиками видеоигр и аудиокниг, а также личных помощников с голосовым управлением, чтобы гаджеты в будущем могли озвучивать сообщения голосом отправителя. Разработчики внедряют технологию и в кинопроизводство для дубляжа фильмов.

Разработчики отмечают, что очень серьезно относятся к возможности использования технологии для мошенничества или создания фейковых новостей, поэтому цифровой голос, созданный человеком, будет принадлежать только ему: никто не сможет использовать его без разрешения правообладателя.

Подписывайтесь на Квибл в Viber и Telegram, чтобы быть в курсе самых интересных событий.

Программа клонирования голоса от Baidu

Интернет гигант, и по совместительству «китайский Google», отчитался о работе, проведённой в сфере развития искусственного интеллекта. Компания представила интересный программный продукт, работающий с нейронными сетями, который способен за секунды клонировать голос любого человека. Программе достаточно проанализировать короткий фрагмент исходника, и на выходе получается неотличимый от оригинала клон голоса. Более того, помимо точных характеристик тембра и прочего, программа умеет придавать голосу особенности, к примеру, акцент.

Этот вариант является более продвинутой версией программы, которая имитировала голос, анализируя довольно длинные фрагменты образцов, но специалисты подразделения Deep Voice представили год назад продукт, которому хватает всего получасового фрагмента. Однако конкуренты тоже не спят, программа VoCo от знаменитой компании Adobe может имитировать речь, обработав двадцатиминутный материал, а молодая компания Lyrebird из Канады вообще продемонстрировала удивительные результаты – их программа могла создать клон на основе всего минутного фрагмента исходника.


Сферы применения

И вот новая подвижка в этом направлении от Baidu, теперь программе достаточно изучить всего несколько секунд исходника. Впечатляет, но для чего это всё, какая практическая польза от подобной технологии? О сути, это просто игрушка, баловство. Но не стоит спешить с выводами, поскольку точек приложения может быть очень много. Даже банальная болезнь, когда человек лишается на время или постоянно способности говорить. А технология ему эту способность вернёт, пусть и таким не очень естественным образом. А если у вас неспокойный ребёнок, не желающий засыпать, пока не услышит сказку от мамы, её голоса. И если вам некогда, либо вы далеко, то голос ваш сам прибудет к вашему ребёнку. Со всеми интонациями и характеристиками, даже если нет возможности связаться по телефону. Кроме того, голосовые ассистенты теперь будут говорить с вами тем голосом, который вам приятен и знаком.

Обратная сторона

Да, обратная сторона имеется у любой технологии, даже самой мирной на первый взгляд. В нашем случае, это злоупотребления технологией, голос известных людей могут использовать несанкционированно и в не очень законных целях. Сейчас лучшие системы распознавания голоса в подавляющем большинстве случаев идентифицируют клонированный голос как оригинал, это более 95 процентов. В этом кроются опасности, технология станет доступна широким массам, и случаи мошенничества не заставят себя ждать.

Мастер Йода рекомендует:  Как атрибуты noopener и noreferrer влияют на ранжирование сайта в Google

Сегодня уже существуют программы, основанные всё на тех же нейронных сетях, которые способны менять лица людей на видеоматериалах. Уже есть случаи изменения видео для взрослых, где используются лица знаменитых людей. И если пока это выглядит как обычное хулиганство, то в купе с идеальным копированием голоса, проблема может переместится на более высокий уровень. Фейковые новости, ложные заявления политиков, которые говорят то, чего на самом деле не сказали бы никогда. Даже нынешний уровень подмены в фотошопе многих людей способен обмануть, что же будет дальше, когда зачатки ИИ попадут в руки профессиональных мошенников. Ведь на сегодняшний день его возможности превосходят фотошоп в сотни раз.

Посмотрите ещё статьи:

Поделись мнением о статье «Программа клонирования голоса от Baidu» , предложи свой вариант в комментариях! Спасибо!

В России научили нейросеть синтезировать голос любых знаменитостей


Компания известного кинорежиссера Тимура Бекмамбетова Screenlife Technologies в партнерстве с разработчиком цифрового рекрутера «Робот Вера» создали технологию для синтеза голоса знаменитостей.

Официальный сайт Vera Voice

Проект получил название Vera Voice, и его планируют использовать для озвучки фильмов, сериалов и рекламных роликов, а также для создания голосов для цифровых ассистентов и поздравлений от лица знаменитостей. Для развития проекта Screenlife Technologies и «Стафори» создадут совместное предприятие.

Алгоритм Vera Voice при помощи нейросети анализирует голос человека и воссоздает его цифровую копию с учетом специфического произношения слов, скорости речи, интонаций и тембра.

Для синтеза голоса достаточно нескольких часов аудиоданных, озвученных обладателем голоса и оцифрованный текст, который он зачитывает. Аудиопоток и текст «выгружаются» в несколько нейронных сетей одновременно, одна — генерирует спектрограмму звука (его визуальное изображение), а вторая — непосредственно звук, — прокомментировал разработку сооснователь Stafory Владимир Свешников в разговоре с vc.ru.

Первые проекты с использованием Vera Voice планируется запустить уже в течение месяца. Так, например, уже известно о соглашении с сооснователем студии «Кубик в кубе» Русланом Габидуллиным.

Причем в разработчики алгоритма обещают следить за авторскими правами и появлением голосовых клонов:


Отлавливать подделки и защищать известных людей от несанкционированного копирования их образов — одна из главных задач нашего проекта, — заявил Тимур Бекмамбетов.

В промо-ролике проекта делается акцент в том числе на ответственности ученых и разработчиков при использовании подобных технологий.

Подписывайтесь на «Код Дурова» в Telegram и во «ВКонтакте», чтобы всегда быть в курсе интересных новостей!

Появился нейросетевой сервис Lyrebird, способный воспроизвести голос любого человека

Канадский стартап Lyrebird представил нейросетевой сервис, способный всего за одну минуту обучения воспроизвести голос любого человека. Об этом сообщает The Verge.

В качестве примера компания опубликовала на саундклауде несколько полученных аудиозаписей. На одной из них мы слышим голоса Барака Обамы, Дональда Трампа и Хиллари Клинтон, которые близки к оригинальным.

Алгоритм, который использует для имитации голоса Lyrebird, создали специалисты Монреальского университета. Ему требуется всего полсекунды, чтобы обработать до тысячи предложений, которые программа воспроизведет нужным голосом. При этом его интонация может быть совершенно разной.

The Verge отмечает, что синтезированные голоса пока не звучат на 100% похоже, но уже на данном этапе их настоящих владельцев можно определить без каких-либо проблем.


Создатели Lyrebird утверждают, что сервис будет доступен всем желающим, однако когда это будет, не уточняется. Сейчас проект находится на стадии бета-тестирования API.

Искусственный интеллект научился подделывать человеческие голоса

Искусственному интеллекту пока плохо даётся естественный язык, но с голосом всё проще: в прошлом году Adobe выпустила бета-версию «фотошопа для голоса» Project VoCo, с помощью которой в готовой записи можно менять отдельные слова и короткие фразы, работая в текстовом редакторе, а еще раньше ИИ Google DeepMind научился говорить почти человеческим голосом по‑английски и по-китайски.

Но чтобы Project VoCo научилась дополнять запись словами, которые человек не произносил, имитируя при этом его голос, ей нужно «прослушать» минимум 20 минут записи непрерывного потока речи. Канадской разработке Lyrebird достаточно минуты. Результат, конечно, можно отличить от речи живого человека, но сходство впечатляет. Пока программу ещё дорабатывают, и поэкспериментировать с собственными записями нельзя, но можно послушать, как искусственные голоса Дональда Трампа, Барака Обамы и Хиллари Клинтон обсуждают Lyrebird:

Мастер Йода рекомендует:  Как использовать Sass с WordPress. Пошаговое руководство

Можно убедиться, что eё алгоритмы умеют бесконечно варьировать интонацию:

И удостовериться в том, что искусственных голосов, имитирующих настоящие, можно создать великое множество:

А ещё разработчики Lyrebird (трое профессоров из университета Монреаля) научили ИИ звучать эмоционально — зло, сочувственно или раздражённо.

На вопрос о том, зачем всё это нужно, создатели Lyrebird отвечают долго: «Искусственными голосами, имитирующими голоса известных людей, можно записывать аудиокниги, можно синтезировать речь для людей, которые потеряли собственный голос, в анимации и играх, наделять такими голосами устройства с голосовыми интерфейсами». В этом списке, конечно, нет пунктов вроде «подделка голосов в корыстных целях» и «создание записей, дающих алиби». Зато на сайте проекта есть раздел « Этика », где авторы Lyrebird признают: да, их технология может создать новый вид мошенничества. И предлагают выход: нужно сделать технологию доступной всем и каждому, чтобы люди знали о существовании подобных технологий и не слишком доверяли голосам. Не стоит, к примеру, верить слегка звонку близкого друга или родственника, если знакомый, но слегка механический голос просит перевести ему крупную сумму денег.


Синтезатор речи Lyrebird скопирует любой голос за минуту

Ученые из Монреальского института изучения алгоритмов (MILA) в Канаде представили технологию синтеза речи нового поколения, которая способна почти в точности скопировать голос человека. Прослушав всего минуту его речи, компьютер сможет воспроизвести целые слова и фразы, едва отличимые от оригинала.

Задействуя вычислительные кластеры на GPU-ускорителях, алгоритмы могут генерировать свыше тысячи предложений менее чем за полсекунды. Технология пока что далека от идеала, однако любой человек, услышав искусственный голос, сможет сразу догадаться, кто произносит речь.

Канадские исследователи признают, что их разработка может быть использована злоумышленниками, чтобы ввести в заблуждение дипломатов и СМИ, а также способствовать появлению новостей-фальшивок. Кроме того, Lyrebird может быть задействована мошенниками для кражи личности. В связи с этим, отмечает PCMag, алгоритмы были выложены в открытый доступ — так, чтобы любой человек был осведомлен о том, что аудиозапись более не является надежным источником доказательств.

Создан речевой синтезатор на основе ИИ, способный воспроизвести любой голос

Практически все существующие на данный момент виртуальные ассистенты, какими бы продвинутыми функциями они ни обладали, имеют крайне странный «машинный» голос, который ни с чем не спутаешь. Происходит это от того, что голосовые синтезаторы используют для речи набор заранее записанных фраз, звуков и их комбинаций. Как полагают некоторые эксперты в этой области, улучшения качества звучания можно добиться при помощи использования искусственного интеллекта, что и продемонстрировала компании Lyrebird из Монреаля. Их разработка может воспроизвести голос любого человека.

Для подражания голосу системе достаточно лишь нескольких секунд аудиозаписи голоса требуемого человека, на основе которых и будет создан звуковой фрагмент. Точное подражание голосу возможно благодаря использованию нейронных сетей на основе искусственного интеллекта, работающих по тем же принципам, что нейронные сети человеческого мозга. ИИ учится распознавать особенности речи человека, а затем эти данные уже используются для синтеза искусственного голоса. Сейчас работа новой системы все еще не лишена недостатков: есть проблемы с разборчивостью произносимой речи, присутствуют «голосовые артефакты» и некоторые другие признаки, указывающие на то, что слова произносит машина. Однако все они могут быть легко устранены в будущем, ведь уже сейчас система работает в режиме реального времени. Как утверждает один из авторов проекта Хосе Сотело,


«Наша программа обучалась на большом количестве аудиофрагментов выступлений тысяч различных людей. Полученная информация сжимается до вида своего рода «голосовой ДНК», которая является цифровым ключом. Затем на основе этого ключа система может воспроизводить любые слова, даже те, которые не были задействованы в процессе обучения».

Сами авторы проекта прекрасно понимают, что при должном уровне развития этой технологии не избежать проблем с безопасностью. К примеру, для обхода систем идентификации пользователя по голосу. Представители компании Lyrebird сравнивают свое изобретение с изобретением фотошопа. После создания пакета программ от Adobe стало сложно доверять изображениям на экране. Теперь же доверять нельзя и голосу.

«Мы понимаем, что из-за высокого уровня развития современных технологий такой голосовой синтезатор появился бы на свет рано или поздно. Мы призываем всех начать отказываться от принятия в качестве доказательств различных аудиозаписей, а также использования средств защиты на основе голоса».

В любом случае пока что беспокоиться рано, ведь система очень сырая, а в «синтетических» голосах все еще звучат «роботизированные нотки». Ознакомиться с тем, как система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и ряда других политических деятелей, вы можете по этой ссылке .

Мастер Йода рекомендует:  В Интернете нашли крупную базу с кодами от замков и домофонов московских подъездов

Стартап для имитации любого голоса Lyrebird открыл API для встраивания в другие сервисы

Новостной редактор Rusbase

Канадский сервис для создания цифровой копии голоса на основе одной минуты речи Lyrebird запустил бесплатную бета-версию API, которая позволит сторонним разработчикам синтезировать и использовать голоса своих пользователей. Об этом говорится в рассылке проекта.

В Lyrebird предполагают, что с помощью API разработчики смогут создавать аватары, говорящие голосами пользователей, индивидуально озвучивать приложения и другое.


Инструкция к API размещена здесь. В каждом случае при создании копии голоса пользователи должны будут зарегистрироваться в Lyrebird и дать согласие на использование своих данных, прежде чем разработчики смогут синтезировать их голоса, отмечается в сообщении.

Нейросетевой алгоритм Lyrebird был разработан в Монреальском университете. В апреле 2020 года сервис продемонстрировал работу на копиях голосов Барака Обамы, Дональда Трампа и Хиллари Клинтон, а в сентябре того же года открыл публичное тестирование.

Хотя изначально Lyrebird позиционировал себя как первый сервис, способный синтезировать голос на базе всего одной минуты речи, для создания более достоверной копии ему требуется больше аудиоматериала.

Со времени запуска у Lyrebird появились конкуренты – к примеру, ирландский стартап Voysis недавно объявил об успешной разработке синтезатора речи, который не требует подключения к интернету и может работать в качестве приложения на смартфоне.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Синтезатор речи Lyrebird скопирует любой голос за минуту

Ученые из Монреальского института изучения алгоритмов (MILA) в Канаде представили технологию синтеза речи нового поколения, которая способна почти в точности скопировать голос человека. Прослушав всего минуту его речи, компьютер сможет воспроизвести целые слова и фразы, едва отличимые от оригинала.

Задействуя вычислительные кластеры на GPU-ускорителях, алгоритмы могут генерировать свыше тысячи предложений менее чем за полсекунды. Технология пока что далека от идеала, однако любой человек, услышав искусственный голос, сможет сразу догадаться, кто произносит речь.


Канадские исследователи признают, что их разработка может быть использована злоумышленниками, чтобы ввести в заблуждение дипломатов и СМИ, а также способствовать появлению новостей-фальшивок. Кроме того, Lyrebird может быть задействована мошенниками для кражи личности. В связи с этим, отмечает PCMag, алгоритмы были выложены в открытый доступ — так, чтобы любой человек был осведомлен о том, что аудиозапись более не является надежным источником доказательств.

Google создала базу из тысячей записей синтезированной речи

Похоже, в ближайшем будущем человеческое общение будет сведено к минимуму. По крайней мене все к этому идет: вот в Google, например, смогли собрать базу данных из тысячей записей синтезированной английской речи, сообщается в блоге компании. Таким образом специалисты еще на один шаг приблизились к тому, чтобы система могла воспроизводить устную речь, которая будет неотличима от человеческой.

Синтез речи нужен для формирования речевого сигнала из печатного текста, причем совсем необязательно, чтобы человек, который записывает свой голос для системы, говорил все фразы целиком. Для конечной модели достаточно репрезентативной выборки данных — а дальше система сама определяет, сколько фонем ей необходимо для дальнейшего синтеза.

Зачем записи речи собрали в единый масштабный датасет? Дело в том, что если качественный синтез окажется в руках злоумышленников, они могут использовать чужой голос в собственных корыстных целях. Чтобы этого не допустить, эксперты Google опубликовали базу из несколько тысяч отрывков из газет. Для чтения использовалось 68 разных синтезированных голосов. Правда, пока массив данных доступен только для участников конкурса Automatic Speaker Verification. Они занимаются созданием систем, позволяющих автоматически отличить синтезированную речь от реальной.

Два года назад компания Lyrebird из Монреаля создала речевой синтезатор на основе ИИ, способный воспроизвести любой голос. Для подражания голосу системе достаточно лишь нескольких секунд аудиозаписи голоса требуемого человека, на основе которых и будет создан звуковой фрагмент. Точное подражание голосу возможно благодаря использованию нейронных сетей на основе искусственного интеллекта, работающих по тем же принципам, что нейронные сети человеческого мозга. ИИ учится распознавать особенности речи человека, а затем эти данные уже используются для синтеза искусственного голоса.

Правда, и там ест недостатки: есть проблемы с разборчивостью произносимой речи, присутствуют «голосовые артефакты» и некоторые другие признаки, указывающие на то, что слова произносит машина.

Не забудьте подписаться на наш канал с новостями.

Добавить комментарий