Unity и DeepMind сообщили о запуске совместной исследовательской программы ИИ


Оглавление (нажмите, чтобы открыть):

DeepMind сообщила о работе над контролем поведения ИИ

Недавно, исследовательская группа DeepMind опубликовала подробности исследования поведения нейросетей. Ученые рассматривают проблемы, связанные с непредвиденными, потенциально вредоносными действиями ИИ. Такое поведение часто возникает в процессе обучения, это объясняется тем, что ИИ, пытаясь достичь поставленной цели, оптимизирует свои действия, используя доступные средства любыми возможными способами.

Как далеко может зайти искусственный интеллект в оптимизации поведения, стараясь достичь поставленной цели Проблемы непредвиденного поведения уже давно задумывались писатели-фантасты. Например, в романе «2001: Космическая одиссея» Артура Кларка ИИ HAL 9000, чтобы выполнить полученных инструкций, почти полностью уничтожил экипаж корабля.

В качестве примера приводится обучение ИИ игре CoastRunners (гонки на катерах). В процессе тренировки нейросеть обнаружила, что получает больше очков за столкновения с определёнными объектами на маршруте, чем за окончание гонки:

Исследователи DeepMind выделили три аспекта контроля поведения ИИ:

  • определение требуемого результата;
  • устойчивость к воздействиям;
  • контроль над исполнением.

Определение требуемого результата

При проектировании нейросети определение задачи начинается с «идеальной спецификации», желаемого результата, который осознаёт проектировщик, но который зачастую сложно сформулировать. В процессе создания ИИ разработчик должен выразить эту задачу языком, понятным системе. DeepMind называет это «чертёж». Третья стадия, «поведение», отражает реальный результат, который выдаёт система.

Очень часто «поведения» нейросетей, не соответствует изначальной задаче, поставленной разработчиками или сформулированной для системы. Команда DeepMind для наглядности приводит в пример миф о царе Мидасе, который получил у богов возможность попросить исполнения желания. Мидас хотел обогатиться – это и есть «идеальная спецификация». На этапе «чертежа» он сформулировал желание как «хочу, чтобы всё, к чему я прикасаюсь, превращалось в золото». Но на этапе реализации он превратил в золото также пищу и некоторых близких родственников.

Работа над этим аспектом подразумевает приведение «поведения» нейросети в максимальное соответствие с «идеальной спецификацией».

Устойчивость к воздействиям

Так же ИИ может столкнуться с неожиданным внешним воздействием. Например, клининговый робот, работающий в среде без домашних животных — при появлении кошки или собаки пытается их почистить. Ещё одна сложность — небезопасное обучение, тот же робот может получить повреждения от удара электрическим током, пытаясь установить лучший вариант чистки подключенной к сети розетки и используя мокрую швабру.

Контроль над исполнением

Контроль над исполнением разделяется на два вида: мониторинг и управление. Мониторинг подразумевает пассивное наблюдение, как автоматическое, так и осуществляемое оператором. В контроль включается возможность анализ результатов и прерывания исполнения программы.

Структурировав задачу подобным образом, исследователи намереваются найти способ сделать использование нейросетей безопасным и расширить область их применения. DeepMind активно работает над совершенствованием технологии искусственного интеллекта. В конце сентября 2020 года группа объявила о создании совместно с Unity тестовой площадки для ИИ-агентов.

Убытки DeepMind и будущее искусственного интеллекта — перевод

Вашему вниманию представлен перевод статьи DeepMind’s Losses and the Future of Artificial Intelligence за авторством Гэри Маркуса (Gary Marcus), вышедшей 14 августа на wired.com

Гэри Маркус является основателем и генеральным директором Robust.AI, а так же профессором психологии и нейробиологии в Нью-Йоркском университете. Вместе с Эрнестом Дэвисом он является автором готовящейся к изданию книги «Перезагрузка ИИ: создание искусственного интеллекта, которому мы можем доверять».

DeepMind, принадлежащий Alphabet, потратил 572 млн долларов в прошлом году. Что это может означать?

Что ещё за Alphabet?

Холдинг, владеющий Google и смежными проектами, про которые обычно говорят, что они принадлежат Google, — прим. ИА Красная Весна

DeepMind, вероятно, крупнейшая в мире научно-исследовательская затея в области искусственного интеллекта, быстро тратящая много денег: более 1 млрд долларов за последние три года. У DeepMind также имеется задолженность в размере более 1 млрд долларов, которая должна быть погашена в течение ближайших 12 месяцев.

Значит ли это, что ИИ разваливается?

Ничуть. Исследования стоят денег, и DeepMind наращивает исследования с каждым годом. Долларов привлечено уйма, возможно, больше, чем в любой предыдущий исследовательский проект по искусственному интеллекту, но далеко не беспрецедентно по сравнению с суммами, потраченными на некоторые из крупнейших научных проектов. Большой Адронный Коллайдер стоит около 1 млрд долларов в год, а общая стоимость открытия бозона Хиггса оценивается более чем в 10 млрд долларов. Конечно, подлинный машинный интеллект (также известный как общий искусственный интеллект), который мог бы привести в действие компьютер, подобный показанному в Star Trek, способный анализировать всевозможные запросы, заданные на обычном английском языке, стоил бы гораздо больше.

Всё же рост величины затрат DeepMind стоит учитывать: 154 млн в 2020 году, 341 млн в 2020 году, 572 млн в 2020 году. На мой взгляд, есть три основных вопроса: находится ли DeepMind на правильном пути с научной точки зрения? Являются ли инвестиции такого масштаба разумными с точки зрения Alphabet? И как эти траты повлияют на ИИ в целом?

По первому вопросу есть основания для скептицизма. DeepMind кладет большую часть своих яиц в одну корзину: в метод, известный как глубокое обучение с подкреплением. Этот метод сочетает в себе глубокое обучение, в основном используемое для распознавания шаблонов, и обучение с подкреплением, строящееся на сигналах вознаграждения, таких как набранные очки в игре, победа или поражение в игре вроде шахмат.

DeepMind дал методу свое название в 2013 году в захватывающей статье, в которой было показано, как одна нейронно-сетевая система может быть обучена играть в разные игры Atari, такие как Breakout и Space Invaders, так же или лучше, чем люди. Публикация продемонстрировала инженерное мастерство и, по-видимому, стала ключевым фактором в приобретении DeepMind в январе 2014 года Google. Дальнейшее развитие метода подпитывалось впечатляющими победами DeepMind в Го и компьютерной игре StarCraft.

Что ещё за Atari?

Компания, производившая и издававшая компьютерные игры. В 70-е и 80-е годы на рынке видеоигр Atari занимала лидирующее положение, — прим. ИА Красная Весна

Неприятность в том, что метод очень чувствителен к конкретным условиям. В игре Breakout, например, крошечные изменения, такие как перемещение весла вверх на несколько пикселей — могут вызвать резкое снижение эффективности. В StarCraft у DeepMind результаты имели похожую ограниченность. С лучшими, чем у человека результатами при игре на одной карте с одной «расой», но более скромными итогами на разных картах и с разными расами. Чтобы сменить расу, вам нужно переобучить систему с нуля.

В каком-то смысле глубокое обучение с подкреплением является чем-то вроде прокачанной зубрежки. Системы, которые используют его, способны на удивительные подвиги, но они имеют только поверхностное понимание того, что они делают. Как следствие, нынешним системам не хватает гибкости, и поэтому они не могут компенсировать изменения в мире, порой даже незначительные. (Недавние результаты DeepMind с болезнью почек были подвергнуты сомнению похожим образом.)

Глубокое обучение с подкреплением также требует огромного количества данных — например, миллионы самостоятельных игр в Го. Это гораздо больше, чем человеку потребовалось бы для достижения мирового класса игры в Го, и зачастую сложно или дорого. Это приводит к необходимости использования компьютерных ресурсов масштаба Google, из чего следует, что во многих реальных проблемах одно лишь компьютерное время уже будет слишком дорогостоящим для большинства пользователей. По имеющейся оценке, время обучения для AlphaGo обошлось в 35 млн долларов; по той же оценке, количество потребляемой энергии сравнивалось с энергией, потребляемой 12760 человеческими мозгами, работающими непрерывно в течение трех дней без сна.

Что ещё за AlphaGo?

Искусственный интеллект от DeepMind, специально натренированный на игру в Го. Имеется аналог для игры в StarCraft, который так и называется — AlphaStar, — прим. ИА Красная Весна

Но это всего лишь экономика. Реальная проблема, как мы с Эрнестом Дэвисом утверждаем в нашей готовящейся книге «Перезагрузка ИИ», — это доверие. На данный момент глубокому обучению с подкреплением можно с некоторыми оговорками доверять только в хорошо контролируемой среде. Это отлично работает для Го — ни доска, ни правила не изменились за 2000 лет, но вам бы не захотелось полагаться на него во многих реальных ситуациях.

Скромный коммерческий успех
Отчасти из-за того, что немногие реальные проблемы так ограничены, как игры, на которых сосредоточился DeepMind, DeepMind еще не нашел крупномасштабного коммерческого применения глубокого обучения с подкреплением. До сих пор Alphabet инвестировала около 2 млрд (включая заявленную цену покупки в размере 650 млн в 2014 году). Прямая финансовая отдача, не считая рекламы, была скромной по сравнению с прошлым годом: около 125 миллионов долларов дохода, частично полученные от применения глубокого обучения с подкреплением в Alphabet для снижения затрат на питание для охлаждения серверов Google.

То, что работает для Го, может не работать для сложных проблем, которые DeepMind стремится решить с помощью ИИ, таких как рак и чистая энергетика. IBM узнала об этом на собственном горьком опыте, когда она попыталась взять программу Watson, которая выиграла в игре «Jeopardy!», и с некоторым успехом применить её к медицинской диагностике. Watson прекрасно справлялся с некоторыми случаями и терпел неудачу в других, иногда пропуская диагнозы, такие как сердечные приступы, которые были бы очевидны для студентов-медиков первого курса.

Что ещё за «Jeopardy!»?

Американская теле-викторина, российским аналогом которой является «Своя игра», — прим. ИА Красная Весна

Конечно, это может быть просто вопросом времени. DeepMind работает над глубоким обучением с подкреплением по крайней мере с 2013 года, возможно, дольше, но научные достижения редко превращаются в продукт в одночасье. DeepMind или другие могут в конечном итоге найти способ получить более глубокие, более стабильные результаты с глубоким обучением с подкреплением, возможно, объединив его с другими методами, или не смогут. Глубокое обучение с подкреплением может в конечном итоге оказаться похожим на транзистор, исследовательское изобретение из корпоративной лаборатории, которое полностью изменило мир, или это может быть своего рода академическим любопытством, которое Джон Мейнард Смит однажды описал как «решение в поисках проблемы». Лично я предполагаю, что он окажется где-то посередине, полезным и широко распространенным инструментом, но не изменяющим мир.

Никто не должен сбрасывать DeepMind со счетов, даже если его текущая стратегия окажется менее плодотворной, чем многие надеялись. Глубокое обучение с подкреплением не может быть «королевской дорогой» к общему искусственному интеллекту, но сам DeepMind — это грозное начинание, плотно управляемое и хорошо финансируемое, с сотнями докторов наук. Публичность, порожденная успехами в Го, Atari и StarCraft, привлекает все больше талантов. Если ветры в ИИ смещаются, DeepMind может оказаться в хорошем положении, чтобы переключиться на другое направление. Едва ли кто-то может сравниться с ним.

Между тем в более широком контексте для Alphabet 500 миллионов долларов в год — это не огромная ставка. Alphabet (мудро) сделал другие ставки на ИИ, такие как Google Brain, который сам быстро растет. Alphabet может изменить баланс своего портфеля ИИ различными способами. Но для компании с доходом в 100 миллиардов долларов в год, которая зависит от ИИ во всем — от системы поисковых запросов до рекламных рекомендаций, это не безумие — сделать несколько значительных инвестиций.

Обеспокоенность чрезмерными обещаниями
На последний вопрос о том, как экономическое положение DeepMind повлияет на ИИ в целом, ответить трудно. Если ажиотаж превышает выхлоп, это может привести к «зиме ИИ», при которой даже сторонники не захотят инвестировать. Инвестиционное сообщество фиксирует значительные потери; если траты DeepMind будут продолжать удваиваться каждый год, даже Alphabet может в конечном итоге почувствовать необходимость отступить. И дело не только в деньгах. Ощутимые финансовые результаты также отсутствуют до сих пор. В какой-то момент инвесторы могут оказаться вынуждены пересмотреть свой энтузиазм на счет ИИ.

Тут не только DeepMind. Многие достижения, обещанные всего несколько лет назад, такие как автомобили, способные ездить сами по себе, или чат-боты, которые могут понимать разговоры, — так и не воплощены. Обещания Марка Цукерберга в апреле 2020 года Конгрессу, что ИИ скоро решит проблему фэйковых новостей, уже были смягчены, как и предсказывали Дэвис и я. Разговоры дешевы; конечная степень энтузиазма к ИИ будет зависеть от того, каким будет выхлоп.

Пока что подлинный машинный интеллект было легче рекламировать, чем строить. Хотя в таких ограниченных областях, как реклама и распознавание речи, были достигнуты большие успехи, но ИИ, несомненно, еще предстоит пройти длинный путь. Нельзя отрицать преимущества рационального анализа больших массивов данных. Даже в ограниченной форме ИИ уже является мощным инструментом. Корпоративный мир может стать менее оптимистичным в отношении ИИ, но он не может позволить себе полностью отказаться от него.

Мое собственное предположение?

Через десять лет мы придем к выводу, что в конце 2010-х годов глубокое обучение с подкреплением было переоценено, и что многие другие важные направления исследований игнорировались. Каждый доллар, вложенный в обучение с подкреплением, — это доллар, не вложенный где-то еще, в то время как, например, идеи из когнитивных наук о человеке могут дать ценные подсказки. Исследователи машинного обучения теперь часто спрашивают: «Как машины могут оптимизировать сложные проблемы, используя огромные объемы данных?» Мы могли бы также спросить: «Как дети приобретают язык и приходят к пониманию мира, используя меньше энергии и данных, чем современные системы ИИ?» Если бы мы потратили больше времени, денег и энергии на последний вопрос, чем на первый, мы могли бы добраться до искусственного общего интеллекта намного раньше.

Мастер Йода рекомендует:  15 лучших безопасных веб-шрифтов

Страница поста от канала Futuris

Обращаем внимание, что мы не несем ответственности за содержимое(content) того или иного канала размещенный на нашем сайте так как не мы являемся авторами этой информации и на сайте она размещается в автоматическом режиме

Пожаловаться

Обращаем внимание, что мы не несем ответственности за содержимое(content) того или иного канала размещенный на нашем сайте так как не мы являемся авторами этой информации и на сайте она размещается в автоматическом режиме


PlaNet: open source модель от DeepMind для обучения агентов с подкреплением

PlaNet (Deep Planning Network) — нейронная сеть от Google Brain и DeepMind, которая изучает модель мира, просматривая изображения, и применяет полученные знания для планирования своих действий.

Обучение с подкреплением для тренировки алгоритмов (когда сеть обучается с помощью вознаграждений) эффективно применяется для создания моделей принятия решений. Model-based обучение с подкреплением позволяет агенту четко планировать и точно выбирать действия (пример — алгоритм AlphaGo от DeepMind), но требует времени и больших вычислительных ресурсов.

Для планирования действий в неизвестной среде, например, для управления роботом, эффективнее обучить модель изучать механику из опыта, создав обобщенную модель, а не обучать каждому конкретному действию в отдельности. Поэтому для создания PlaNet исследователи из DeepMind решили использовать подход model-free, в котором агент обучается на основе сенсорных наблюдений.

Агент изучает контекст из первых 5 кадров, чтобы понять задачу и условия мира, и точно прогнозирует последовательность действий на 50 шагов вперед.

Как работает PlaNet

PlaNet создает динамическую модель данных на основе входящих изображений и использует их для получений нового опыта. Алгоритм использует модель скрытой динамики: вместо прямого прогнозирования от одного изображения к следующему, модель прогнозирует скрытое состояние. Изображение и вознаграждение на каждом этапе генерируются из соответствующего скрытого состояния.

Сжимая изображения таким образом, агент может автоматически запоминать более абстрактные представления, такие как положение и скорость объектов. Кроме того, использование скрытых представлений ускоряет планирование новых действий.

Модель скрытой динамики

Агенту не нужно генерировать изображения: он должен спрогнозировать будущее вознаграждение, чтобы выбрать последовательность действий. Таким образом сеть может представить, как изменится положение мяча и его расстояние до цели от определенного действия без необходимости визуализировать сценарий.

PlaNet сравнивает 10 000 последовательностей действий с большим размером батча каждый раз, когда нужно спланировать действие и выбирает первое с наилучшей найденной последовательностью.

Результаты

В тестировании PlaNet превзошла другие model-free подходы — A3C или D4PG. Более того, в случайно выбранной среде она научилась шести действиям за 2000 попыток, в то время как другим агентам требовалось в 50 раз больше для достижения сопоставимой производительности. PlaNet превосходит A3C во всех задачах и достигает конечной производительности, близкой к D4PG, при этом используя в среднем на 5000% меньше взаимодействия с окружающей средой.

Сравнение результатов PlaNet с другими методами

Дальнейшие исследования будут направлены на изучение точных моделей динамики для задач высокой сложности, таких как движения в трехмерных средах и реальные задачи робототехники.

Подробнее о сети можно прочесть в блоге Google. Открытый код доступен на GitHub.

ИИ DeepMind освоил командную игру и превзошёл человека в Quake III

Захват флага — достаточно простой соревновательный режим, реализованный во многих популярных шутерах. У каждой команды есть некий маркер, расположенный на её базе, и цель состоит в том, чтобы захватить маркер соперников и успешно доставить его к себе. Однако то, что легко понимают люди, не так легко даётся машинам. Для захвата флага неигровые персонажи (боты) традиционно программируются с помощью эвристики и несложных алгоритмов, предоставляющих ограниченную свободу выбора и значительно уступающие людям. Но искусственный интеллект и машинное обучение обещают полностью перевернуть эту ситуацию.

В статье, опубликованной на этой неделе в журнале Science примерно через год после препринта, а также в своём блоге, исследователи из DeepMind, лондонской дочерней компании Alphabet, описывают систему, способную не только научиться играть в захват флага на картах Quake III Arena от id Software, но и разрабатывать совершенно новые командные стратегии, ни в чём не уступая человеку.

Игроки обучают ИИ на ранних этапах исследования. Первоначально для обучения использовались карты Quake III с упрощённым дизайном уровней

«Никто не рассказал ИИ, как играть в эту игру, у него был только результат — победил ИИ своего противника или нет. Прелесть использования подобного подхода в том, что вы никогда не знаете, какое поведение возникнет при обучении агентов», — рассказывает Макс Джадерберг (Max Jaderberg), научный сотрудник DeepMind, который ранее работал над системой машинного обучения AlphaStar (недавно она превзошла человеческую команду профессионалов в StarCraft II). Далее он объяснил, что ключевой метод их новой работы — это, во-первых, усиленное обучение, которое использует своеобразную систему наград для подталкивания программных агентов к выполнению поставленных целей, причём система наград работала независимо от того, выиграла команда ИИ или нет, а во-вторых, обучение агентов производилось в группах, что принуждало ИИ осваивать командное взаимодействие с самого начала.

«С исследовательской точки зрения это новинка для алгоритмического подхода, которая действительно впечатляет, — добавил Макс. — Способ, которым мы обучали наш ИИ, хорошо показывает, как масштабировать и реализовать некоторые классические эволюционные идеи».

Схематичное изображение архитектуры агентов FTW. Агент объединяет две рекуррентные нейронные сети (RNNs) для быстрых решений и медленного анализа, включает в себя модуль общей памяти и изучает преобразование игровых очков во внутреннее вознаграждение

Агенты DeepMind, получившие вызывающее название — For The Win (FTW), учатся непосредственно на экранных пикселях, используя свёрточную нейронную сеть, набор математических функций (нейронов), расположенных в слоях, смоделированных по аналогии со зрительной корой мозга человека. Полученные данные передаются в две сети с многократной кратковременной памятью (англ. long short-term memory — LSTM), способные распознавать долгосрочные зависимости. Одна из них управляет оперативными данными с быстрой скоростью реакции, а другая работает медленно для анализа и формирования стратегий. Обе связаны с вариационной памятью, которую они совместно используют для прогнозирования изменений игрового мира и выполнения действий через эмулируемый игровой контроллер.

Как ИИ видит игровой мир? Паттерны нейронной активации показаны в зависимости от того, насколько они похожи друг на друга: чем ближе две точки находятся в пространстве, тем вероятнее применение одного и того же паттерна. Паттерны организованы и образуют цветные кластеры, что указывает на то, что агенты представляют значимые аспекты игрового процесса в стереотипной, организованной форме. Обученные агенты даже демонстрируют некоторые искусственные нейроны, которые кодируют конкретные игровые ситуации

В общей сложности DeepMind обучила 30 агентов, учёные дали им ряд товарищей по команде и противников, с которыми можно было играть, а игровые карты выбирались случайным образом, чтобы ИИ не запоминал их. Каждый агент имел свой собственный сигнал вознаграждения, позволяющий ему создавать свои внутренние цели, например, захват флага. Каждый ИИ по отдельности сыграл около 450 тыс. игр на захват флага, что эквивалентно примерно четырём годам игрового опыта.

Полностью обученные агенты FTW научились применять стратегии, общие для любой карты, списка команд и их размеров. Они обучились человеческому поведению, такому как следование за товарищами по команде, размещение в лагере на базе противника и защита своей базы от нападающих, а также они постепенно утратили менее выгодные модели, например, слишком внимательное наблюдение за союзником.

Прогресс навыков ИИ в процессе обучения. Примерно после 225 тыс. игр агенты сравнялись в навыках и рейтинге Эло с профессиональными игроками

Так каких же удалось добиться результатов? В турнире с участием 40 человек, в котором люди и агенты случайным образом играли как вместе, так и друг против друга, агенты FTW значительно превзошли коэффициент побед у игроков-людей. Рейтинг Эло, который соответствует вероятности выигрыша, у ИИ составил 1600, по сравнению с 1300 у «сильных» игроков-людей и 1050 у «среднего» игрока-человека.

Создание искусственной задержки в скорости реакции не дало людям преимущества перед ИИ

Это не удивительно, так как скорость реакции ИИ значительно выше, чем у человека, что давало первому значимое преимущество в первоначальных экспериментах. Но даже когда точность агентов была уменьшена, а время реакции увеличено благодаря встроенной задержке в 257 миллисекунд, ИИ всё равно превзошёл людей. Продвинутые и обычные игроки выиграли только 21 % и 12 % игр от общего числа соответственно.

Навыки ИИ оказались применимы и к полноценным картам Quake III, а не только к упрощённым, которые использовались для обучения

Более того, после публикации исследования учёные решили испытать агентов на полноценных картах Quake III Arena со сложной архитектурой уровней и дополнительным объектами, таких как Future Crossings и Ironwood, где ИИ начал успешно оспаривать первенство людей в тестовых матчах. Когда исследователи изучили схемы активации нейронных сетей у агентов, то есть функции нейронов, ответственных за определение выходных данных на основе входящей информации, они обнаружили кластеры, представляющие собой комнаты, состояние флагов, видимость товарищей по команде и противников, присутствие или отсутствие агентов на базе противника или на базе команды, и другие значимые аспекты игрового процесса. Обученные агенты даже содержали нейроны, которые кодировали непосредственно конкретные ситуации, например, когда флаг взят агентом или когда его держит союзник.

«Я думаю, что одна из вещей, на которые стоит обратить внимание, заключается в том, что эти многоагентные команды являются исключительно мощными, и наше исследование демонстрирует это, — говорит Джадерберг. — Это то, что мы учимся делать лучше и лучше за последние несколько лет — как решить проблему обучения с подкреплением. И обучение с подкреплением действительно показало себя блестяще».

Тор Грэпел (Thore Graepel), профессор компьютерных наук в Университетском колледже Лондона и ученый из DeepMind, уверен, что их работа подчёркивает потенциал многоагентного обучения для развития ИИ в будущем. Также она может послужить основой для исследований взаимодействия человека с машиной и систем, которые дополняют друг друга или работают вместе.

«Наши результаты показывают, что многоагентное обучение с подкреплением может успешно освоить сложную игру до такой степени, что игроки-люди даже приходят к мнению, что компьютерные игроки — лучшие товарищи по команде. Исследование также предоставляет крайне интересный углубленный анализ того, как обученные агенты ведут себя и работают вместе, рассказывает Грэпел. Что делает эти результаты такими захватывающими, так это то, что эти агенты воспринимают своё окружение от первого лица, [то есть] так же, как человек-игрок. Чтобы научиться играть тактически и сотрудничать со своими товарищами по команде, эти агенты должны были полагаться на обратную связь с результатами игры, без какого-либо учителя или тренера, показывающего им, что нужно делать».

Искусственный интеллект DeepMind победил людей в кооперативной игре Quake III Arena

Агенты нейросети тренировались на тысячах игр одновременно, проведя около 450 тысяч матчей.

Сотрудники британской компании DeepMind, которая с 2014 года принадлежит Google, опубликовали статью в журнале Science, посвященную успехам их искусственного интеллекта. На этот раз они смогли натренировать алгоритм на командную игру в режиме «Захват флага» мультиплеерного шутера Quake III Arena. Команда из агентов ИИ в подавляющем количестве игр победила команду людей.

Для тренировки агентов специалисты использовали обучение с подкреплением — метод машинного обучения, при котором система учится, взаимодействуя со средой. Авторы статьи пишут, что этот метод успешно зарекомендовал себя в обучении одного агента, но они хотели узнать, насколько он успешен при командной работе.

В качестве платформы они выбрали мультиплеерный шутер от первого лица Quake III Arena, но задали свои условия игры. Во-первых, карты каждый раз генерируются случайно. Во-вторых, в матче принимают участие только четыре игрока: по два с каждой стороны. Соревнование проходит только в одном режиме — «Захват флага»: каждая из команд должна одновременно защитить свой флаг, захватить флаг оппонентов и принести на свою базу. Реакцию системы снизили до средних показателей человека.

Авторы тренировали 30 агентов. Тренировка происходила благодаря многотысячным параллельным партиям, которые отыгрывали агенты. При этом каждый агент представлял собой индивидуальную единицу, которая действует самостоятельно, исходя из обучения с подкреплением. Специалисты также демонстрируют филогенетическое дерево, которое строится в ходе этого обучения.

После тренировок алгоритмы сыграли несколько партий с командой людей. Обе команды играли на неизвестных для них картах. Пара агентов за игру в среднем захватывала на 16 флагов больше, чем пара людей. Только когда человек играл в партнерстве с искусственным интеллектом, ему удавалось выиграть у объединения алгоритмов (5% вероятности победы).

Профессор Технологического колледжа Джорджии Марк Ридл (Mark Riedl) раскритиковал такой подход британской фирмы, сказав, что агенты не обмениваются сообщениями, а лишь реагируют на те события, которые происходят в игре. Однако представитель DeepMind Макс Джадерберг (Max Jaderberg) возразил:

«[В нашей симуляции] один из агентов сидит в лагере противника, ожидая, когда вновь появится флаг, это возможно только потому, что он полагается на своего партнера по команде».

Джадерберг говорит об одной из тактик искусственного интеллекта, выработанной тем в ходе обучения, которая предполагает ожидание появления нового флага в лагере оппонента. Ее часто используют и люди.

В январе DeepMind сообщила, что ее искусственный интеллект AlphaStar одолел двух профессиональных игроков в стратегию StarCraft II, проходящую в реальном времени.

Создать искусственный интеллект, не уступающий человеку: насколько близка к этому компания DeepMind Материал редакции

Пока её система лучше всех играет в шахматы и го, но ориентируется в пространстве и обдумывает свои действия хуже человека

В 2010 году Демис Хассабис основал стартап DeepMind Technologies вместе с Шейном Леггом, с которым познакомился в Университетском колледже Лондона, и другом детства Мустафой Сулейманом.

Основатели, чтобы развить технологию ИИ, хотели попробовать междисциплинарный подход — объединение идей и достижений в области машинного обучения, нейробиологии, инженерии, математики, моделирования и вычислительной инфраструктуры.


В компанию инвестировали венчурные фонды Horizons Ventures, Founders Fund, а также Илон Маск и Скотт Банистер, соучредитель IronPort.

Команда DeepMind увидела потенциал в компьютерных играх, которые исследователи использовали для тестирования ИИ. Одна из их программ научилась играть в 50 различных игр Atari, а AlphaGo стала первой системой, победившей профессионального игрока в игре гo.

Мастер Йода рекомендует:  Как избежать падения доходов в РСЯ после перехода на RTB

Слияние с Google

26 января 2014 года Google объявила о приобретении DeepMind Technologies. Сумма сделки составила от $400 до $650 млн. Покупка состоялась после того, как Facebook прекратила переговоры о приобретении компании в 2013 году. После покупки стартап стал называться Google DeepMind.

В начале сентября 2020 года DeepMind перешла в Alphabet, а из её названия исчезло упоминание Google.

Научные прорывы

AlphaZero и игра в шахматы, сёги и го

В конце 2020 года DeepMind представила AlphaZero, систему, которая самостоятельно овладевает игрой в шахматы, сёги и го. Шахматное сообщество отметило в играх AlphaZero новаторский, высокодинамичный и «нетрадиционный» стиль.

Неподготовленная нейронная сеть, обучаясь, играет сама с собой миллионы партий. Такой метод известен как обучение с подкреплением. Со временем AlphaZero учится на выигрышах, проигрышах и ничьих, корректируя параметры нейронной сети, что позволяет принимать правильные решения в следующих играх.

Количество тренировок, в которых нуждается сеть, зависит от стиля и сложности игры: около 9 часов для шахмат, 12 часов для сёги и 13 дней для го.

Обученную систему протестировали на сильнейших движках для шахмат (Stockfish) и сёги (Elmo), а также на предыдущей версии системы AlphaGo Zero, сильнейшем из известных игроков в го.

Stockfish и Elmo использовали 44 ядра процессора (как на чемпионате мира TCEC), тогда как AlphaZero и AlphaGo Zero использовали одну машину с четырьмя TPU первого поколения и 44 ядрами. Все матчи проводились с контролем времени: три часа на игру, дополнительные 15 секунд на каждый ход.

В каждой игре AlphaZero побеждала своего противника:

  • В шахматах AlphaZero победила Stockfish, чемпиона мира TCEC (девятый сезон) 2020 года, выиграв 155 и проиграв 6 игр из 1000.
  • В сёги AlphaZero победила версию Elmo, чемпиона мира CSA 2020 года, выиграв 91,2% игр.
  • В го AlphaZero победила AlphaGo Zero, выиграв 61% игр.

По мнению DeepMind, для создания интеллектуальных систем, способных решать реальные проблемы, необходимо, чтобы они были гибкими и обобщали новые ситуации.

Системы, овладевающие конкретными навыками, часто не справляются даже со слегка изменёнными задачи. Умение AlphaZero учиться играть в шахматы, сёги и го демонстрирует, что алгоритм может получать новые знания в различных ситуациях.

В будущем, отмечают в DeepMind, это может помочь в создании системы ИИ для решения научных проблем.

Генеративная сеть запросов (DQN): игры Atari

Цель DeepMind — создать искусственных агентов, которые смогут достичь аналогичного человеку уровня производительности и универсальности.

Агенты структурируют и изучают данные, получаемые, например, с помощью зрения, благодаря глубокого обученным нейронным сетям. Для создания первых искусственных агентов в DeepMind впервые применили глубокое обучение с подкреплением (RL).

Агенты DeepMind постоянно выносят оценочные суждения, выбирая хорошие действия вместо плохих. Эти знания представлены Q-сетью, она оценивает общее вознаграждение, которое агент может получить после выполнения определённого действия.

В 2020 году DeepMind представила первый успешный алгоритм глубокого обучения с подкреплением. Ключевая идея — использование глубоких нейронных сетей для представления Q-сети и обучение её для прогнозирования общего вознаграждения.

Предыдущие попытки объединить обучение с подкреплением и нейронные сети были неудачными из-за нестабильного обучения. Чтобы устранить проблемы, алгоритм Deep Q-Network (DQN) хранит весь опыт агента, а затем случайно отбирает и воспроизводит этот опыт для предоставления разнообразных обучающих данных.

DeepMind применила DQN для обучения алгоритма играм для консоли Atari 2600. На каждом временном шаге агент наблюдает необработанные пиксели на экране, сигнал вознаграждения, соответствующий счёту в игре, и выбирает направление джойстика. DeepMind обучила отдельных агентов DQN для 50 различных игр Atari без какого-либо предварительного знания правил.

DQN достигла человеческого уровня почти в половине из 50 игр. Исходный код DQN и эмулятор Atari 2600 находятся в свободном доступе.

Впоследствии DeepMind усовершенствовала алгоритм DQN:

  • Стабилизировала динамику обучения.
  • Расставила приоритеты переигрываемых событий.
  • Нормализовала, агрегировала и масштабировала выходные данные.

Усовершенствования привели к 300-процентному улучшению среднего показателя в играх Atar; производительность на человеческом уровне достигнута почти во всех играх на этой приставке.

Компания также создала систему RL, известную как Gorila, которая использует платформу Google Cloud для ускорения обучения.

Позже DeepMind представила ещё более эффективный метод, основанный на асинхронном RL. Этот подход использует многопоточность стандартных процессоров.

Идея в том, чтобы одновременно создать множество агентов, но с использованием общей модели. Это обеспечивает жизнеспособную альтернативу опыту воспроизведения, поскольку распараллеливание также диверсифицирует и декоррелирует данные.

Асинхронный алгоритм Actor Critic, A3C, объединяет глубокую Q-сеть с политикой сети для выбора действий. Он использует часть времени обучения DQN и часть ресурсов Gorila. Создавая новые подходы к внутренней мотивации и временному абстрактному планированию, DeepMind достигла высоких результатов в «Мести Монтесумы».

В 3D-игре Labyrinth агент собирает данные из пикселей и своего непосредственного поля зрения; A3C достигает производительности на уровне человека во многих задачах. Он исследует карту, чтобы найти награды.

Альтернативный подход, основанный на эпизодической памяти, тоже оказался успешным.

Кроме того, DeepMind разработала ряд методов глубокого RL для задач непрерывного контроля вроде манипуляций с роботами и локомоции. Алгоритм детерминированных градиентов политик (DPG) обеспечивает непрерывный аналог DQN, используя дифференцируемость Q-сети для решения широкого спектра задач непрерывного контроля.

Асинхронный RL, дополненный стратегией иерархического управления, может успешно играть в «Муравьиный футбол» и «54-мерный гуманоидный слалом», — без предварительного знания динамики.

DeepMind разработала алгоритм RL, который изучает как сеть ценностей (которая предсказывает победителя), так и сеть политик (которая выбирает действия) при помощи игр с собой. AlphaGo объединила эти глубокие нейронные сети.

В октябре 2015 года AlphaGo стала первой программой, победившей профессионального игрока-человека в го. В марте 2020 года AlphaGo победила в го Ли Седола — сильнейшего игрока последнего десятилетия с 18 мировыми титулами.

Нейронная сеть с динамической памятью

В недавней статье DeepMind показала, как объединить нейронные сети и системы памяти для создания машин, которые хранят знания и рассуждают о них. Эти модели, дифференцируемые нейронные компьютеры (DNC), учатся на примерах, как нейронные сети, и хранят данные, как компьютеры.

Они задействуют память для ответа на вопросы о сложных структурированных данных, включая искусственно созданные истории, родословные и карты метро.

Также DeepMind показала, что алгоритм может решить головоломку с использованием обучения с подкреплением. Сейчас разработчики только начинают создавать нейронные сети, которые могут обдумывать ответ, рассуждать, используя знания.

В компьютере процессор считывает информацию из оперативной памяти (ОЗУ) и записывает в неё новую. ОЗУ даёт процессору гораздо больше места для организации промежуточных результатов вычислений. Временные заполнители называются переменными и хранятся в памяти.

Переменные содержат числовое значение. Структуры данных — переменные в памяти, содержащие ссылки, по которым можно переходить к другим переменным.


Одна из самых простых структур данных — список: последовательность переменных, которые можно читать по элементам. Например, можно сохранить список имён игроков в спортивной команде, а затем прочитать каждое имя по одному.

Более сложная структура данных — дерево. Например, в семейном древе можно переходить по ссылкам от детей к родителям, чтобы прочесть родословную.

Одна из самых сложных и общих структур данных — граф, подобный сети лондонского метро.

Проектируя DNC, разработчики хотели создать машины, которые могли бы научиться самостоятельно формировать сложные структуры данных и ориентироваться в них. В основе DNC лежит нейронная сеть, контроллер, аналогичный процессору в компьютере.

Контроллер отвечает за ввод данных, чтение, запись в память и за вывод-ответ. Память представляет собой набор местоположений, каждое из которых может хранить вектор информации.

Контроллер выполняет несколько операций с памятью: он выбирает, записывать данные в память или нет. Если он выбирает запись, информация хранится в неиспользованном месте или там, где содержатся данные, которые ищет контроллер. Это позволяет ему обновлять содержимое местоположения.

Если все места в памяти израсходованы, контроллер освобождает некоторые, как компьютер перераспределяет память, которая больше не нужна. Записывая что-то, компьютер отправляет вектор информации в выбранное место в памяти.

Каждый раз, когда информация записывается, местоположения связываются ссылками ассоциации, представляющими порядок, в котором информация была сохранена.

На изображении нейронный сетевой контроллер (слева) получает внешние сигналы и на их основе взаимодействует с памятью, используя операции read или write. Чтобы контроллеру было проще перемещаться по памяти, DNC хранит «временные ссылки», следя за тем, что было написано, и записывает текущий уровень «использования» каждого местоположения памяти.

Когда DNC даёт ответ, DeepMind сравнивает ответ с желаемым правильным ответом. Со временем контроллер учится выдавать ответы, которые ближе всего к правильному ответу. В процессе он выясняет, как использовать память.

DeepMind хотела проверить DNC на проблемах, касающихся построения структур данных и использования их для ответов на вопросы.

DNC самостоятельно учится записывать описания и отвечать на вопросы о них. Когда DeepMind описывала станции и линии лондонского метро, разработчики могли попросить DNC ответить вопрос, как добраться из Моргате до Пикадилли.

DNC обучался на случайно сгенерированных графах (на изображении слева). После исследователи проверили, сможет ли DNC правильно перемещаться в лондонском метро.

Используемые для определения графы сети показаны ниже вместе с примерами из двух видов задач:

  • «Путешествия»: найти правильную последовательность станций.
  • «Короткий путь»: найти самый короткий маршрут между двумя станциями.

На примере семейного древа DeepMind показала, что DNC может отвечать на вопросы, требующие сложных выводов. Описывая только отношения родителей, детей, братьев и сестер, разработчики спрашивали, например, кто предок Фрейи по материнской линии.

DeepMind также визуализировала, в каких местах памяти контроллер прочёл данные, чтобы дать ответ. Обычные нейронные сети в таких сравнениях не могли хранить информацию или научиться рассуждать, обобщая новые примеры.

WaveNet — генеративная модель для необработанного аудио

WaveNet способна генерировать речь, имитирующую любой человеческий голос. Эту же сеть, показала DeepMind, можно использовать для синтеза музыки.

Однако синтез речи, или преобразование текста в речь (TTS), — всё ещё сильно полагается на так называемую конкатенацию TTS, где большая база данных коротких фрагментов речи записывается одним диктором, а затем рекомбинируется для формирования полных высказываний.

Это затрудняет изменение голоса (например, переключение на другого говорящего или изменение акцента, эмоций) без записи новой базы данных. Появилась потребность и в параметрическом TTS, где вся информация, необходимая для генерации данных, хранится в параметрах модели, а содержимое и характеристики речи можно контролировать.

Пока параметрический TTS звучит менее естественно, чем конкатенационный. Существующие параметрические модели обычно генерируют аудиосигналы, пропуская выходы через алгоритмы обработки сигналов — вокодеры.

WaveNet же моделирует необработанную форму звукового сигнала напрямую, по одной выборке за раз. Наряду с более естественным звучанием речи использование необработанных сигналов означает, что WaveNet может моделировать любой вид звука, включая музыку.

WaveNets

Исследователи, как правило, избегают моделирования необработанного звука, потому что он воспроизводится быстро: 16 тысяч сэмплов в секунду или больше.

Построение полностью авторегрессионной модели, в которой на прогноз для каждой из этих выборок влияют все предыдущие (в статистике каждое прогнозное распределение обусловлено всеми предыдущими наблюдениями), — сложная задача.

Однако модели PixelRNN и PixelCNN, опубликованные в 2020 году, показали, что можно создавать сложные естественные изображения не только по одному пикселю за раз, но и по одному цветному каналу за раз. Это вдохновило DeepMind на адаптацию двумерных PixelNets к одномерной сети WaveNet.

Анимация показывает структурирование WaveNet. Это полностью свёрточная нейронная сеть. Свёрточные слои имеют различные коэффициенты расширения, которые позволяют рецептивному полю экспоненциально расти с глубиной и покрывать тысячи временных шагов.

Во время обучения входные последовательности представляют собой реальные сигналы, записанные от людей. После обучения можно попробовать сеть для генерации синтетических высказываний.

На каждом шаге выборки значение берётся из распределения вероятностей, рассчитанного сетью. Это значение затем подаётся обратно на вход, и создаётся новый прогноз для следующего шага. Создание сэмплов по одному шагу за раз требует больших вычислительных ресурсов, но DeepMind сочла это необходимым для создания реалистичного звука.

Компания обучила WaveNet, используя наборы данных TTS от Google в оценке производительности алгоритма.

На рисунке ниже — качество WaveNet для разных языков по шкале от одного до пяти по сравнению с лучшими современными системами TTS Google (параметрическими и конкатенативными), а также с человеческой речью, использующей средние оценки мнений (MOS).

MOS — стандартная мера для субъективных тестов качества звука. Как видно, сети WaveNet сокращают разрыв более чем на 50% как для английского, так и для китайского языков.

Мандаринское наречие китайского языка

Чтобы использовать WaveNet для преобразования текста в речь, нужно сообщить алгоритму, какой перед ним текст. Для этого DeepMind преобразует текст в последовательность лингвистических и фонетических функций (которые содержат информацию о текущей фонеме, слоге, слове и так далее) и подаёт её в WaveNet.

Таким образом, предсказания сети обусловлены не только предыдущими аудиосэмплами, но и текстом, который нужно произнести.

Поскольку WaveNet можно использовать для моделирования любого аудиосигнала, в DeepMind попытались сгенерировать музыку. В отличие от экспериментов TTS, разработчики не определяли для сетей входную последовательность, указывающую, что играть (например, музыкальное сопровождение); вместо этого алгоритму просто позволили генерировать всё, что он хочет.

GQN: представление и рендеринг нейронных сцен

В DeepMind считают: воспринимая визуальную информацию, человек видит нечто большее, чем просто картинку, мозг опирается на предварительные знания и рассуждения и делает выводы, которые выходят за рамки света, падающего на сетчатку.

Например, при первом входе в комнату человек мгновенно узнаёт элементы, которые в ней находятся, и место их расположения. Если он видит три ножки стола, он решит, что четвёртая ножка такой же формы и цвета, возможно, скрыта от глаз. Даже если человек не видит всё в комнате, он может представить её схему или оформление с другой точки зрения.

Эти визуальные и познавательные задачи кажутся людям простыми, но для искусственных систем они очень сложны. Современные системы визуального распознавания обучаются на больших наборах данных аннотированных изображений, созданных людьми.

Получение этих данных — дорогостоящий и трудоёмкий процесс, требующий маркирования каждого аспекта каждого объекта в каждой сцене набора данных. В результате часто захватывается только небольшое подмножество общего содержания сцены, что ограничивает системы искусственного зрения, обученные на таких данных.

Мастер Йода рекомендует:  Stack Overflow запускает самое большое нововведение с момента старта всего проекта — документации

Поскольку DeepMind разрабатывает более сложные машины, которые работают в реальном мире, компания хочет, чтобы они полностью понимали своё окружение: где находится ближайшая поверхность, из какого материала сделан диван, где находится выключатель.

В работе, опубликованной в журнале Science, DeepMind представила генерирующую сеть запросов (GQN), структуру, в рамках которой машины учатся воспринимать окружение, обучаясь только на данных, которые они сами получают, перемещаясь по сценам.

GQN учится, осмысливая наблюдения за окружающим миром. При этом GQN узнаёт о сценах и их геометрических свойствах без маркировки содержания сцен.

GQN состоит из двух сетей: сети представлений и сети генерации. Первая принимает наблюдения агента в качестве входных данных и создаёт представление (вектор), которое описывает базовую сцену. Вторая прогнозирует («воображает») сцену с ранее не наблюдаемой точки зрения.

Сеть представлений не знает, какие точки обзора создаст сеть генерации, поэтому она должна найти эффективный способ описания истинного расположения сцены с максимально возможной точностью. Это достигается захватом наиболее важных элементов вроде положения объектов, цвета и планировки помещения.

Во время обучения генератор узнаёт о типичных объектах, особенностях, отношениях и закономерностях в окружающей среде. Этот общий набор «концепций» позволяет сети представлений описывать сцену в очень сжатой, абстрактной манере, предоставляя сети генерации возможность при необходимости заполнять детали.


Например, сеть представлений будет представлять «синий куб» в виде небольшого набора чисел, и сеть генерации будет знать, как это проявляется в виде пикселей с определённой точки зрения.

DeepMind провела контролируемые эксперименты на GQN в процедурно-сгенерированных трёхмерных средах, содержащих несколько объектов в случайных положениях, цветах, формах и текстурах, с рандомизированными источниками света и сильной окклюзией.

После обучения в этих средах компания использовала сеть представлений GQN для формирования представлений о новых, ранее ненаблюдаемых сценах. В экспериментах DeepMind показала, что GQN проявляет несколько важных свойств:

  • GQN может «представить» ранее ненаблюдаемые сцены с новых точек зрения с высокой точностью. Когда GQN даётся представление сцены и новые точки обзора камеры, она генерирует чёткие изображения без какой-либо предварительной спецификации законов перспективы, окклюзии или освещения. Таким образом, сеть генерации — приблизительное средство визуализации, которое извлекается из данных.
  • Представительная сеть GQN может научиться считать, локализовать и классифицировать объекты без каких-либо меток уровня объекта. Несмотря на то что её представление может быть очень маленьким, прогнозы GQN с точки зрения запросов — точные и почти неотличимы от правды. Это подразумевает верность восприятия сети представлений, например в идентификации точной конфигурации блоков.
  • GQN может представлять, измерять и уменьшать неопределённость. Алгоритм способен учитывать её в своих представлениях о сцене, даже когда содержание видимо частично, и может комбинировать несколько частичных представлений сцены, чтобы сформировать целое. На картинке модель выражает свою неопределённость через изменчивость прогнозов, которая постепенно уменьшается по мере движения по лабиринту (серые конусы указывают места наблюдения, жёлтый конус указывает местоположение запроса).

GQN опирается на обширную литературу недавних работ по геометрии, генеративному моделированию, неконтролируемому обучению и прогнозному обучению.

Предлагаемый подход не требует специфичной для предметной области разработки или трудоёмкой маркировки содержимого сцен, что позволяет применять одну и ту же модель к ряду различных сред. В рамках подхода изучается и нейронный рендерер, способный создавать точные изображения сцен с новых точек зрения.

Метод DeepMind по-прежнему имеет много ограничений по сравнению с более традиционными методами компьютерного зрения, и в настоящее время он работает только на синтетических сценах.

Появление новых источников данных и улучшение аппаратных возможностей позволит компании исследовать применение инфраструктуры GQN для изображений с более высоким разрешением реальных сцен.

Реальное мировое воздействие

Выявление глазных заболеваний

DeepMind объявила о сотрудничестве подразделения DeepMind Health с офтальмологической клиникой Moorfields NHS Foundation Trust. Вместе они намерены лечить диабетическую ретинопатию и возрастную дегенерацию жёлтого пятна (ВДЖП). Эти болезни затрагивают более 625 тысяч человек в Великобритании и более 100 млн человек по всему миру.

По оценкам, каждый одиннадцатый взрослый в мире страдает диабетом. Диабет — основная причина слепоты среди населения трудоспособного возраста (с диабетом риск потери зрения выше в 25 раз). Раннее выявление и лечение могут предотвратить 98% серьёзной потери зрения из-за диабета.

Возрастная макулярная дегенерация (ВМД) — наиболее распространенная причина слепоты в Великобритании. Каждый день в Великобритании около 200 человек теряют зрение из-за серьёзной слепой формы этого состояния, и во всем мире число людей с ВМД должно вырасти почти до 200 млн к 2020 году.

Машинное обучение может помочь спасти зрение многих из этих людей — благодаря раннему выявлению ВМД.

По данным DeepMind, сегодня офтальмологи для диагностики и лечения этих заболеваний используют цифровое сканирование глазного дна (задняя часть глаза) и оптическую когерентную томографию (ОКТ).

Эти процедуры сложны и требуют много времени для анализа, что влияет на то, как быстро врачи могут встретиться с пациентами для обсуждения диагноза и лечения. Кроме того, традиционные инструменты компьютерного анализа не дают полной картины.

Исследовательский проект DeepMind направлен на изучение того, как машинное обучение сможет помочь эффективно и результативно проанализировать эти результаты сканирования. Это приведёт к раннему выявлению болезней и оказанию своевременной помощи.

Экономия энергии

В 2020 году DeepMind и Google совместно разработали систему рекомендаций на основе ИИ — для повышения энергоэффективности уже высоко оптимизированных центров обработки данных Google. Компании считают, что даже незначительные улучшения обеспечат значительную экономию энергии и уменьшат выбросы углекислого газа, что поможет бороться с изменением климата.

Центры обработки данных Google содержат тысячи серверов, на которых работают «Google Поиск», Gmail и YouTube.

Вместо рекомендаций, выполняемых человеком, их система искусственного интеллекта напрямую контролирует охлаждение центра обработки данных, оставаясь при этом под наблюдением людей.

Каждые пять минут облачный ИИ извлекает снимок системы охлаждения центра обработки данных, представленный тысячами физических датчиков

Информация поступает в глубокие нейронные сети, которые прогнозируют будущую энергоэффективность и температуру на основе предложенных действий

Оптимальные действия отправляются обратно в центр обработки данных, где локальная система проверяет их на соответствие собственным ограничениям безопасности перед внедрением

DeepMind спроектировала агентов ИИ и основную инфраструктуру управления с нуля, используя восемь различных механизмов, чтобы система всегда работала как задумано.

Одна из реализованных практик — оценка неопределённости. Для каждого потенциального действия — а их миллиарды, — агент ИИ рассчитывает её качество. Действия с низкой эффективностью исключаются из рассмотрения.

Другой метод — двухслойная проверка. Оптимальные действия, рассчитанные ИИ, проверяются по внутреннему списку ограничений безопасности, определённых операторами центров обработки данных.

Как только инструкции отправляются из облака в физический центр обработки данных, локальная система управления проверяет их на соответствие своему набору ограничений. Избыточная проверка гарантирует, что система остаётся в пределах локальных ограничений, а операторы сохраняют полный контроль над работой: в любой момент они могут перехватить управление у ИИ.

DeepMind намеренно ограничила оптимизацию системы рабочим режимом, чтобы расставить приоритеты в отношении безопасности и надёжности.

Несмотря на то что система работает всего несколько месяцев, она обеспечивает 30-процентную экономию энергии с ожидаемым улучшением: разработка становится лучше по мере увеличения количества данных.

Производительность измеряется с помощью общепринятого отраслевого показателя энергоэффективности охлаждения — кВт/т (или потребляемой энергии на тонну достигнутого охлаждения).

Помогите с AI в Unity

Начал работу над ИИ в своём проекте, посмотрел уроки на YouTube,полазил по оф.сайту в поисках информации по системе навигации , так вот, как я понял ничего толкового стандартными средствами не сделать или я ошибаюсь? Если тут есть люди которые могут подсказать в этом деле(насчёт работы с ИИ в юньке, что выбрать для начала) то помогите пожалуйста.

Стандартными, разве что, стейт-машину аниматором

Ceetrus
> Стандартными, разве что, стейт-машину аниматором
Хм, хорошо, буду юзать RayCast’ы для своих целей 🙂

Mr_God
> по системе навигации , так вот, как я понял ничего толкового стандартными
> средствами не сделать

А каковы критерии толковости?

Mr_God
Можно и стандартными инструментами, зависит от задач. 2д, 3д,сверху,сбоку и т.д.

Система навигации и ИИ как бы разные вещи. Для навигации есть navmesh https://docs.unity3d.com/Manual/Navigation.html . А для ИИ в общем случае ничего не может быть, т.к. ИИ пишется под конкретную игру, а юнити универсальный движок. Если только у тебя не глубокое обучение =)

Для навигации можно и а* использовать, не обязательно навмеш. Алгоритм очень прост.
Для интеллекта можно использовать систему событий с весами, которую привязать к различным раздражителям.
Таким как — время суток, наличие игрока и так далее.
А далее, в зависимости от значимости события — та, либо иная реакция.
Было бы круто использовать блендинг для событий, чтобы порождать неоднозначные реакции.

Virtex
> А каковы критерии толковости?
Ну к примеру, я делаю 3D шутер, не суть важно какой и зачем, так вот, мне именно нужно сделать так что-бы НПС обнаруживал игрока в определённом радиусе перед собой, что-то типа реального обзора или сканирования местности перед собой,называйте как хотите, за неделю я сделал что-то подобное с помощью RayCastов, но весь прикол в том что этот способ не совсем рабочий, НПС обнаруживает игрока, в определённом радиусе около себя, но рэйкасты на дальнем расстоянии где-то дальше 20 кубов(метров т.е.) попросту разлетаются в стороны и не засекают игрока, конечно если бегать из стороны в сторону то игрока НПС «видит» , ещё на ближней дистанции не всегда НПС «видит» игрока , т.е. в скрипте есть переменная bool типа которая показывает «видит-ли» НПС игрока, а сейчас немного говнокода, у меня есть три скрипта , один скрипт отправляет луч, второй скрипт обрабатывает информацию, а третий основной скрипт НПС уже всё распределяет на свои места, я в нём пишу методы взаимодействия НПС и Игрока, скину скрипт который отправляет лучи, остальные скидывать нету смысла, т.к. с ними всё нормально p.s. npcAI.radiusRay равен 0.25 эту цифру я вычислил экспериментальным путём, т.к. если сделать больше то вблизи игрока лучи почему-то не буду засекать, а если меньше то аналогично но с дальними дистанциями , и в проверке на дистанцию не обращайте внимания на цифру 10, это я уже начал делать хоть какие-то взаимодействия с игроком, к примеру что-бы при подходе игрока НПС с ним здоровался.

Salamandr
> Можно и стандартными инструментами, зависит от задач. 2д, 3д,сверху,сбоку и
> т.д.
3d, для шутера, хе-хе, который пока без ИИ нельзя назвать таковым

MaximYarilo
> Если только у тебя не глубокое обучение =)
Не понял, я как бы на программиста учусь, уже более менее в C# разбираюсь, почти год C# учу, ну и на Юньке год где-то сижу,обучаюсь, что-бы потом более серьёзными делами в GameDev’e заниматься, больше у меня нету ни к чему тяги и интереса, только геймдев и программирование

91 глаз 0.01MOA. Чувак, ты в курсе, что можно вычислить угол между направлением взгяда персонажа и направлением от персонажа до игрока? И прикинь, оно внезапно будет работать лучше и быстрее, чем 91 глаз. А еще можно вычислить dot-product, что будет еще быстрее. Круто, да?

Mr_God
> почти год C# учу
Mr_God
> пустых GameObject’ов на которых висит этот скрипт, может быть в этом проблема )
> , я их все вручную поворачивал так что-бы они охватывали радиус в 90 градусов
До циклов за год не дошел?

Google открыл всем желающим бесплатный доступ к своему искусственному интеллекту

Занимающаяся созданием искусственного интеллекта GoogleDeepMind открыла для разработчиков платформу, разместив исходный код в интернете.

Открытый лабиринт

Google DeepMind — подразделение Alphabet Inc., занимающееся разработкой искусственного интеллекта (ИИ), — открыло свою платформу. Исходный код виртуальной среды DeepMind Lab (ранее «Лабиринт») для машинного обучения будет полностью и бесплатно для пользователей размещен на базе крупнейшего веб-сервиса для хостинга ИТ-проектов и их совместной разработки GitHub.

Как сообщает Bloomberg, теперь любой желающий сможет скачать код и настроить его для того, чтобы обучить собственные системы искусственного интеллекта. Разработчики также смогут создавать новые игровые уровни для DeepMind Lab и загружать их на GitHub.

Тренировка на яблоках

Журналисты отмечают, что раскрытие исходного кода продолжает политику Alphabet, направленную на максимальную открытость своих научных исследований. В прошлом месяце компания подписала соглашение с разработчиками из Activision Blizzard Inc. по использованию популярной игры Starcraft II для тренировки искусственного интеллекта.

По словам специалистов Alphabet, в виртуальной среде DeepMind Lab ИИ может «смотреть и двигаться в любом направлении». В ходе недавнего эксперимента, к примеру, разработчики заставили искусственный интеллект бродить по миру платформы, собирая цифровые яблоки-бонусы. Открытие исходного кода позволит разработчикам ИИ пользоваться инструментами тестирования Google DeepMind, сравнивая результаты. «Они (независимые разработчики) могут даже обойти нас в результатах. Если получится», — уточнил сооснователь Google DeepMind Шейн Легг (Shane Legg).

Конкуренты по интеллекту

Ранее, в апреле 2020 г., конкурент Google DeepMind, сооснователь проекта OpenAI бизнесмен Илон Маск (Elon Musk) открыл публичный доступ к тренировочной платформе для искусственного интеллекта OpenAI Gym. В минувший понедельник миллиардер также объявил, что откроет доступ к интерфейсу Universe, позволяющему искусственному интеллекту «использовать компьютер так, как это делает человек, глядя на экран и манипулируя мышью и клавиатурой».

Тем не менее, в Alphabet заявили, что их решение открыть платформу никак не связано с конкуренцией. «Мы публикуем по сотне научных работ в год, а исходный код разработок открывали и раньше», — пояснил Шейн Легг.

Напомним, DeepMind ранее получил всемирную известность благодаря исторической победе над человеком в ходе игры в го. Считается, что, в отличие от шахмат, она более зависит от «человеческих» характеристик игроков, в частности умении расставлять ловушки и менять стратегию в зависимости от стиля соперника.

Искусственный интеллект в Unity

Искусственный интеллект уже способен и обыграть человека в древнейшую «Го», и превзойти опытных игроков в известной «Dota 2». Так или иначе, ИИ почти всегда становится заметной частью игры. Не будем поддаваться панике в ожидании «Восстания машин» и познакомимся с азами работы с Искусственным Интеллектом в Unity:

  • освоим основы встроенного в Unity ИИ;
  • создадим небольшую игру и напишем для нее поведение компьютерного игрока;
  • очеловечим компьютерного противника.
Добавить комментарий