Разработчики MIT создали нейронную сеть для трассировки дорог на аэрофотоснимках


Оглавление (нажмите, чтобы открыть):

Apparat — Журнал о новом обществе

В MIT разработали нейросеть для создания видеороликов на основе фото

Специалисты Массачусетского технологического института (MIT) создали нейросеть, способную генерировать видеоролики на основе статичных изображений.

В нейронную сеть загрузили более 2 миллионов видео с платформы Flickr, рассортированных на четыре типа в зависимости от того, что на них изображено: поля для гольфа, пляжи, вокзалы, больницы (категория состоит из изображений младенцев). Изучив эти данные, нейронная сеть научились генерировать короткие видеоролики длиной около секунды.

Сначала система распознаёт, что изображено на фото и определяет, к какой категории его отнести. Далее на основе статичного изображения она воссоздаёт движения, которые наиболее часто встречаются в соответствующих видео.

Создатели уточняют, что нейросеть также научилась создавать видео, прогнозируя, какие кадры могли бы следовать дальше. При этом система не понимает, что происходит на видео и прогнозирует только изменения расположения пикселей.

we always went to the beach on the coldest days. i took my orange towel and danced in the wind near the water. pic.twitter.com/MHCqrrtskY

Ещё один недостаток технологии — низкое разрешение: 64×64. Из-за этого при ближайшем рассмотрении происходящее на ролике оказывается не только нереалистичным, но и размытым.

Ранее компания Magic Pony Technology обучила нейросети преобразовывать изображения в более высоком разрешении, реалистично дорисовать текстуру,а также улучшать резкость видео.

Разработчики MIT создали нейронную сеть для трассировки дорог на аэрофотоснимках

В предыдущей статье мы рассказали о технологии трассировки лучей для визуализации и о её использовании в современных графических ускорителях. Сегодня мы более подробно расскажем о том, как же удалось перенести столь требовательную технологию на персональные компьютеры, а также ответим на некоторые часто возникающие вопросы. «Но как, Холмс?»

Говоря о трассировке лучей в реальном времени на домашних видеокартах, Nvidia немного приукрасила реальность (что неудивительно для компании, занимающейся видеопроцессорами). Дело в том, что «честный» обсчёт всех возможных гипотетических лучей всё ещё требует значительно большей вычислительной мощности, чем может позволить себе обычный пользователь. Поэтому разработчики компании немного схитрили: на самом деле происходит расчёт лишь некоторой части лучей, а результат для всех остальных вычисляется путём интерполяции. Это вносит некоторую заведомую неточность в теории, но тени и отражения в нашем восприятии и так значительно искажены атмосферой (и куда сильнее — зрительной системой человека), поэтому разницу не заметит даже самый требовательный глаз.

Второй важный подход к ускорению визуализации сцены — так называемое удаление шума. Для каждого пикселя виртуальной камеры возможно создать ограниченное число лучей, поэтому при ограниченном времени обсчёта кадра (для видеоигр минимально приемлемая частота не ниже 30 кадров в секунду, сравните с 10 часами на кадр в киностудиях Голливуда) образуются «артефакты» или визуальный шум, портящий конечное изображение. Современные алгоритмы позволяют устранить его лишь частично, но Nvidia использует нейронные сети с глубоким обучением (читай: искусственный интеллект), делающие возможным выполнение этой задачи в реальном времени.

И наконец, никто не отказывался от классического подхода. Трассировка лучей пока не может полностью заменить растеризацию, но ничто не мешает использовать её как приятное дополнение. Иными словами, большая часть трёхмерной сцены всё ещё обрабатывается обычным образом и лишь затем происходит обсчёт поведения света. Таким образом, разработчики вполне могут не только сохранить свои наработки, но и добавить новую технологию в уже разрабатываемые проекты. Иными словами, ждать применения трассировки лучей в играх придётся не так уж долго — релизы первых проектов с её поддержкой ожидаются уже этой осенью.

Что же ещё припасла Nvidia для геймеров и не только? Тензорные ядра, установленные на новейших видеокартах, обеспечивают достаточную производительность работы нейронных сетей для удаления шума при трассировке лучей в реальном времени, но применяются не только для этого. Технология DLSS (Deep Learning Super Sample, она же «суперсемплинг при помощи глубокого обучения», является логичным в текущих реалиях (не знаешь, что делать — используй нейросеть) развитием техники сглаживания, призванной избавится от «лесенок» и других артефактов изображения. Интересна она тем, что каждый кадр анализирует искусственный интеллект и буквально «дорисовывает» картинку, будто зная, какой она должна выглядеть на самом деле. И он действительно знает — нейронная сеть проходит предварительное обучение, когда ей показывают сначала «исходный» кадр, а затем «правильный». После многократного повторения (как же без него в обучении) нейросеть узнаёт кун-фу становится способна выполнять преобразование в реальном времени. Результат поражает не только качеством, но и скоростью — это единственная техника, работающая в разрешении 4K и не вызывающая драматичного падения частоты кадров. В будущем Nvidia предлагает разработчикам заранее обучать нейросети на суперкомпьютерах, а результат распространять игрокам вместе с драйверами. Если идея «взлетит», то одно и то же устройство сможет выдавать как базовую, так и «улучшенную» картинку с одинаковой производительностью.

Звучит вкусно. А насколько хорошо выглядит — узнаем уже в конце сентября.

Дмитрий Потапкин, специально для Обзор.press.

Искусственный интеллект, который делает дорожных карт по аэрофотоснимкам

Карту приложения может измениться наш мир, но они до сих пор не изучили все еще. В частности, отображение дорог может быть утомительным: даже после приема аэрофотоснимков, такие компании, как Google по-прежнему приходится тратить много часов вручную трассировку дороги. В результате, они еще не дошли до сопоставления подавляющее большинство из более чем 20 миллионов километров дорог по всему миру.

Пробелы в карты не проблема, особенно для систем, которые разрабатываются для самоуправляемых автомобилей. Для решения этой проблемы, исследователи из Массачусетского технологического института информатики и лаборатории искусственного интеллекта (CSAIL) создали RoadTracer, автоматизированный метод построения дорожных карт, что на 45% более точный, чем существующие подходы.

Используя данные из аэрофотоснимков, команда говорит, что RoadTracer является не только более точным, но более рентабельным, чем существующие подходы. Профессор Массачусетского технологического института Мохаммад Ализаде говорит, что эта работа будет полезна как для технологических гигантов, как Google и для небольших организаций, у которых нет ресурсов, чтобы отслеживать и исправлять большое количество ошибок в картах.

«RoadTracer хорошо подходит к карте районы мира, где карты являются часто устаревшими, которое включает в себя как места с меньшей численностью и районах, где есть частые работ», — говорит Ализаде, один из соавторов нового документа о системе. «Например, существующие карты для отдаленных районов, таких как сельский Таиланд не хватает многих дорог. RoadTracer может помочь сделать их более точными».

В тестах, глядя на воздушные образы Нью-Йорка, RoadTracer может правильно сопоставить 44 процентов своих транспортных развязок, что более чем в два раза эффективнее традиционных подходов, основанных на сегментации изображения, которое можно сопоставить лишь 19 процентов.

В документе, который будет представлен в июне на конференции по компьютерному зрению и распознаванию образов (CVPR) в Солт-Лейк-Сити, штат Юта, является сотрудничество между CSAIL mit и Катара вычислительного исследовательского института (QCRI).

Соавторы ализаде МИТ включают аспирантов Fayven Бастани и Сонтао он, и профессоров Хари Балакришнан,сам Мэдден, и Дэвид Девитт. QCRI соавторы: старший инженер-программист Софьян Аббара и Санджай Чавла, который является директором исследовательской группы QCRI данных аналитики.

Как это работает

Нынешние усилия по автоматизации карт предусматривают обучение нейронных сетей, чтобы посмотреть на аэрофотоснимки и идентификации отдельных пикселей либо как «дорога» или «дорога». Потому что аэрофотоснимков часто могут быть неоднозначными и неполными, такие системы также требуют пост-обработки, которые нацелены на то, чтобы заполнить некоторые пробелы.

К сожалению, эти так называемые «сегментация» подходы часто неточен: если модель mislabels пикселя, что ошибки будут усугубляться в окончательную «дорожную карту». Ошибки особенно вероятно, если антенна изображения деревьев, зданий или тень, неясный, где дороги начинаются и заканчиваются. (Пост-обработки также требует решения, основанные на предположениях, которые могут не всегда держать, как соединение двух участках дороги просто потому, что они находятся рядом друг с другом.)

Между тем, RoadTracer создает пошаговые карты. Она начинается в известном месте на дороге, и использует нейронные сети, чтобы осмотреть окрестности, чтобы определить, какие точки наиболее вероятно, что следующая часть на дороге. Затем он добавляет, что точка и процесс повторяется, чтобы постепенно прослеживать путь один шаг в то время.

«Вместо тысячи различных решений сразу о том, различных точек представляют собой части дороги, RoadTracer фокусируется на чем проще проблема, выясняя, в каком направлении следовать, когда, начиная с определенного места, в котором мы знаем дорогу», — говорит Бастани. «Это во многом на самом деле намного ближе к тому, как мы, люди, построить ментальные модели мира вокруг нас».

Обученная команда RoadTracer на аэрофотоснимки из 25 городов в шести странах, в Северной Америке и Европе, а затем оценив ее способности сопоставления на 15 других городах.

«Это важно для картографической системы, чтобы быть в состоянии выполнять хорошо в городах он не тренировался, потому что регионов, где автоматическое сопоставление содержит наиболее перспективными являются те, где существующие карты отсутствуют или неточны», — говорит Балакришнан.

Бастани говорит, что тот факт, что RoadTracer уровень ошибок, что на 45 процентов ниже, имеет принципиальное значение для систем автоматического сопоставления более практичным для таких компаний, как Google.

«Если уровень ошибок слишком высок, то более эффективным на карте дорог вручную с нуля по сравнению с удалением неправильных сегментов прогнозные карты», — говорит Бастани.

По-прежнему, реализует что-то вроде RoadTracer не возьмет полностью люди не в курсе: команда говорит, что они могли себе представить систему, предложив дорожные карты для большого региона и затем иметь эксперт человек пришел, чтобы еще раз проверить дизайн.

«Что сказал, что ясно, что с системой, как наша, можно значительно уменьшить объем кропотливой работы, что люди должны делать», — говорит Ализаде.

Действительно, одним из преимуществ RoadTracer инкрементального подхода является то, что это делает его гораздо легче исправлять ошибки-человек руководители могут просто исправить их и повторно запустить алгоритм, из которого они остановились, вместо того, чтобы продолжать использовать неточную информацию, которая стекает с других частей карты.

Конечно, аэрофотоснимков-это только один кусочек головоломки. Они не дают вам информацию о дорогах, которые имеют эстакад и путепроводов, так как это невозможно установить сверху. В результате, команда тоже отдельно разрабатывают алгоритмы, которые могут создавать карты на основе данных GPS, и работает, чтобы объединить эти подходы в единую систему для отображения.

Этот проект был поддержан в рамках Катара вычислительной научно-исследовательский институт.

Началось! В Москве нарушителей на дорогах теперь ловят с помощью нейросети

Столичный Центр организации дорожного движения включил нейросеть в арсенал средств выявления нарушителей. Инновационная технология поможет безошибочно определять марки и модели автомобилей.

Искусственная нейросеть – фундамент искусственного интеллекта, который, по прогнозам многих крупных учёных и исследователей, подведёт человечество к точке технологической сингулярности, она же конец света в привычном его понимании. Что будет после того, как мы до этой технологической сингулярности доживём (а случится это, если верить прогнозам, в период с 2030 по 2045 год), никто предсказать не может: то ли Земля вместе со всем человечеством будет уничтожена, то ли на ней наступит рай, в котором людям будут гарантированы все мыслимые и немыслимые удовольствия без необходимости работать.

Пока же искусственный интеллект решает скучные прикладные задачи, потихоньку лишает человечество рабочих мест и картирует те участки мироздания, к которым мы его допускаем. То есть скоро цифровой разум будет знать о нашем мире всё, и уже сегодня умеет безошибочно определять марки и моделей автомобилей. Этой технологией решили воспользоваться в московском Центре организации дорожного движения (ЦОДД): некоторое время нейросеть работала в тестовом режиме, а сегодня приступила к реальному выявлению нарушителей, о чём сообщил ТАСС со ссылкой на руководителя Дирекции фото- и видеофиксации ЦОДД Евгения Леглера.

«ЦОДД запустил нейросеть. Ее использование позволит решить сразу две важные задачи. Во-первых, будут исключены ситуации, когда камера неверно распознает номерной знак и штраф за это получает не тот, кто совершил нарушение. Во-вторых, легче будет вычислить мошеннические действия по подмене номеров», – рассказал чиновник.

Прежде камеры считывали только номер автомобиля, водитель которого нарушил ПДД, а марку и модель специалист ЦОДД получал из базы ГИБДД и сличал её с картинкой. Понятно, что нужно быть экспертом, чтобы по снимку, особенно сделанному ночью при плохой погоде, точно определить марку и модель, но для искусственного интеллекта это не проблема – нейросеть оперирует большим объёмом данных (в частности, многочисленными фотографиями автомобилей) и может учиться на своих ошибках. То есть даже если на стадии тестирования искусственный интеллект и допускает ошибки, то затем вследствие самоотладки вероятность ошибки становится ничтожной.

Мастер Йода рекомендует:  Тестирование в Rails

По словам Леглера, на данный момент в систему загружены автомобили 103 самых популярных в регионе брендов, в том числе экзотические спорткары и почти вышедшие из употребления старенькие Москвичи. Если нейросеть обнаруживает, что модель автомобиля не соответствует зарегистрированному номерному знаку, то даёт сигнал специалисту ЦОДД о возможном мошенничестве с «табличками», и тот уже подключает к делу ГИБДД.

В Москве, которая сегодня буквально увешана камерами, работа нейросети обещает быть весьма эффективной. В будущем искусственный интеллект будет осматривать дороги других крупных городов России, и в какой-то момент скрыться от него станет вообще невозможно. Причём не только автомобилистам-нарушителям. Уже сегодня существуют алгоритмы создания достоверного психоэмоционального профиля человека по нескольким фотографиям лица, то есть искусственный интеллект научился выявлять террористов, маньяков, алкоголиков, наркоманов и прочих потенциально опасных или просто нежелательных членов общества.

Использование механизма сверточных нейронных сетей для поиска объектов на аэрофотоснимках Текст научной статьи по специальности « Кибернетика»

Аннотация научной статьи по кибернетике, автор научной работы — Смирнов Александр Владимирович, Иванов Егор Сергеевич

В статье описан метод поиска объектов на аэрофотоснимках с применением нейронных сетей , а также алгоритм, позволяющий выполнить постобработку данных, полученных в результате работы нейронных сетей . Рассмотрена задача поиска самолетов на изображениях.

Похожие темы научных работ по кибернетике , автор научной работы — Смирнов Александр Владимирович, Иванов Егор Сергеевич,

Objects detection on aerial photos usin neural networks

The paper describes the method of searching for objects on aerial photographs using neural networks, as well as an algorithm that allows postprocessing of data obtained as a result of the operation of neural networks. The problem of searching for aircraft in images is considered. (In Russian).

Текст научной работы на тему «Использование механизма сверточных нейронных сетей для поиска объектов на аэрофотоснимках»

ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №4(35), 2020, с. 85-99

А. В. Смирнов, Е. С. Иванов

Использование механизма сверточных нейронных сетей для поиска объектов на аэрофотоснимках

Аннотация. В статье описан метод поиска объектов на аэрофотоснимках с применением нейронных сетей, а также алгоритм, позволяющий выполнить постобработку данных, полученных в результате работы нейронных сетей. Рассмотрена задача поиска самолетов на изображениях.

Ключевые слова и фразынейронные сети, поиск объектов, аэрофотоснимки.

Задача нахождения объектов интереса на изображениях до сих пор актуальна, особенно в области мониторинга и анализа снимков дистанционного зондирования земли (ДЗЗ) или аэрофотоснимков. Для решения данной задачи используются различные алгоритмы от простой пороговой бинаризации [1], [2] до применения гистограмм направленных градиентов [3] и методов Виолы-Джонса [4].

В последнее время большое распространение получили нейронные сети [5], [6] теория о которых появилась ещё во второй половине XX века. Различные архитектуры нейронных сетей используются не только для нахождения объектов интереса, но и для классификации, распознавания объектов, поиска нескольких типов интересующих объектов.

Работа выполнена в рамках Договора № 124-ВС06/13/423 «Исследования и разработка архитектурных, аппаратных и программных технических решений и создание экспериментальных средств блочно-параллельной обработки космической информации в высокопроизводительных вычислительных системах с производительностью кластера не менее 400 Гфлопс» (шифр: Мониторинг-СГ-2.5.3.1). © А. В. Смирнов, Е. С. Иванов, 2020

© Институт программных систем имени А. К. Айламазяна РАН, 2020 © Программные системы: теория и приложения, 2020

В данной статье будет рассмотрен пример использования нейронной сети для нахождения различных видов самолётов, находящихся на территории аэропорта. Полученная в результате информация после постобработки может использоваться в задачах мониторинга взлётно-посадочных полос, например, для отслеживания перемещения самолётов или подсчёта их количества.

Обработка информации происходила в системе блочно-паралле-льной обработки данных [7]. Система имеет модульную архитектуру. Под модулем подразумевается программный компонент, который обрабатывает данные, поступающие по входному каналу и передает обработанную информацию в выходной канал. Задача системы — обеспечить обработку данных в конвейерно-параллельном режиме.

Этот подход ускоряет обработку данных с использованием суперкомпьютера. На вход система получает описание задачи, которое содержит список модулей обработки и параметры запуска. Система автоматически определяет, какие модули запускать и обеспечивает обмен данных между модулями.

1. Поиск объектов с помощью нейронных сетей

Использование нейронных сетей обусловлено с их схожестью с успешной работой биологических систем, которые, по сравнению с другими системами, состоят из простых и многочисленных нейронов, которые работают параллельно и имеют возможность обучения [8]. Для работы была выбрана сверточная нейронная сеть — специальная архитектура искусственных нейронных сетей, предложенная Яном Лекуном и нацеленная на эффективное распознавание изображений. Сверточная нейронная сеть состоит из пар слоев — слоев подвыборки и слоев свертки, каждый из которых в свою очередь состоит из карт признаков. Каждая карта признаков в идеале фильтрует изображение, находя какой-то один определенный, специфичный для данной карты, признак ([9]). Количество слоев в используемой нейронной сети составило 13. Обучение происходило на выборке, состоящей из четырех классов: дороги, растительность, городские застройки и самолеты. Общее количество образцов изображений для обучающей

Рис. 1. Образцы классов для обучения нейронной сети

выборки составило около 5000. Размер каждого изображения (при необходимости) преобразовывался в 32 х 32.

На рис. 1 представлены образцы обучающей выборки.

Количество эпох обучения составило 5000. Ошибка обучения составила 0,2%.

Схема, описывающая решение задачи обучения нейронной сети в системе блочно-параллельной обработки данных показана на рис. 2 и состоит из последовательного выполнения модулей:

ReadMultiImage_array. Модуль, который считывает множество эталонов из указанных директорий и запоминает их принадлежность к тому или иному классу, согласно считанным данным.

FindObjects_CNN. модуль, содержащий в себе архитектуру нейронной сети с возможностью изменения гиперпараметров сети, таких как количество слоёв свёртки, количество классов и т.д. Также модуль имеет параметр, значение которого определяет будет ли сеть обучаться (дообучаться) или перейдёт в режим поиска объектов интереса. Дообучение позволяет обучить нейронную сеть на небольшом объёме данных с сохранением состояния сети при завершении предыдущего обучения. В данной задаче параметр задан на обучение.

Рис. 2. Схема, решающая задачу обучения нейронной сети

Множество подходов, связанных с поиском объекта заданного класса на изображениях при помощи нейронных сетей, состоят из следующих этапов: выделение объектов (чаще всего используются гистограммы SIFT, HOG), после чего выделенный объект подается нейронной сети на распознавание [10], [11]. Недостатком этого подхода является то, что не всегда объекты могут выделяться при помощи таких гистограмм, как следствие — не все объекты могут быть найдены на изображении (возможна ошибка как в выделении объектов, так и в распознавании).

Для того, чтобы избежать ошибку с выделением объектов при помощи гистограмм, был предложен следующий алгоритм поиска объектов. Изображение обходится скользящими масками заданных размеров N х N с шагом N/2. Каждый из фрагментов изображения под скользящей маской подается нейронной сети для распознавания. Если вероятность отнесения рассматриваемого фрагмента к некому классу К больше, чем заданное пороговое значение р0, то считается, что на заданном участке изображен объект класса К. После того, как

Рис. 3. Схема, решающая задачу поиска объектов с помощью нейронной сети

все фрагменты отнесены к какому-либо классу, происходит фильтрация по заданному пользователем классу: отбрасываются те участки изображения, на которых не изображены объекты искомого класса. Схема поиска с помощью нейронной сети состоит из последовательного выполнения модулей:

ReadMultiImage. Модуль чтения изображения. FindObjects CNN. модуль сверточной нейронной сети, запускаемой на обнаружение.

SaveMultiImage. Модуль сохранения результатов, найденных при помощи нейронной сети.

Схема в графическом интерфейсе представлена на рис. 3.

Рис. 4. Примеры результата поиска самолетов с помощью скользящих масок и нейронной сети

Задача поиска объектов разных масштабов является достаточно трудной в настоящее время [5]. На рис. 4 показаны результаты работы поиска объектов класса «самолет» с размерами скользящих масок 150 х 150, 100 х 100, 80 х 80, 64 х 64, 32 х 32.

В связи с тем, что обход изображения происходит с перекрытием, повышается способность поиска объекта. Но при этом появляется возможность многократного вхождения одного и того же объекта сразу в несколько фрагментов. Такой результат работы нейронной сети тяжёл для восприятия и обработки, поэтому был предложен алгоритм слияния прямоугольников, содержащих объекты.

2. Алгоритм слияния координатных прямоугольников с учётом вероятности распознавания

Под координатным прямоугольником будем считать прямоугольник, наложенный на найденный объект, заданный шириной и высотой, являющимися габаритами искомого объекта, а также двумерными

(х, у) координатами левого верхнего угла прямоугольника. Предполагается, что координаты точки центра такого прямоугольника совпадают, либо почти совпадают в допустимой погрешности, с координатами точки центра найденного объекта.

Помимо координатных прямоугольников, нейронная сеть, после обработки изображения на выходе даёт вероятность, которая сопоставляется каждому из прямоугольников. Этой вероятностью определяется возможность нахождения координатного прямоугольна над искомым объектом, она представляет собой число с плавающей точкой и принимает значения от 0 до 1. Представленный алгоритм принимает на вход список координатных прямоугольников, а также сопоставленные им вероятности. Алгоритм слияния состоит из двух этапов:

(1) Создание подсписков из основного списка координатных прямоугольников. Из основного списка выбирается прямоугольник с нулевым индексом (опорный прямоугольник). Далее высчитываются координаты центра опорного прямоугольника. После этого рассчитывается Евклидово расстояние между центром опорного прямоугольника и центрами оставшихся координатных прямоугольников. Все прямоугольники, у которых расстояния от координат точки собственного центра до центра опорного прямоугольника ниже некого порога (порог подбирается опытным путём), добавляются в новый список с опорным прямоугольником, а из основного удаляются. Это происходит до тех пор, пока в основном списке не останется элементов.

(2) Фильтрация координатных прямоугольников по вероятности и создание общего координатного прямоугольника. Каждый подсписок, полученный на предыдущем этапе, фильтруется по определённому порогу вероятности. Следовательно, в списке остаются координатные прямоугольники с высокой вероятностью. Затем из них формируется общий координатный прямоугольник, точка центра которого является средней арифметической точкой отфильтрованных прямоугольников. Габариты (ширина и высота) общего координатного прямоугольника можно вычислить двумя способами:

Рис. 5. Выделенные объекты интереса до (слева) и после (справа) применения алгоритма слияния

• среднее арифметическое габаритов отфильтрованных прямоугольников,

• габариты самого большого координатного прямоугольника из отфильтрованных.

На рис. 5 слева показано изображение с нанесёнными координатными прямоугольниками до применения алгоритма слияния, а справа после. В данном примере объектом интереса являются самолёты на взлётно-посадочной полосе.

Несмотря на то, что алгоритм состоит всего из двух этапов, не обязательно дожидаться полного выполнения первого этапа. Допускается запуск второго этапа сразу после получения первого подсписка. В этом случае можно сразу получить общий координатный прямоугольник, но второй этап потребуется запустить для каждого нового подсписка.

В проведенных экспериментах были случаи, когда подобная обработка снижала количество выделенных прямоугольников с 167 до 12.

3. Адаптивное изменение порога вхождения

Ранее в статье был указан порог вхождения (Т), который подбирался опытным путём. Пороговым значением определялось, входит ли координатный прямоугольник в группу своих соседей или нет. Однако

Таблица 1. Сравнение значения опытного порога с рассчитанными значениями

Т (подобранный в опытах) 14 (СА) Т2 (СГ)

75 71.667 63.6043

80 79.9231 76.3799

45 43.0112 40.0211

вручную задавать порог для каждого нового изображения нецелесообразно. Чтобы избежать данной проблемы был разработан метод адаптивного изменения порога, основанный на анализе размеров координатных прямоугольников и сопоставляемой им вероятности. По сути, размеры координатных прямоугольников являются размерами квадратного сканирующего окна (маски) нейронной сети. Нейронная сеть делает несколько проходов по входному изображению используя маски разных размеров. Это делается для того, чтобы объекты интереса (в данном случае самолёты) разных размеров также успешно находились.

В ходе экспериментов с ручным подбором порога выяснилось, что значение порога зависит от размеров (можно использовать только ширину маски, так как она квадратная) используемых масок. Поэтому, метод адаптивного изменения порога заключается в отборе масок с наиболее высокой вероятностью и последующим их анализом. В качестве анализа используется:

• подсчёт среднего арифметического (СА) по ширине отобранных

• подсчёт среднего геометрического (СГ) по ширине отобранных масок.

В таблице 1 показано сравнение значения подобранного порога вручную с полученным адаптивным порогом.

Общая схема поиска объектов на изображении с применением фильтрации координатных прямоугольников представлена на рис. 6 и состоит из последовательного выполнения модулей:

Рис. 6. Схема, решающая задачу поиска объектов с помощью нейронной сети с применением алгоритма фильтрации координатных прямоугольников

ReadMultiImage. Модуль чтения изображения.

FindObjects CNN. Модуль сверточной нейронной сети, запускаемой на обнаружение.

RectsngleFilter. Модуль, выполняющий фильтрацию координатных прямоугольников.

SaveMultiImage. Модуль сохранения результатов, найденных при помощи нейронной сети.


На рис. 7 приведены примеры работы алгоритма с применением адаптивного порога.

Рис. 7. Результат поиска объектов с помощью нейронной сети и алгоритма фильтрации координатных прямоугольников

Рассмотрен подход к поиску объектов на аэрофотоснимках с помощью нейронных сетей, используя скользящие маски, на примере поиска самолетов.Предложен алгоритм, постобработки результатов поиска объектов на изображении. Данный подход позволяет объединить подмножество координатных прямоугольников соответствующего объекта в один. В отдельных случаях было достигнуто сокращение количества координатных прямоугольников в 14 раз. Предложенный подход был реализован системе блочно-параллельной обработки данных.

Мастер Йода рекомендует:  Ускоряем загрузку своего сайта

[1] Qiang Chen, Quan-sen Sun, Pheng Ann Heng, De-shen Xia. «A double-threshold image binarization method based on edge detector», Pattern Recognition, 41:4 (2008), pp. 1254-1267. t 85

[2] J. Pitkanen. «Individual tree detection in digital aerial images by combining locally adaptive binarization and local maxima methods», Canadian Journal of forest research, 31:5 (2001), pp. 832-844. t 85

[3] A. Rosebrock. Histogram of Oriented Gradients and Object Detection (Retrieved August 31, 2015), URL: https://www.pyimagesearch.com/2014/ 11/10/histogram-oriented-gradients-object-detection/t

[4] Face Detection using Haar Cascades, OpenCV. Open Source Computer Vision Documentation, URL: https://docs.opencv.org/trunk/d7/d8b/ tutorial_py_face_detection.htmlt 85

[5] G. E. Hinton, N. Srivastava et al. Improving neural networks by preventing co-adaptation of feature detectors, 2012, URL: https://arxiv.org/abs/1207.0580 t 85,90

[6] G. Cheng, P. Zhou, J. Han. «Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images», IEEE Transactions on Geoscience and Remote Sensing, 54:12

(2020), pp. 7405-7415. t 85

[7] A. Kondratyev, I. Tishchenko. «Concept of Distributed Processing System of Images Flow», Robot Intelligence Technology and Applications 4, Results from the 4th International Conference on Robot Intelligence Technology and Applications, RiTA 2015 (Bucheon, Korea, December 14-16, 2015), Advances in Intelligent Systems and Computing, vol. 447, eds. J.-H. Kim, F. Karray, J. Jo, P. Sincak, H. Myung, 2020, pp. 551-561. t 86

[8] D. Kriesel. A Brief introduction to Neural Networks, ZETA2-EN, 2007, URL: http ://www.dkriesel.com/_media/science/neuronalenetze-en-zeta2-2col-dkrieselcom.pdf t 86

[9] Я. Ю. Дорогий. «Архитектура обобщенных сверточных нейронных сетей», Вестник НТУУ КПИИ, 2012, №57, 6 с., URL: https://www.it-visnyk.kpi.ua/wp-content/uploads/2012/08/54_36.pdf t 86

[10] S. Ren et al. «Object detection networks on convolutional feature maps», IEEE transactions on pattern analysis and machine intelligence, 39:7

(2020), pp. 1476-1481. t 88

[11] R. B. Girshick, J. Donahue, T. Darrell, J. Malik. «Rich feature hierarchies for accurate object detection and semantic segmentation», Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2014 (Columbus, Ohio, USA, June 23-28, 2014), 2014, pp. 580-587, URL: https : / /www . cv — foundation . org/openaccess/ content _ cvpr _2014/ papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdft88

Рекомендовал к публикации д.ф.-м.н. С.В . Знаменский

Пример ссылки на эту публикацию:

А. В. Смирнов, Е. С. Иванов. «Использование механизма сверточных нейронных сетей для поиска объектов на аэрофотоснимках», Программные системы: теория и приложения, 2020, 8:4(35), с. 85-99. URL: https://psta.psiras.ru/read/psta2020_4_85-99.pdf

Александр Владимирович Смирнов

Инженер-исследователь Лаборатории методов обработки и анализа изображений, Институт Программных Систем имени А. К. Айламазяна РАН

Егор Сергеевич Иванов

Инженер-исследователь Лаборатории методов обработки и анализа изображений, Институт Программных Систем имени А. К. Айламазяна РАН

Alexandr Smirnov, Egor Ivanov. Objects detection on aerial photos usin neural networks.

Abstract. The paper describes the method of searching for objects on aerial photographs using neural networks, as well as an algorithm that allows postprocessing of data obtained as a result of the operation of neural networks. The problem of searching for aircraft in images is considered. (In Russian).

Key words and phrases: object detection, neutal networks, aerial photos.

[1] Qiang Chen, Quan-sen Sun, Pheng Ann Heng, De-shen Xia. «A double-threshold image binarization method based on edge detector», Pattern Recognition, 41:4 (2008), pp. 1254-1267.

[2] J. Pitkanen. «Individual tree detection in digital aerial images by combining locally adaptive binarization and local maxima methods», Canadian Journal of forest research, 31:5 (2001), pp. 832-844.

[3] A. Rosebrock. Histogram of Oriented Gradients and Object Detection (Retrieved August 31, 2015), URL: https://www.pyimagesearch.com/2014/11/10/histogram-oriented-gradients-object-detection/

[4] Face Detection using Haar Cascades, OpenCV. Open Source Computer Vision Documentation, URL: http: //docs . opencv. org/trunk/d7/d8b/tutorial_py_ face_detection.html

[5] G. E. Hinton, N. Srivastava et al. Improving neural networks by preventing co-adaptation of feature detectors, 2012, URL: https://arxiv.org/abs/1207.0580

[6] G. Cheng, P. Zhou, J. Han. «Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images», IEEE Transactions on Geoscience and Remote Sensing, 54:12 (2020), pp. 7405-7415.

[7] A. Kondratyev, I. Tishchenko. «Concept of Distributed Processing System of Images Flow», Robot Intelligence Technology and Applications 4, Results from the 4th International Conference on Robot Intelligence Technology and Applications, RiTA 2015 (Bucheon, Korea, December 14-16, 2015), Advances in Intelligent Systems and Computing, vol. 447, eds. J.-H. Kim, F. Karray, J. Jo, P. Sincak, H. Myung, 2020, pp. 551-561.

[8] D. Kriesel. A Brief introduction to Neural Networks, ZETA2-EN, 2007, URL: http: //www. dkriesel. com/_media/science/neuronalenetze-en-zeta2-2col-dkrieselcom.pdi

[9] Ya. Yu. Dorogiy. «Arkhitektura obobshchennykh svertochnykh neyronnykh setey», Vestnik NTUU KPII, 2012, no.57, 6 p., URL: https://www.it-visnyk.kpi.ua/wp-content/uploads/2012/08/54_36.pdf

© A. V. Smirnov, E. S. Ivanov, 2020

© Ailamazyan Program Systems Institute of RAS, 2020 © Program systems: Theory and Applications, 2020

[10] S. Ren et al. «Object detection networks on convolutional feature maps», IEEE transactions on pattern analysis and machine intelligence, 39:7 (2020), pp. 1476-1481.

[11] R. B. Girshick, J. Donahue, T. Darrell, J. Malik. «Rich feature hierarchies for accurate object detection and semantic segmentation», Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2014 (Columbus, Ohio, USA, June 23-28, 2014), 2014, pp. 580587, URL: https : //www.cv-foundation.org/openaccess/content_cvpr_2014/ papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

Sample citation of this publication:

Alexandr Smirnov, Egor Ivanov. «Objects detection on aerial photos usin neural networks», Program systems: Theory and applications, 2020, 8:4(35), pp. 85-99. (In Russian).

В Москве заработала нейронная сеть для фиксации нарушений ПДД

В Москве начала работу нейронная сеть, фиксирующая нарушения ПДД, сообщает ТАСС со ссылкой на руководителя дирекции фото- и видеофиксации «Центра организации дорожного движения» (ЦОДД) Евгения Леглера.

«Ее использование позволит решить сразу две важные задачи,— пояснил господин Леглер.— Во-первых, будут исключены ситуации, когда камера неверно распознает номерной знак и штраф за это получает не тот, кто совершил нарушение. Во-вторых, легче будет вычислить мошеннические действия по подмене номеров».

О планах по запуску данной системы, которая обошлась ЦОДД в 189 млн руб, “Ъ” рассказывал ранее. Нейросеть способна определить тип, марку и модель автомобиля по силуэтам, логотипам и фонарям. Благодаря нейросети уменьшается нагрузка на специалистов ЦОДД, обрабатывающих фотографии с камер для ГИБДД.

Наши дороги › Московские дорожные камеры подключились к нейронной сети

Благодаря новой технике, камеры в столице (вернее, софт, который получает кадры) теперь могут по размерам, контурам и другим признакам узнавать автомобили разных брендов. По словам чиновников, автоматика уже «видит» 103 марки, от самых распространённых до редких «китайцев» или уже не выпускаемых, типа Москвича.

Компьютерные нейросети, подражающие нейронным сетям живых организмов, только реализованные аппаратными и (или) программными методами, давно являются интересным способом решения ряда сложных задач вроде распознавания образов. И вот в конце декабря такая система введена в действие в Москве. Она обрабатывает данные с камер, установленных на дорогах, рассказал агентству ТАСС руководитель Дирекции фото- и видеофиксации столичного Центра организации дорожного движения (ЦОДД) Евгений Леглер. Нейросеть автоматически сверяет регистрационный знак машины с данными ГИБДД (в частности, с маркой автомобиля). Ранее такое соответствие в случае нарушения ПДД проверяли сотрудники.

Параллельная новость: повышение стоимости уличной парковки в пределах Садового кольца и на части ТТК (80-380 рублей в час) с 15 декабря, плюс сокращение времени бесплатной стоянки с 15 до пяти минут. Кроме того, сегодня Мосгордума и штраф за неоплаченную парковку повысила с 2500 до 5000 рублей.

Обработка изображений при помощи нейронной сети ускорила весь процесс. При этом появилась возможность автоматически выявлять случаи мошенничества с номерами (когда автомобиль на снимке не соответствует тому, что занесён в базу данных под соответствующим госномером). Если система находит такое расхождение, она отправляет снимок сотруднику ЦОДД, который решает, имеет ли место техническая ошибка (неверное распознавание номера) или на автомобиле подменён сам номер. Естественно, в последнем случае ЦОДД передаёт материал в ГИБДД для оперативного реагирования.

Искусственный интеллект и нейросети в картографии — 2: когда «народные» карты круче Google

Этот материал продолжает тему будущего картографических сервисов. На этот раз мы поговорим об автоматизированных решениях при создании дорожных автомобильных карт. То есть о так называемых автоматических методах маппинга. В первую очередь, автоматическими методами маппинга мы будем называть те методы, где человек выступает в роли разработчика и оператора, управляющего интеллектуальными системами автоматического картирования.

1. Автоматическое распознавание объектов по спутниковым снимкам с использованием нейросетей

Это наиболее перспективный способ автоматического добавления и обновления информации о дорогах и зданиях на обширных участках планеты. Нейросети обучаются на базе уже распознанных вручную участков в OSM.

О разработках в этом направлении на конференции OpenStreetMap в Сиэтле рассказала команда Facebook. Соцсеть использует на входе высококачественные коммерческие данные компании DigitalGlobe (до 30 см на 1 пиксель), и на базе заранее обученной на OpenStreetMap нейросети автоматически определяет на снимках дороги. Facebook использует OSM для сервиса Livemap, однако на поток технология распознавания еще не поставлена, поскольку требует доработки и согласования с сообществом OpenStreetMap (это необходимо, чтобы избежать массовых ошибок при распознавании и загрузке данных в OSM). Технологию машинного обучения и нейросетей использует также компания DigitalGlobe для своего коммерческого B2B продукта GBDX.

Такой метод не идеален и может приводить к значительным погрешностям, поскольку исходные снимки каждой местности уникальны. В разных странах дороги и дома могут строить по-разному, вследствие чего нейросеть, обученная на базе информации об одной стране, может плохо справляться с распознаванием объектов в другой. Кроме того, качества спутниковых снимков не хватает, чтобы распознать на карте дорожные знаки, светофоры и прочие небольшие объекты. Проблему представляет и угол наклона исходного спутникового снимка, при котором часть объектов вообще не видно: они оказываются закрытыми плоской проекцией зданий. Ну и, конечно, спутниковые снимки не позволяют считывать названия улиц, организаций и прочую информацию: для этого нужно так называемое «локальное знание».

Детектирование дороги для деревни в Египте

Загруженные в OSM схемы автоматически распознанных дорог при помощи нейросетей, подсвеченные в зеленый цвет, для удобства проверки мапперами

2. Автоматическая обработка фото- и видеопотока с видеорегистраторов и смартфонов пользователей

Метод подходит для распознавания рядности дорог, считывания дорожных знаков, светофоров и прочих объектов. Если фотокамера широконаправленная, то можно также попробовать распознать вывески вдоль улиц и названия заведений (однако определить тип заведения уже не получится). Этот способ сбора информации уже позволяет использовать системы компьютерного зрения, усиленные обучаемыми нейронными сетями, для улучшения точности распознавания не только дорожных знаков (с ними все как раз достаточно просто), но и прочих, более сложных объектов (вывески, пожарные гидранты, светофоры, заборы). Пример открытого проекта, который позволяет наносить объекты этим способом — Mapillary. С помощью обучаемых нейронных сетей можно распознавать, скажем, сетевые заведения с вывесками и автоматически наносить их на карту; однако через такой сервис почти невозможно наносить на карту организации, находящиеся, в основном, внутри здания и не имеющие вывески на улице.

Определение скоростных ограничений на дороге по дорожным знакам

3. Коммерческое добавление информации об объектах.

В последнее время набирают обороты компании, которые ранее собирали и продавали данные об организациях, а ныне оказывают этим организациям услуги по добавлению и обновлению информации о них на все карты мира. Также компании проверяют актуальность данных, создают отчеты о представленности. Такие сервисы (среди них, например, Navads и Brandify) получают непосредственно от организаций точную информацию о месте расположения, адресе, номерах телефонов и т.д., подключаются по API ко всем популярным открытым и закрытым картографическим базам и загружают туда актуальные данные о предприятиях в автоматическом режиме.

4. Автоматический сбор GPS-треков пользователей мобильных приложений.

Используется для поиска отсутствующих участков дорог, закрытых дорог, ошибок в направлении движения по дорогам. Дальше всех в этом продвинулась коммерческая компания Mapbox, предоставляющая API/SDK на базе OpenStreetMap.

Mapbox вкладывает немалые ресурсы в обработку обезличенных GPS-треков, поступающих через SDK, для улучшения точности дорог, добавления новых и устранения ошибок в OSM. Кроме того, около 40 штатных картографов компании постоянно работают над уточнением OSM-данных. К примеру, если на OpenStreetMap дорога обозначена как односторонняя, но по данным, поступающим по SDK, на этом участке дороги автомобили движутся в обоих направлениях, то, очевидно, на этом участке дороги было введено двустороннее движение — и картографы внесут соответствующие правки. То же самое касается свежепостроенных дорог, еще не обозначенных на карте: если набирается достаточное количество треков по участку, отсутствующему в OSM, такая дорога будет добавлена. Таким образом, клиенты Mapbox делают свой опосредованный вклад в развитие OpenStreetMap.

5. Автоматический сбор и обработка видео-/GPS-/LIDAR-данных автомобилей и прочих уличных роботов, оснащенных системами полного или частичного самоуправления

Таким роботам требуются как обычные карты для базовой навигации, так и данные в реальном времени для уточнения маршрута. В недалеком будущем, когда самоуправляемые автомобили широко распространятся по миру и будут постоянно курсировать по дорогам, именно они будут генерировать наибольший объем полезной информации об изменениях на дорогах. На текущий момент в направлении самоуправляемых автомобилей движутся сразу несколько гигантов: Google, Intel, Tesla, Uber, Nvidia и еще ряд компаний.

Для более точного распознавания различных дорожных объектов активно используются нейросети. Искусственный интеллект на базе этих нейросетей обучается действовать в различных дорожных ситуациях – обрабатывает входящую информацию и принимает решение о совершении маневра, основываясь на опыте других автомобилей в похожих ситуациях.

Мастер Йода рекомендует:  Перегрузка операторов в C++. Способы применения

На базе этих данных уже создаются специализированные карты, обеспечивающие более высокую точность, чем отрисованные по спутниковым снимкам. Сверхточные карты нужны для навигации роботов будущего, которое уже не за горами. Однако создание такой карты всего мира — весьма дорогостоящие занятие: скажем, Google в свое время потратил примерно $2 млрд на проект StreetView, запустив специализированные автомобили, оснащенные камерами с обзором в 360 градусов, при этом охвачены были только крупные города. Хочется верить, что компании-гиганты, создающие самоуправляемые машины, объединят свои усилия для создания открытых навигационных карт высокой точности, которыми смогут пользоваться любые роботы — скажем, уличный робот-уборщик или патрульный робот-полицейский.

Комментарий CEO Idealab Билла Гросса к фото: «Самоуправляемый автомобиль Google собирает почти 1 Гбайт данных в секунду. И вот что он видит, совершая поворот налево»

Выводы об автоматических методах маппинга

Как видно из перечисленных выше методов, за счет развития технологий машинного обучения, нейронных сетей и компьютерного зрения автоматические методы маппинга позволят уже в перспективе 5-10 лет существенно уменьшить трудозатраты на создание и обновление карт. Поспособствуют этому несколько трендов:

  • популяризация самоуправляемых автомобилей, оснащенных системами автоматического сбора огромного количества графической информации вокруг автомобиля, что позволит иметь самую актуальную информацию о дорогах и различных объектах вдоль дорог;
  • популяризация и удешевление графических процессоров NVidia и других игроков, широко используемых для анализа графических объектов через нейронные сети, повышая качество и скорость распознавания;
  • значительное снижение стоимости запусков геоспутников в космос (благодаря SpaceX), что позволит открыть дорогу на геолокационный рынок коммерческим компаниям и государствам;
  • возможность купить доступ к снимкам поверхности от разных поставщиков одних и тех же мест с разных ракурсов, что позволит повысить точность автоматического распознавания;
  • появление более свежих снимков менее популярных областей поверхности;
  • совершенствование спутниковых систем (увеличение разрешения) позволит повысить разрешение снимков и увеличить точность распознавания более мелких объектов;
  • нейросети постепенно научатся распознавать на более детальных спутниковых снимках более сложные объекты и делать это будут точно и быстро.

Выводы о создании карт в целом

Как видно, все перечисленные выше методы автоматического и ручного маппинга пока не решают двух больших проблем картографии: обеспечение актуальности и полноты данных по всему миру, а ведь пользователям нужны самые актуальные и полные карты уже сейчас. Сегодня недостаточно просто сделать детальную карту мира или региона: ее нужно регулярно обновлять, ведь все вокруг постоянно меняется. Эта масштабная и сложная задача не под силу одной коммерческой компании, поэтому такие карты надо создавать всем миром – и делать их открытыми.

Вот наглядный аргумент в пользу открытости проекта: в Google Maps весьма неплохо отрисованы крупные города, однако чем меньше город, тем хуже данные. Компания Google привлекает профессиональных картографов для создания карт и тратит на это огромные деньги, но это не обеспечивает ей хорошего результата во всем мире. В то же время у открытого проекта OpenStreetMap очень развито сообщество редакторов, которые добавляют на карту сложные объекты – и делают это за идею. Это позволяет обеспечить полноту и актуальность информации на местах, куда не выгодно отправлять, скажем, автомобиль StreetView, а для маппинга пешеходных маршрутов не существует Google-людей которые бы ходили с оборудованием на голове по всем тропинкам мира, поскольку это было бы безумно дорого.

Вернусь к моему личному примеру с парковкой в Петергофе, с которого я начал рассказ. Увидев новую парковку, я сразу же сделал несколько фотоснимков и вечером того же дня добавил ее на OSM.

Парковка нанесена в OSM

Парковка отсутствует в Google Maps

Парковка видна на спутниковых снимках Google

С момента добавления мной парковки в OpenStreetMap прошел год, а она до сих пор не появилась в Google Maps! Причем на спутниковых снимках Google она четко видна, просто никому нет до нее дела. Примерно так же я разметил в свое время родную деревню в Белоруссии (Осовец, Могилевская область). Там есть кладбище в лесу, которое на спутниковом снимке, разумеется, незаметно, но местные жители о нем знают. Я нанес его и еще несколько деревенских домов на OSM. Ни на одной карте мира, кроме тех, что работают на базе OpenStreetMap, этих объектов нет, и не факт, что они появятся там когда-либо.

Деревня Осовец в OpenStreetMap

Деревня Осовец в Google Maps

Деревня Осовец в «Яндекс.Картах»

Будущее открытых карт OSM

Сила сообщества OSM в том, что каждый участник чувствует свой вклад в развитие общего дела. Каждый случай, подобный моему, повышает качество данных OpenStreetMap по сравнению с другими картографическими сервисами. При этом маппинг домов, дорог, парковок и других подобных крупных объектов – относительно легкая задача. Во-первых, эти данные в принципе можно автоматически обновлять по свежим спутниковым снимкам с использованием искусственного интеллекта и нейросетей; во-вторых, они относительно редко строятся или сносятся. Гораздо сложнее дело обстоит со всевозможными предприятиями и заведениями: они открываются и закрываются гораздо чаще, и спутниковые снимки, равно как и снимки улиц, тут не помогут: нужны миллионы обычных пользователей, которые будут добавлять и обновлять эту информацию на картах.

Огромный вклад пользователи делают в районах постоянного проживания. Если ты ходишь или ездишь одним и тем же маршрутом на работу, тебе легче замечать изменения вокруг: какой магазин закрылся, какой открылся, где поставили шлагбаум, где проложили новую пешеходную дорожку.

OSM также силен данными, которые невозможно найти ни на одной другой карте мира. К примеру, OpenStreetMap часто используется пожарными для нанесения информации о размещении пожарных гидрантов. Таких данных в Google Maps просто нет, а в OSM есть и они, и еще много всего: мусорные баки, столбы линий электропередач, скамейки, туалеты, лесные и горные тропы, места для организации пикников, пункты расположения дефибрилляторов.

Размышления о будущем картографии

Собирая воедино всю картину в индустрии создания карт, можно с уверенностью сказать, как будет меняться этот рынок в ближайшие 10 лет. Снижение стоимости вывода спутников на орбиту вместе с ростом качества снимков (вплоть до видео), охвата и доступности снимков значительно повысит качество автоматического распознавания снимков, благодаря, в первую очередь, обучаемым нейросетям. Это позволит сформировать верхний уровень данных карт: с высокой точностью автоматически определять сами дороги, тип покрытия, количество полос, геометрию и высоту зданий, леса, поля и прочие хорошо различимые объекты. На снимках с новейшего спутника DigitalGlobe можно даже разглядеть игроков на футбольном поле.

Рост точности и частоты получения снимков, вероятно, создаст высокую конкуренцию с дронами и квадрокоптерами за развивающееся направление ежедневной аэрофотосъемки, но произойдет это не быстро: разработка и вывод новых современных спутников занимает пару лет; кроме того, у спутника есть минус — облака, в то время как беспилотники могут летать и в плохую погоду. При этом в городах, как правило, жесткое регулирование или полный запрет на полеты, так что у аэрофотосъемки также есть ограничения. Повсеместное распространение самоуправляемых машин частично заберет хлеб у рынка спутниковых снимков в больших городах и пригородах. Там будет большой объем качественных данный высокой четкости, до которых спутниковые снимки вряд ли смогут приблизиться: экономически нецелесообразно создавать дорогой спутник с огромным телескопом и сложной оптикой для таких целей, в то время как большинство машин уже оборудованы недорогими камерами высокого разрешения (для работы автоматики по управлению машиной).

Однако и у автомобилей есть недостатки: они передвигаются только по автомобильным дорогам и информация о заведениях внутри недоступна для сбора машинами. Так что на сегодняшний день и в ближайшей перспективе единственный надежный способ сбора актуальной информации о локальном бизнесе — краудсорсинг. В обозримом будущем (10-15 лет) многие станут постоянно носить устройства дополненной реальности (Google Glass и очки от Snapchat — это первый звоночек), позволяющие получать дополнительную информацию об окружающих объектах (дополненная реальность), за счет встроенной камеры и нейросетей, распознающих объект. С этого момента начнется эпоха автоматического маппинга объектов вне городов и внутри зданий, что также позволит значительно продвинуться по качеству и точности данных. Таким образом, машинное обучение и нейросети в ближайшие 20 лет проникнут во все направления в создании карт и анализе геоинформации. Не устану повторять: в удивительное время живем, друзья!

Фрагмент спутникового снимка высокой точности с новейшего спутника WorldView-4 от компании DigitalGlobe (30 см на пиксель)

Разработчики Samsung создали нейросеть, которая превращает портреты в подвижные изображения

Ученым удалось создать технологию, которая обучается и работает быстрее, чем другие похожие проекты.

Подразделение по разработке искусственного интеллекта компании Samsung в Москве создало нейросеть, которая может превратить любой портрет в подвижное изображение. Обычно для обучения нейросети требуется большая база данных с изображениями одного человека. Samsung же удалось создать технологию, которая обучается на нескольких изображениях. Кроме того, это происходит гораздо быстрее, несмотря на необходимость настройки десятков миллионов параметров.

Полученная анимация способна даже показывать портрет с разных ракурсов. Чем больше фотографий используется для обучения системы, тем реалистичнее результаты. Но даже одно изображение, например картину, можно превратить в «говорящую голову». В ролике видно заметное несоответствие между исходным портретом и полученной анимацией. Пока технология находится на ранней стадии разработки и применима только к лицам и верхней части туловища. Подробнее о действии механизма можно прочитать в документе, опубликованном учеными.

Чип MIT сократил энергопотребление нейросети на 95%

Нейронные сети — мощные штуки, но очень прожорливые. Инженерам из Массачусетского технологического института (MIT) удалось разработать новый чип, который сокращает энергопотребление нейронной сети на 95%, что может в теории позволить им работать даже на мобильных устройствах с батареями. Смартфоны в наши дни становятся все умнее и умнее, предлагают все больше услуг, подпитанных искусственным интеллектом, вроде виртуальных ассистентов и переводов в реальном времени. Но обычно нейронные сети обрабатывают данные для этих сервисов в облаке, а смартфоны лишь передают данные туда и обратно.

Это не идеально, потому что требует толстый коммуникационный канал и предполагает, что чувствительные данные передаются и хранятся за пределами досягаемости пользователя. Но колоссальные объемы энергии, которая необходима для питания нейросетей, работающих на графических процессорах, невозможно обеспечить в устройстве, работающем на небольшом аккумуляторе.

Инженеры MIT разработали чип, снижающий это энергопотребление на 95%. Чип радикально сокращает потребность в передаче данных туда и обратно между памятью чипа и процессорами.

Нейронные сети состоят из тысяч взаимосвязанных искусственных нейронов, расположенных слоями. Каждый нейрон получает вводные данные от нескольких нейронов в нижележащем слое, и если комбинированный ввод проходит определенный порог, он передает результат нескольким нейронам выше. Сила связи между нейронами определяется весом, который устанавливается в процессе обучения.

Это означает, что для каждого нейрона чип должен извлечь вводные данные для определенного соединения и вес соединения из памяти, умножить их, сохранить результат, а затем повторить процесс для каждого ввода. Много данных передвигаются туда и сюда, тратится много энергии.

Новый чип MIT устраняет это, высчитывая все вводы параллельно в памяти с использованием аналоговых схем. Это значительно уменьшает объем данных, которые необходимо перегнать, и приводит к значительной экономии энергии.

Такой подход требует, чтобы вес соединений был бинарным, а не диапазонным значением, но предыдущие теоретические работы показали, что это не сильно повлияет на точность, и ученые обнаружили, что результаты работы чипа расходились на 2-3% от обычного варианта нейронной сети, работающей на стандартном компьютере.

Уже не в первый раз ученые создают чипы, которые обрабатывают процессы в памяти, снижая энергопотребление нейросети, но в первый раз этот подход был использован для работы мощной нейросети, известной своими обработками изображений.

«Результаты показывают впечатляющие спецификации энергоэффективного внедрения свертки операций в пределах массива памяти», говорит Дарио Джил, вице-президент по искусственному интеллекту в IBM.

«Это определенно открывает возможности использования более сложных сверточных нейронных сетей для классификации изображений и видео в Интернете вещей в будущем».

И это интересно не только группам R&D. Желание устроить ИИ на устройства вроде смартфонов, бытовой техники и всевозможные IoT-устройства толкают многих из Кремниевой долины в сторону чипов с низким энергопотреблением.

Apple уже интегрировала свой Neural Engine в iPhone X, чтобы запитать, например, технологию распознавания лиц, да и Amazon, по слухам, разрабатывает собственные чипы ИИ для следующего поколения цифровых ассистентов Echo.

Крупные компании, производители чипов также все больше начинают полагаться на машинное обучение, что вынуждает их делать свои устройства еще более энергоэффективными. В начале этого года ARM представила два новых чипа: процессор Arm Machine Learning, работающий с задачами общего ИИ, от перевода до распознавания лиц, и процессор Arm Object Detection, определяющий, например, лица на снимках.

Новейший мобильный чип Qualcomm, Snapdragon 845, имеет графический процессор и в значительной степени ориентирован на ИИ. Компания также представила Snapdragon 820E, который должен работать в беспилотниках, роботах и в промышленных устройствах.

Забегая вперед, IBM и Intel разрабатывают нейроморфные чипы, архитектура которых вдохновлена человеческим мозгом и невероятной энергоэффективностью. Это теоретически могло бы позволить TrueNorth (IBM) и Loihi (Intel) проводить мощное машинное обучение, пользуясь лишь небольшой долей энергии обычных чипов, но эти проекты еще сугубо экспериментальны.

Заставить чипы, которые дают жизнь нейросетям, экономить энергию батарей будет очень сложно. Но при нынешних темпах инноваций это «очень сложно» выглядит вполне посильным.

Добавить комментарий