Автор библиотеки для распознавания объектов от Google привел интересные примеры


Оглавление (нажмите, чтобы открыть):

Блог программиста-электронщика

“Стремись не к тому, чтобы добиться успеха,
а к тому, чтобы твоя жизнь имела смысл”
Альберт Энштейн

воскресенье, 12 июня 2011 г.

Компьютерное зрение OpenCV и PCL библиотеки с открытым исходным кодом

OpenCV — библиотека с открытым исходным кодом, для реализации компьютерного зрения в реальном времени. Библиотека свободна как для академического или коммерческого использования. Первоначально написана на C но имеет C++ интерфейс включая новые разработки. Также есть полный интерфейс для Python.

PCL(Point Cloud Library) — всеобъемлющая открытая библиотека для n-D Point Clouds и обработки 3D геометрии. Библиотека содержит многочисленные высококлассные алгоритмы: фильтрации, функции оценки, реконструкции поверхности, регистрации, подгонки моделей, сегментации и др.

Rein — инфраструктура распознавания (Recognition Infrastructure) это библиотека, которая помогает быстрой разработке 2D/3D объектов и распознаванию сюжетов. Библиотека может создавать различные вычислительные графы из различных модулей, объединяя их вместе в параллельном или в каскаде модели. Примеры включают в себя: объект детектор, создание оценок, предупреждающие операторы и т. д. Rein основана на OpenCV.

Tracking-Learning-Detection (predator) — алгоритм отслеживания движущихся объектов в видео потоке с самообучением, который разработал чешский студент Зденек Калал (Zdenek Kalal) из британского университета Суррея.

Как провалился проект по созданию всемирной цифровой библиотеки Google

25 млн книг в цифровом виде оказались заперты в недрах технологического гиганта.

Автор: Михаил Паршин

В наши дни, когда эра интернета смело шагает по миру, не так-то просто найти человека, который не знал бы о поисковике Google. Однако мало кто в курсе, что изначально создатели компании — Ларри Пейдж и Сергей Брин — задумывали поисковик по книгам, а вовсе не по всемирной сети, где в основном ищут информацию про футбол и кошечек.

Для того, чтобы осуществить задуманное, компания планировала оцифровать все физические копии книг, а поиск должен был осуществляться по фрагментам произведений. Вы можете подумать, что Пейдж и Брин недооценили масштабов работы, которую необходимо было провести на пути к этой цели, но вы ошибаетесь. Основатели самого популярного сегодня веб-поисковика прекрасно понимали всю амбициозность проекта, но это их не отпугнуло. Так что же произошло с инициативой и на какой стадии процесс? Gmbox с радостью поведает вам эту душераздирающую историю.

Проект по оцифровке сначала американских, а затем всех прочих книг получил кодовое название «Project Ocean». Справедливости ради стоит отметить, что даже внутри компании не все сотрудники верили в то, что цель достижима. Однако инициатива поддерживалась руководством, а значит “зеленый свет” проекту был обеспечен, несмотря на все трудности.

В 2002 г. Google начала сканировать те издания, которые были доступнее всего. Для этого были организованы специальные центры, куда книги со всех уголков Соединенных Штатов свозились грузовиками. Оцифровка осуществлялась специальными станками, для которых Google пришлось разработать специальное железо и софт.

Сканируемая книга жестко закреплялась на специальном стенде, сверху на нее смотрели несколько фотоаппаратов, а лидар определял точное положение листов книги в пространстве, чтобы позже специальное программное обеспечение учитывало это и «распрямляло» криво сфотографированные листы бумаги. При этом книжные страницы переворачивали люди, поскольку столь деликатный процесс нельзя было поручить станку.

Время шло, вместе с ним двигался и процесс. К августу 2010 г. Google потратила на проект в общей сложности $400 млн, и вскоре объявила о том, что по ее подсчетам в мире осталось 129 864 880 книг, которые она собирается оцифровать. И вот на этом моменте компания столкнулась с по-настоящему серьезными проблемами на пути к намеченной цели.

Разумеется, Google не стала бы выкладывать все отсканированные ею издания в свободный доступ, юристы компании понимали, что это незаконно. Однако авторы, издатели и конкуренты в лице Microsoft и Amazon все равно взбунтовались против такого расклада, и подали на Google в суд. Позднее все иски были объединены в один коллективный.

По мере того, как продвигалось дело, истцы поняли, что задумка Google не настолько уж и плоха, и что потенциально на этом можно построить новый бизнес. Авторы и издатели сменили гнев на милость, согласившись отдать в пользование права на те или иные издания за вознаграждение. Даже проблема “бесхозных” книг была решена. Если установить правообладателя произведения не удалось бы, или это было бы экономически невыгодно, предлагалось создать специальный фонд, куда отчислялись бы деньги с продаж таких изданий. Те, кто все-таки хотели бы заявить о правах — могли бы обратиться в фонд и получить свои законные деньги. Остальная часть доходов могла бы быть направлена на поддержание деятельности Google, или же на поиск правообладателей.

Все это выглядит замечательно, но этому уже не суждено сбыться. Во всяком случае, не в этот раз. Суд зашел в тупик и в какой-то момент в дело вмешалось Министерство юстиции США. Выслушав все доводы сторон и обратившись к неким влиятельным фигурам, Минюст все же постановил, что подобную схему организовать нельзя. Это создало бы невероятный по своим масштабам и нелепости прецедент в судебной системы США.

Если бы Google договорилась с противниками, которые в дальнейшем стали партнерами, в рамках процесса урегулирования коллективного иска, то любой другой технологической компании для получения таких же прав на создание подобного магазина электронных книг пришлось бы заново пройти весь путь. То есть оцифровать книги, получить иски от правообладателей и авторов, а затем договориться с ними. То есть нужно было специально нарушить закон, чтобы его обойти. Согласитесь, это уже перебор.

После всей этой сложной волокиты с судами, правами и обязанностями, Google все же разрешили показывать отрывки из тех книг, которые она успела оцифровать. Однако компания заморозила проект по созданию цифровой библиотеки, прекратив сканирование. На данный момент в недрах технологического гиганта хранится 50-60 петабайтов оцифрованных книг, или 25 млн томов, с которыми компания, в итоге, так ничего сделать и не может, помимо демонстрации фрагментов. Проект по созданию первой всемирной цифровой библиотеки провалился, не выдержав испытания современной судебной системой. Кто знает, может быть это не последняя попытка, и когда-нибудь человечество достигнет той стадии прогресса, которая позволит увековечить интеллектуальное наследие сотен тысяч умов в цифровом виде.

Автор библиотеки для распознавания объектов от Google привел интересные примеры

Все начиналось банально — моя компания уже год платила ежемесячно плату за сервис, который умел находить регион с номерными знаками на фото. Эта функция применяется для автоматической зарисовки номера у некоторых клиентов.

И в один прекрасный день МВД Украины открыло доступ к реестру транспортных средств. Теперь по номерному знаку стало возможным проверять некоторую информацию про автомобиль (марку, модель, год выпуска, цвет и т.д. )! Скучная рутина линейного программирования померкла перед новой свехзадачей — считывать номера по всей базе фото и валидировать эти данные с теми, что указывал пользователь. Сами знаете как это бывает «глаза загорелись» — вызов принят, все остальные задачи на время стали скучны и монотонны… Мы принялись за работу и получили неплохие результаты, чем, собственно и решили поделиться с сообществом.

Экспериментальная функция:

Ниже вы видите текст статьи по ссылке. По нему можно быстро понять ссылка достойна прочтения или нет

Просим обратить внимание, что текст по ссылке и здесь может не совпадать.

Все начиналось банально — моя компания уже год платила ежемесячно плату за сервис, который умел находить регион с номерными знаками на фото. Эта функция применяется для автоматической зарисовки номера у некоторых клиентов.

И в один прекрасный день МВД Украины открыло доступ к

. Теперь по номерному знаку стало возможным проверять некоторую информацию про автомобиль (марку, модель, год выпуска, цвет и т.д. )! Скучная рутина линейного программирования померкла перед новой свехзадачей — считывать номера по всей базе фото и валидировать эти данные с теми, что указывал пользователь. Сами знаете как это бывает «глаза загорелись» — вызов принят, все остальные задачи на время стали скучны и монотонны… Мы принялись за работу и получили неплохие результаты, чем, собственно и решили поделиться с сообществом.

Для справки: на сайт AUTO.RIA.com, в день добавляется около 100 000 фото.

Датасаентисты давно уже знают и умеют решать подобные задачи, поэтому мы с

написали эту статью именно для программистов. Если вы не боитесь словосочетания «сверточные сети» и умеете писать «Hello World» на питоне — милости просим под кат…


Кто еще распознает

Год назад я изучил этот рынок и оказалось, что работать с номерами стран exUSSR умеет не так уж много сервисов и ПО. Ниже представлен список компаний с которыми мы работали:

    Есть opensource и коммерческая версия. Opensource-версия показала очень низкий процент распознавания, кроме того, она требовала специфические зависимости для своей сборки и работы (особенно нам не приглянулась). Коммерческая версия, вернее коммерческий сервис работает хорошо. Умеет работать с русскими и украинскими номерами. Цены умеренные — 49$/50K распознаваний в месяц. Онлайн демка OpenALPR

  • Этим сервисом мы пользовались около года. Качество хорошее. Зону с номером находит очень хорошо. Сервис не умеет работать с украинскими и европейскими номерами. Стоит отметить хорошую работу с некачественными снимками (в снегу, фото небольшого разрешения, . ). Цена на сервис тоже приемлемая, но за малые объемы берутся неохотно.
  • Есть множество коммерческих систем с закрытым ПО, но хорошей opensource реализации мы не нашли. На самом деле это очень странно, так как инструменты с открытым кодом, которые лежат в основе решения этой задачи давно уже существуют.

    Какие инструменты нужны для распознавания номеров

    Нахождение объектов на изображении или в видео-потоке это задача из области компьютерного зрения, которая решается разными подходами, но чаще всего с помощью, так-называемых, сверточных нейронных сетей. Нам нужно найти не просто область на фото в которой встречается искомый объект, но и отделить все его точки от других объектов или фона. Эта разновидность задач называется «Instance Segmentation». На иллюстрации ниже визуализированы разные типы задач компьютерного зрения.

    Я не буду сейчас писать много теории о том как работает сверточная сеть, этой информации достаточно в сети и докладов на youtube.

    Из современных архитектур сверточных серей для задач сегментации часто используют:

    . Мы выбрали Mask R-CNN.

    Второй инструмент, который нам понадобится — это библиотека по распознаванию текстов, которая бы могла работать с разными языками и которую можно легко настраивать под специфику текстов, которые мы будем распознавать. Тут выбор не так уж велик, самой продвинутой является

    Так же есть ряд менее «глобальных» инструментов, с помощью которых нам нужно будет нормализовать область с номерным знаком (привести его в такой вид, при котором распознавание текста будет возможным). Обычно для таких преобразований используют opencv.

    Так же, можно будет попробовать определить страну и тип, к которой относится найденный номерной знак, чтоб в постобработке применить уточняющий шаблон, характерный для этой страны и этого типа номера. Например, украинский номерной знак, начиная с 2015 года оформлен в сине-желтом оформлении состоит из шаблона «две буквы черыре цифры две буквы».

    Кроме того, имея статистику частоты «встречания» в номерных знаках того или иного сочетания букв или цифр можно улучшить качество постобработки в «спорных» ситуациях. «

    Nomeroff Net

    Из названия статьи понятно, что мы все реализовали и назвали проект

    . Сейчас часть кода этого проекта уже работает в production на сайте

    . Конечно, до коммерческих аналогов еще далеко, все работает неплохо только для украинских номеров. Кроме того, приемлемая скорость работы достигается только при поддержке GPU у модуля tensorflow! Без GPU тоже можно пробовать, но не на Raspberry Pi :).

    Все материалы для нашего проекта: размеченные датасеты и натренированные модели, мы выложили в открытый доступ с разрешения RIA.com под лицензией Creative Commons CC BY 4.0

    Что нам понадобится

    У нас с Дмитрием все запущено на Fedora 28, уверен это все можно установить на любой другой дистрибутив Linux. Не хотелось бы этот пост превращать в инструкцию по установке и настройке tensorflow, если захотите попробовать и что-то не получается — спрашивайте в комментах, я обязательно отвечу и подскажу.

    Для того, чтобы ускорить установку планируем создать dockerfile — ожидайте в ближайших апдейтах проекта.

    Nomeroff Net «Hello world»

    Давайте уже что-то попробуем распознать. Клонируем с

    . Качаем в папку models,

    для поиска и классификации номеров, немного подправим под себя переменные с расположением папок.

    Все, можно распознавать:

    Онлайн демка

    для тех кому не хочется все это ставить и запускать у себя :). Будьте снисходительны и терпеливы к скорости работы скрипта.


    Если нужны примеры украинских номеров (для проверки работы алгоритмов коррекции), возьмите пример

    Мастер Йода рекомендует:  PowerShell стала доступной на Linux в формате snap

    Что дальше

    Я понимаю, что тема очень нишевая и вряд ли вызовет большой интерес у широкого круга программистов, кроме того, код и модели еще достаточно «сыроваты» в плане качества распознавания, быстродействия, потребления памяти и пр. Но все же есть надежда, что найдутся энтузиасты, которым будет интересно натренировать модели под свои нужды, свою страну, которые помогут и подскажут, где есть проблемы и вместе с нами сделают проект не хуже, чем коммерческие аналоги.

    Известные проблемы

    • У проекта нет документации, только базовые примеры кода.
    • В качестве модуля распознавания выбран универсальная OCR tesseract и она может прочитать многое, но ошибок делает много. В случае распознавания украинских номеров, там написана специализированная система коррекции, которая пока что компенсирует часть ошибок, но есть предчувствие что тут можно сделать значительно лучше.
    • «Квадратные» номера (номерные знаки с пропорцией 1:2) встречаются достаточно редко и мы с ними только начали разбираться, так что с ними погрешность будет больше.
    • Иногда вместо номерного знака наша модель находит дорожные знаки с названием населенного пункта, приборную доску внутри салона и др. артефакты.
    • При плохом качестве номера или малом разрешении, не совсем точно определяется регион из 4 точек

    Анонс

    Если это будет кому-то интересно, во второй части собираемся рассказать о том как и чем размечать свой датасет и как тренировать свои модели, которые могут работать лучше для вашего контента (вашей страны, вашего размера фото). Также поговорим о том как создать свой классификатор, который, например, поможет определять не зарисован ли номер на фото.

    Google Lens распознает миллиард объектов

    За сравнительно недолгое время своего существования Google Lens практически незаметно для большинства пользователей превратился в мощнейший инструмент распознавания различных объектов. Число распознаваемых объектов возросло с четверти миллиона до одного миллиарда. Впрочем, Google Lens способен в основном распознавать вполне определенные предметы. Другие же так и остаются неизвестными для обучаемого искусственного интеллекта, управляющего работой этого инструмента.

    Google Lens — инструмент для камеры, работа которого обеспечивается искусственным интеллектом. Читателям, которые следят за развитием выоских технологий на сайте и в Telegram-канале новостей, несомненно интересно будет узнать, что сейчас Google Lens уже способен распознавать более одного миллиарда объектов. Об этом развивающая ОС Android компания сообщает в своем блоге. Впрочем, отмечает Шэннон Ляо (Shannon Liao) на страницах theverge.com, остаются предметы, которые Google Lens не распознает.

    Google Lens хорошо распознает представленные в продаже товары

    Инструмент Google Lens дебютировал в минувшем году. Он работал с Photo и Assistant и узнавал примерно 250 тысяч объектов. Развитие началось год спустя, когда распознавание текста Google Lens стали тренировать на этикетках товаров. Распознавая текст, Google Lens стал различать намного больше товаров. Ему также показывали данные множества снятых смартфонами фотографий и, таким образом, возможности Google Lens существенно возросли.

    Google Lens не распознает старые книги и игровые консоли

    1 миллиард объектов, распознаваемых программным инструментом, обеспечивается товарами, доступными в Google Shopping. И это означает, что в их числе не входят редкие объекты, к которым относятся, к примеру, игровые консоли девяностых годов минувшего века и первые редакции малораспространенных книг. Таким образом, Google Lens — инструмент, который полезен преимущественно тем пользователям, которые хотят побольше узнать о предлагаемом товаре.

    Кроме представленных в продаже товаров, Google Lens также способен распознавать людей, названия сетей Wi-Fi и геометрические фигуры. Возможность автоматического подключения к сети Wi-Fi посредством фото лейбла роутера была анонсирована еще на I/O 2020. В текущем году к ней добавилась также возможность копирования информации с визитной карточки с последующим занесением ее в список контактов телефона.

    C#. Какие библиотеки использовать для распознавания текста?

    Добрый день!
    Какие библиотеки использовать для распознавания текста для C#?
    Для WinForms
    tessnet2 использовал но как то не помог.

    Заранее благодарен за подсказки.

    Картинка для примера:

    • Вопрос задан 08 февр.
    • 1491 просмотр

    Роман Мирр,
    1. Выдает кучу цифр каких-то вообще не подходящих
    2. На вышеуказанном изображении

    Код стандартный из мана

    Я давно делал подобное.


    Из заметок:
    — AForgeNet — библиотеки компьютерного зрения и искусственного интеллекта;
    — Tesseract — программа для распознавания текстов;
    — Fanndotnetwrapper — обертка .NET нейросети FANN;
    — алгоритм поиска связанности CCLA от Omar Gameel Salem. (поиск ближайших соседей, как определять буквы, и отделять их друг от друга).

    У вас картинка идеальная, можно сказать тут и онлайн бесплатные распозновалки отработают на 100%.

    Готовые решения думаю гуглятся, помоему даже в AForgeNet есть). — https://www.codeproject.com/Articles/11285/Neural-.

    Но да, первый раз сложно доходит, но как только один раз заведете это дело, то потом уже в разы проще будет.

    Применение Google Cloud Vision API в приложении для Andro >

    Искусственный интеллект и машинное обучение — это одни из самых популярных тем в бизнесе. Google, лидер в этой области, разработал набор инструментов для разработчиков, которые позволят создать новый пользовательский опыт с безграничными возможностями. Сегодня мы исследуем Google Cloud Vision API и его применение в приложениях Android.

    Google Cloud Vision API

    Это интересный API, который позволяет разработчикам анализировать изображения и контекстные данные, используя самообучающуюся и развивающуюся модель машинного обучения — все в простом REST API. Благодаря этому API, мы можем получать контекстную информацию об изображении и классифицировать изображения по категориям и подкатегориям, достигая глубокого уровня детализации информации.

    Для примера возьмем это изображение:

    Vision API удивителен – он может распознать основной субъект фото (животное), определить его вид (собака) и породу (бигль). Более того, вы можете получить дополнительные данные о траве и горах на фоне.

    Давайте взглянем на все функции Google Cloud Vision API:

    • Обнаружение меток: обнаружение категорий внутри изображения (пример выше).
    • Обнаружение откровенного содержимого: обнаружение неприличного или жестокого содержимого в изображении.
    • Обнаружение популярных логотипов.
    • Обнаружение географических ориентиров: естественных и искусственных структур.
    • Оптическое распознавание символов: обнаружение и извлечение текста внутри изображения, API даже распознает язык текста.
    • Обнаружение лиц: обнаружение нескольких лиц внутри изображения, а также других атрибутов, таких как эмоциональное состояние или головные уборы.
    • Атрибуты изображения: обнаружение общих атрибутов изображения, таких как доминирующие цвета.

    В нашем примере мы используем две функции: обнаружение меток и оптическое распознавание символов. Давайте посмотрим, как интегрировать Vision API в приложение Android. Мы создадим пробный проект, который позволит пользователю выбирать изображение из галереи и получать о нем информацию.

    Внедрение Google Cloud API

    Чтобы использовать API, мы должны включить его в Google Cloud Developer Console. Вот как это сделать:

    1. Создайте проект в Google Cloud Console или используйте существующий.
    2. Включите в проекте Billing. Если это ваше первое использование Google Cloud Console, вы можете начать бесплатный пробный период использования. У вас могут попросить данные карты, но денег не спишут.
    3. Включите Google Cloud Vision API, используя эту ссылку.
    4. Откройте в боковом меню слева секцию Credentials.
    5. Выберите в меню OAuth Client ID: установите тип приложения Android, введите название приложения и отпечаток SHA1 (если у вас его нет или вы не знаете, как его сгенерировать, введите эту команду в терминале keytool -exportcert -keystore path-of-your-keystore -list -v). Затем введите имя пакета вашего приложения: оно должно совпадать с именем, указанным в файле build.gradle вашего приложения, в ключе applicationId. В моем случае — com.lpirro.cloudvision.

    Мы готовы начать, давайте приступим к кодингу.

    Cloud Vision API в действии

    Создайте новый проект в Android Studio и помните, что имя пакета должно совпадать с названием в проекте в Google Cloud Developer Console. Затем откройте build.gradle и добавьте зависимости Vision API.

    Теперь откройте AndroidManifest.xml и добавьте необходимые разрешения для сетевых вызовов и получения информации об учетной записи, необходимой для запроса OAuth.

    Сейчас мы можем создать Activity, которая позволит нам выбрать изображение из галереи и вызвать сервисы Cloud Vision, чтобы получить информацию о нем.

    Файл макета нашей активности очень прост: у нас есть один ImageView, используемый для отображения выбранного изображения из галереи, два TextView для отображения результатов и одна Button, используемая для выбора изображения из галереи.

    Вот файл с макетом нашей активности:

    Теперь остановимся на самой Activity. В этом примере мы используем библиотеку Google API Client для Java, и так как мы используем OAuth запрос, нам нужно получить от Google токен аутентификации. Давайте определим класс, который позволит нам получить этот токен.

    Примечание: для простоты мы будем использовать AsyncTask для сетевых операций, но если вы будете использовать этот API в реальном проекте, используйте библиотеку, например, Retrofit, возможно, вместе с RxJava.

    Теперь у нас есть вся необходима информация, чтобы вызвать Cloud Vision API и получить результаты.

    При помощи метода setType() мы определим тип функции, которую хотим использовать: в нашем случае это LABEL_DETECTION и TEXT_DETECTION. Формат изображения, переданного API, находится в Base64. Как только результаты будут получены, они передаются методу getDetectedText (), который будет форматировать строку и фильтровать информацию, после чего мы можем окончательно отобразить их в интерфейсе.

    Искусственный интеллект и машинное обучение быстро стали основой цифровых преобразований. С внедрением Cloud Vision API Google предлагает первоклассный инструмент для интеграции этих технологий в повседневный рабочий процесс как пользователей, так и разработчиков. Прямо сейчас та же технология, что мы видели выше, уже является частью основных продуктов Google, таких как «Фотографии», используется в качестве помощи для организации и классификации нашей коллекции воспоминаний. Благодаря общей доступности этих инструментов тысячи продуктов смогут интегрировать эту удивительную технологию.

    Как Google будет распознавать и ранжировать изображения в ближайшем будущем?

    Сканирование изображения и обнаружение в нем объектов — задача № 1 в обработке картинок и компьютерном зрении. Поиск по запросу « автоматическое распознавание изображений » на Google Академии выдаст множество статей со сложными уравнениями и алгоритмами от начала 90-х и до наших дней. Это говорит о том, что указанная проблема занимает ученых с самого появления веб-поиска, но она пока не решена.


    Основатель cognitiveSEO Рэзван Гаврилас считает , что в ближайшем будущем Google изменит алгоритмы ранжирования изображений, что повлияет на поиск и фактически на поисковую оптимизацию во всем мире. Эту тему Рэзван развивает в данной статье.

    Почему умение распознавать объекты в изображениях важно для мирового digital-сообщества?

    По мнению эксперта, обнаружение объектов на картинках станет неким дополнительным фактором ранжирования. К примеру, изображение синей собаки будет неразрывно связано с ключевым словом «синяя собака», а не «рыжая собака».

    Для SEO это имеет два важных последствия:

    • количество нерелевантных результатов при поиске по определенному ключевому слову будет меньше (в зависимости от того, что находится на изображении),
    • распознавание объектов в картинке поможет связать контент страницы с этим изображением. Если на странице много фотографий синих собак и других вещей, связанных с собаками, то рейтинг этой страницы, как посвященной собакам, будет выше.

    Ещё один вопрос — станет ли распознавание образов началом «новой эры» для манипуляций с объектами на картинках, как новой теневой техники SEO? Нет, потому что алгоритмы поисковых систем в наши дни легко обнаружат такой вид спама.

    Google, искусственный интеллект и распознавание изображений

    В 2010 году Стэндфордским университетом был впервые проведен конкурс ILSVRC (ImageNet large-scale visual recognition challenge), в рамках которого программисты демонстрируют возможности разрабатываемых ими систем распознавания объектов на изображении.

    ILSVRC включает три основных этапа:

    • классификация,
    • классификация с локализацией,
    • обнаружения.

    В первом случае оценивается возможность алгоритма создавать правильные «подписи» к изображению (маркировка), локализация предполагает выделение основных объектов на изображении, похожим образом формулируется и задача обнаружения, но тут действуют более строгие критерии оценки.

    В случае с обнаружением алгоритм распознавания должен описать сложное изображение с множеством объектов, определяя их местонахождение и точно идентифицируя каждый из них. Это значит, что если на картинке кто-то едет на мопеде, то программное обеспечение должно суметь не просто различить несколько отдельных объектов (например, мопед, человека и шлем), но и правильно расположить их в пространстве и верно классифицировать. Как мы видим на изображении ниже, отдельные предметы были определены и классифицированы верно.

    Любая поисковая система с наличием подобной возможности затруднит, чьи-либо попытки выдать фотографии людей на мопедах за фото водителей Porsche посредством манипуляций с метаданными. Алгоритм, способный распознавать объекты, довольно продвинутый и сможет разобрать любое, в том числе и самое сложное изображение.

    В 2014 году конкурс ILSVRC выиграла команда GoogLeNet. Название образовано из слов Google и LeNet — одна из реализаций свёрточной нейронной сети . Подобная сеть может быстро обучаться, а также выдавать результаты даже при наличии небольшого объёма памяти за счёт более чем десятикратного сокращения числа параметров, по сравнению с большинством других моделей компьютерного зрения.

    В планах Google — создать открытое программное обеспечение, на основе которого будет разработана технология распознавания изображений. Предполагается, что разработки исследовательской команды GoogLeNet будут внедрены в некоторые визуальные сервисы Google, в частности поиск по изображениям и YouTube, а также в Self-Driving Car — систему автоматического управления транспортным средством.

    Отметим, что на ILSVRC 2014 предложено множество идей для распознавания объектов, причем они более «продвинутые», чем 2 года назад. В 2014 году число распознанных изображений составило 457 000, тогда как в 2013 году 395 000. В нынешнем году собрали более 60 000 новых изображений, которые были распределены по 200 категориям объектов.

    На ILSVRC 2014 была отмечена нейронная сеть DistBelief (с 11-ю уровнями нейронов), которая может идентифицировать объекты независимо от их размера и расположения на картинке. Сеть DistBelief способна к обучению. Именно её Google использует для выявления семантического смысла понятий.

    Как действительно происходит распознавание изображений?

    В чем принцип работы вышеупомянутой инфраструктуры DistBelief? Она позволяет обучать нейронные сети в распределенной манере, и основана на принципах Хебба и масштабной инвариантности .

    Под термином «нейронные сети» подразумеваются искусственные нейронные сети (ИНС), являющиеся вычислительными моделями, основанными на принципах обучения и распознавания образов. Пример работы алгоритма обнаружения объекта приведен ниже:

    Команда GoogLeNet использует определенный тип ИНС — сверточную нейронную сеть, принцип работы которой заключается в том, что отдельные нейроны реагируют на разные (но перекрывающиеся) области в поле зрения. Эти области можно сопоставить воедино, чтобы получить более сложный образ. По словам Рэзвана Гавриласа, это напоминает работу со слоями в редакторе изображений.

    Мастер Йода рекомендует:  Краткий обзор некоторых возможностей MySQL. Советы по оптимизации.

    Одним из плюсов сверточной нейронной сети является хорошая поддержка перевода — любого типа движения объекта из одного пространства в другое. Инфраструктура DistBelief умеет выделять объект независимо от того, где он находится на картинке.

    Ещё одна полезная возможность инфраструктуры — масштабная инвариантность, согласно которой, свойства объектов не меняются, если масштабы длины умножаются на общий множитель. Это означает, что инфраструктура DistBelief должна четко распознавать изображение, к примеру, «апельсина», независимо от того, большой ли он (на обоях для рабочего стола) или крошечный (на иконке). В обоих случаях объект оранжевый и классифицируется как «апельсин».

    Необходимо сказать и о принципе Хебба, согласно которому происходит обучение искусственных нейронных сетей. В книге «Организация поведения: нейропсихологическая теория» постулат Хебба звучит следующим образом: «Если аксон клетки А находится достаточно близко, чтобы возбуждать клетку B, и неоднократно или постоянно принимает участие в ее возбуждении, то наблюдается некоторый процесс роста или метаболических изменений в одной или обеих клетках, ведущий к увеличению эффективности А, как одной из клеток, возбуждающих В».

    Рэзван Гаврилас немного упрощает цитату: «Клетки, которые возбуждаются вместе, связываются вместе». В случае с ИНС «клетки» стоит заменить на «нейроны». Выстраивая дальнейшую аналогию, можно сказать, что программное обеспечение будет в состоянии обучать себя, чтобы постоянно совершенствоваться.

    Google рекрутирует специалистов в области искусственного интеллекта и распознавания изображений

    Собственную технологию распознавания образов Google создает на основе сторонних разработок, например, для этого была приобретена компания-стартап DNNresearch , занимающаяся исследованиями в области распознавания объектов и голоса. DNNresearch представляет собой стартап, на момент поглощения в его штате числились три человека, автоматически ставшие сотрудниками Google. Им выделен грант на поддержку работы в области нейронных сетей. Новые технологии Google может применить для улучшения качества поиска по картинкам.

    Согласно стратегии компании Google, многие решения с открытым исходным кодом остаются доступны для других компаний. Это делается для развития рынка. Как считает Рэзван, зачем душить конкурентов, когда вы можете позволить себе купить его спустя некоторое время?

    Ещё одно интересное приобретение Google — компания DeepMind , в которую инвестировано 400 миллионов долларов. Это и многие другие приобретения направлены в первую очередь на то, чтобы привлечь в Google квалифицированных специалистов, а не какие-то готовые решения. Подобные шаги по покупке компаний — свидетельство гонки Google, Facebook и других интернет-компаний за «мозгами» для дальнейших разработок в области искусственного интеллекта.

    Google+ уже использует обнаружение объектов в картинках. На очереди Google Поиск?


    На самом деле, алгоритм обнаружения изображений на основе нейронной сети уже больше года работает в Google+. Часть кода программного обеспечения представленного на ILSVRC, использовалась для улучшения алгоритмов Google+, а именно — для поиска конкретных типов фотографий.

    Технология распознавания изображений от Google имеет следующие особенности:

    • Алгоритм Google учитывает соответствие объектов на веб-изображениях (крупный план, искусственное освещение, детализация) с объектами на естественных фотографиях (средний план, естественный свет с тенями, разная степень детализации). Другими словами — цветок должен оставаться цветком даже на изображениях с другим разрешением или условий освещения.
    • Некоторые специфические визуальные классы выведены за рамки общих единиц. Например, в большом списке из наименований цветов, которые различает алгоритм, отмечены некоторые отдельные растения, например, гибискус или георгин.
    • Алгоритму распознавания изображений Google также удалось научиться работать с абстрактными категориями объектов, выделяя то или иное количество картинок, которые могли бы быть отнесены к категориям «танец», «еда», «поцелуи». Это занимает куда больше времени, чем простое выявление соотношений «апельсин — апельсин».

    Классы с разным значением также обрабатываются хорошо. Пример — «автомобиль». Это точно снимок автомобиля, если на нём мы видим весь автомобиль? Считается ли изображение салона машины фотографией автомобиля или уже чем-то другим? На оба вопроса мы бы ответили утвердительно, также поступает и алгоритм распознавания Google.

    Нельзя не отметить, что система распознавания изображений пока ещё недоработана. Однако даже в «сыром» виде алгоритм Google на голову выше всех предыдущих разработок в сфере компьютерного зрения.

    Взлет и падение Google Books

    Google Books стал первым амбициозным экспериментом компании. Однако даже спустя 15 лет он так и не смог изменить мир. О том, как зарождалась идея оцифровки всех книг и как она развивалась, рассказал журналист Скотт Розенберг (Scott Rosenberg).

    Книги способны творить чудеса. Как однажды сказал Франц Кафка, «книга должна быть топором для замерзшего моря внутри нас».

    Это изречение принадлежит Кафке, так ведь? Гугл может подтвердить. Но где и в каких условиях Кафка это сказал? Поиск выводит на веб-сайты с цитатами, но на них полагаться не стоит. Обычно они ошибочно приписывают все цитаты Марку Твену.

    Чтобы ответить на этот и подобные вопросы, нужно воспользоваться Google Book Search – инструментом, способным искать текст по миллионам оцифрованных изданий. Нужно только найти маленькую кнопку «еще» в верхней части поисковой выдачи – она идет после вкладок «Картинки», «Видео» и «Новости». Нажмите на эту кнопку и выберите пункт «Книги».

    Оказывается, цитата Кафки о «замерзшем море» появилась в «Письмах друзьям, родным и редакторам» Кафки в его послании Оскару Поллаку, датированном 27 января 1904 года.

    Фото: Клайв Дарра/ Flickr

    Google Book Search – потрясающе эффективный инструмент для подобных задач. Когда сервис появился 15 лет назад, эта затея казалась невозможно амбициозной: молодая технологическая компания, которой только недавно удалось охватить и организовать непроходимые информационные джунгли Всемирной паутины, собирается расширить возможности своего поиска в офлайн. Сканируя миллионы печатных книг из библиотек, которые присоединились к проекту, компания могла добавить в свою базу данных всю человеческую историю до появления интернета.

    «В книгах содержатся тысячи лет человеческих знаний, причем, возможно, в самом качественном виде из возможных, – сказал сооснователь Google Сергей Брин в интервью журналу The New Yorker в то время. – Не воспользоваться этим – слишком большое упущение».

    Сегодня Google знаменита своим подходом к амбициозным проектам, своей готовностью браться за колоссальные задачи в масштабах всего мира. Многие ветераны Google сходятся во мнении, что Books был первым подобным проектом в истории компании: только подумайте, сканировать все книги мира!

    На этапе зарождения Google Books должен был дать миру видение «утопической литературы», в которой удобство электронной эпохи сочетается с мудростью печатных книг. В то время эта идея казалась чем-то вроде сингулярности для печатного слова: мы загрузим все книги в эфир, и каким-то образом это приведет к повышению уровня грамотности всех людей на Земле. Однако вместо этого Google Books достигла разве что тихого средневековья, раздавая цитаты и фрагменты текстов из более чем 25 миллионов книг своей базы.

    Сотрудники Google говорят, что на большее и не рассчитывали. Возможно, это действительно так. Но можно точно сказать, что они заставили всех остальных надеяться на большее.

    На пути от космических обещаний до обыденности с Google Books произошли два события. Вскоре после запуска проект превратился из рая для идеалистов в юридический ад: авторы стали бороться с правом Google индексировать их труды, и издатели также стали защищать свою индустрию от натиска электронных сервисов. За этим последовали юридические тяжбы длиной в десятилетие – все закончилось лишь в прошлом году, когда Верховный суд США отклонил иск Гильдии писателей и окончательно снял все преграды на пути Google к литературным амбициям.

    Однако в это время с Google Books произошло еще одно изменение – то, которое знакомо едва ли не каждой организации или группе людей, увязших в долгих юридических тяжбах. Проект потерял былой драйв и амбиции.

    Когда я начал работать над этим текстом, я опасался, что проект Books уже не существовал в качестве существенной части Google, что компания его полностью свернула. Вокруг Google Books, как и в случае со многими другими идеями компании, всегда была некая завеса тайны, однако сейчас, когда я стал задавать вопросы, все как будто сквозь землю провалились. Неделями я не мог найти никого, хоть отдаленно способного рассказать о текущем состоянии проекта.

    На странице «История» на сайте Google Books рассказ обрывается на 2007 годе, а блог проекта перестал обновляться в 2012 году. С того момента все новости стали выходить в основном блоге «Поиска Google», где информацию о Books найти практически невозможно. Google Books сохранил свою актуальность в качестве работающего и полезного сервиса. Однако как действительно живой проект с собственными планами, анонсами и видимостью работы он словно перестал существовать. Особенно странно все это выглядит, учитывая итоговую победу над противниками в судах.

    Несколько бывших сотрудников проекта, с которыми я разговаривал, поделились своими подозрениями по поводу того, что компания перестала сканировать книги. Впоследствии я узнал, что небольшая группа работников все еще работает над поиском по книгам и добавляет новые издания, пусть и с гораздо меньшей интенсивностью, чем на пике работы проекта в 2010-2011 годах.

    «Для нас не так важны модные фишки и функции, которые сразу видны пользователям, – рассказывает нынешний глава проекта Стефан Джаскевиц (Stephane Jaskiewicz), который работал в команде около десяти лет. – Мы скорее работаем за кадром и оттачиваем техническую сторону: добавляем новый контент, обрабатываем его так, чтобы можно было просматривать книгу в сети, и отлаживаем алгоритм поиска».

    Одна задача всегда была важна для Google Books: совершенствование сканеров, которые добавляют новые книги к «корпусу», как принято называть базу данных. На этапе зарождения проекта, в 2002 году, Ларри Пэйдж и Марисса Майер решили прикинуть, сколько времени займет сканирование всех книг на Земле, и поставили метроном рядом с цифровой камерой на штативе. Как только компания поставила себе цель вывести скорость на эффективный уровень, подробности работы стали тщательным образом скрываться.

    Джаскевиц подтверждает, что установки для сканирования продолжают совершенствоваться, и обновления выходят раз в шесть месяцев. Очень помогают технологии светодиодной подсветки, которые были не так распространены на момент запуска проекта. Также полезно изучение более производительных техник перелистывания страниц для операторов установок. «Это очень похоже на игру на гитаре перебором, – рассказывает Джаскевиц. – Мы находим людей, у которых есть свои собственные способы перелистывания – особая постановка большого пальца и прочие подобные приемы».

    Однако основная часть работы в Google Books остается повышением «качества поиска» – так, чтобы вы смогли еще быстрее и еще надежнее найти нужную вам цитату Кафки. Это игра, победителям которой не достается всеобщее признание – максимум, награда лучшему игроку запаса.

    Чтобы понять, как проект Google Books пришел к этому, нужно знать кое-что об авторских правах, по которым все книги делятся на три категории. Некоторые книги являются общедоступными, то есть с их текстом можно делать все что угодно. В основном, это книги, опубликованные до 1923 года, а также более современные труды, чьи авторы решили отказаться от стандартных авторских прав. Многие из более новых книг до сих пор издаются и попадают под защиту авторских прав: если вы хотите использовать их текст для своих целей, нужно договориться об этом с автором и издателем.

    Есть еще третья категория: книги, которые уже вышли из печати, но все еще защищены авторским правом – их неофициально называют «сиротскими работами». Таких изданий достаточно много – «от 17-25% опубликованных работ и около 70% специализированных коллекций», сообщают результаты исследования, проведенного Агентством по защите авторского права США.

    Какому количеству книг соответствует эта доля? Сложно сказать, поскольку никто точно не знает, сколько существует книг за Земле в общей сложности. Это число зависит от того, что принято считать «книгой», и определить эти рамки не так-то просто. В 2010 году инженер Google Леонид Тэйчер (Leonid Taycher) в записи в блоге написал, что после анализа метаданных Google Books определил общее число книг (на тот момент) на уровне 130 млн. Другие специалисты назвали это исследование «вздором». Скорее всего, реальное количество книг ниже оценки Тэйчера, но значительно выше тех 25 миллионов, что сейчас содержатся в базе Google Books.

    Таким образом, значительная доля от этого огромного числа приходится на «сиротские работы». До недавнего времени они не доставляли особых проблем. Можно было взять такую в библиотеке или найти в книжном магазине без каких-либо проблем. Но стоило Google заявить о своем желании отсканировать эти книги и сделать их доступными в интернете, все заявили свои права на них.

    Развернувшиеся после этого юридические прения стали, по сути, битвой за право опеки над этими сиротами. Google, издатели и авторы пытались завладеть правом контролировать процесс перевода этих книг в новый дом в цифровом мире. В итоге три этих стороны пришли к компромиссу, который получил название «Договор о Google Books». По его условиям Google получала возможность полностью разместить книги в интернете без необходимости выплачивать компенсации правообладателям. Однако в 2011 году федеральный судья аннулировал договор под предлогом опасений о том, что частная коммерческая компания навсегда станет регистратором новых книг и сборщиком прибыли со всей мировой литературы.


    Как только договор перестал работать, Google снова начала сканировать книги, а издатели погрузились в перспективный рынок электронных книг, который навредил позициям Google в гонке за лидерство благодаря успеху Amazon Kindle. Но Гильдия авторов не отменила свой иск, напирая на то, что дерзкая попытка Google сканировать и индексировать все книги без разрешения правообладателей была незаконной.

    Google – богатая компания, но не настолько, чтобы игнорировать угрозу многомиллиардных штрафов за нарушение авторских прав (миллионы книг и тысячи долларов штрафа за каждую). Весь этот процесс длился, пока Верховный суд США не положил ему конец в прошлом году, раз и навсегда закрепив право Google составить каталог книг и показывать краткие выдержки («сниппеты») в поисковой выдаче так же, как это делается для веб-страниц.

    Мастер Йода рекомендует:  8 лучших YouTube-каналов для изучения Java

    Это решение суда стало фундаментальным достижением для будущего онлайн-поиска – для Google и всего мира. «Теперь это официальный прецедент, от которого выиграют все, – рассказывает Эрин Саймон (Erin Simon), нынешний советник по продукту Google Books. – Этот случай будет в учебниках. В первую очередь, важно определить, что именно означает “правомерное использование”». (Также Саймон с улыбкой отметила, что на момент подачи иска от правообладателей она еще даже не приступила к обучению в юридической академии.)

    Пусть Гильдия авторов и проиграла суд, ее представители уверены, что боролись за правое дело. Google «пошла не по тому пути с самого начала», считает Джеймс Глейк (James Gleick), президент Гильдии: «Они начали работать, не привлекая к делу творческое сообщество, за счет которого и развивают свой проект. Крупные компании относятся к творческому труду так, будто у них есть “право первой ночи”. Они считают себя хозяевами мира. Вместо этого нужно было просто получить лицензии».

    Можно было бы подумать, что победа в Верховном суде означала новый прилив сил в работе над Google Books: запускайте сканеры, полный вперед! Однако все указывает на то, что в данном случае ничего такого не произошло – отчасти потому, что база и так уже было огромна.

    «У нас есть фиксированный бюджет на все нужды, – объясняет Джаскевиц. – Сначала мы сканировали все, что попадало в руки. В какой-то момент стало получаться много дубликатов». Сейчас Google стал предоставлять сотрудничающим библиотекам списки самых интересных книг.

    Есть множество других объяснений потери былого энтузиазма Google. Неприятный осадок после судебных тяжб. Взлет перспективных новых идей, которые быстрее себя окупали. И еще: постепенное осознание того, что сканирование всех книг мира, какую бы пользу оно ни принесло, может и не изменить мир так сильно, как этого хотелось.

    Для многих библиофилов стремление Google стать всемирной библиотекой не имело смысла: с этой ролью прекрасно справлялись некоторые общественные организации. Как только Google показала, что идея сканирования всемирной литературы вполне осуществима, за ее реализацию взялись и другие. Internet Archive Брюстера Каля (Brewster Kahle), в которой задокументированы этапы развития интернета, уже отсканировала собственную базу. «Цифровая общественная библиотека Америки» выросла из встреч в Центре Беркмана в Гарварде в 2010 году и теперь служит в качестве собрания цифровых коллекций многих библиотек и организаций.

    Когда Google договаривалась с университетскими библиотеками о том, чтобы сканировать их коллекции, компания обязалась предоставлять библиотекам копии полученных данных, и в 2008 году общество HathiTrust начала собирать и предлагать эти файлы в пользование. (Ей тоже пришлось защищаться от исков Гильдии авторов.)

    В HathiTrust входят 125 организаций и учреждений, которые «уверены, что вместе могут помогать научным исследованиям и культурному обмену лучше, чем по одиночке, или оставив это дело компаниям вроде Google», считает директор общества Майк Ферлоу (Mike Furlough). Кроме того, есть еще и Библиотека Конгресса, новый руководитель которой – Карла Хэйден (Carla Hayden) – взялась за то, чтобы оцифровать свои коллекции и выложить их в открытый доступ.

    Каждая из этих организаций в каком-то смысле является конкурентом Google Books. Однако в реальности Google ушла настолько далеко вперед, что вряд ли хоть одна из них сможет соперничать с компанией на равных.

    Многие эксперты сходятся во мнении, что Google потребовалось несколько сотен миллионов долларов на создание Google Books, и ни одна другая организация не пойдет на такие расходы, чтобы получить альтернативу.

    Однако у некоммерческих организаций есть преимущество, которого нет у Google: они неподвластны переменам приоритетов, которые могут произойти с гигантской корпорацией. Все их внимание сосредоточено на книгах, и им не приходится распылять свое внимание на управление одним из крупнейших рекламных бизнесов в мире или операционной системой для смартфонов. В отличие от Google, некоммерческим организациям всегда будет интересно искать новые способы связывать читателей с книгами, которые помогут, как сказал бы Кафка, растопить замерзший разум.

    Не раз в истории нескончаемые судебные процессы превращались в мощные водовороты, которые затягивали и топили всех участников дела. (В литературе это наиболее ярко показал Диккенс в «Холодном доме»: растянувшееся на несколько поколений дело «Джарндис против Джарндиса» привело к тому, что все стоящие на кону активы ушли на оплату судебных расходов.)

    В мире высоких технологий такие дела, как знаменитый иск о нарушении антитрестового законодательства, преследовавший IBM долгие годы, могут вставать на пути корпораций и давать конкурентам шанс заполнить освободившуюся нишу. Сама Google достигла лидерства в области онлайн-поиска, пока Microsoft отбивалась от атак Министерства юстиции.

    Однако эта «битва за книги» никогда не была для Google чем-то принципиальным, на что бросались все доступные ресурсы. Да и вообще, тратой ресурсов это не назовешь. Этот конфликт дал Google ценный урок.

    Как отметил Джеймс Глейк из Гильдии авторов, Google запускала проект Books с позиции «лучше извиняться потом, чем сейчас просить разрешения», которая распространена в сегодняшнем мире стартапов. В каком-то смысле корпорация повела себя как Uber в мире интеллектуальной собственности, став сервисом для совместного чтения и ожидая, что весь мир станет видеть в Google то же, что она видела в себе – орден добрых волшебников, служащих всему человечеству. Это был наивный взгляд на мир, и последовавший вскоре жесткий отпор стал для компании шоком.

    К счастью, Google вынесла из этого опыта урок, который оказался невероятно полезен стремительно растущей компании: технологии – это хорошо, но они не могут решить всех проблем. Иногда нужно заниматься политикой: общаться с заинтересованными сторонами, искать союзников, находить компромисс с оппонентами.

    В результате этого Google собрала команду лоббистов и юристов, которые помогли компании выйти из других сложных ситуаций – например, путаницы с авторскими правами в YouTube – с гораздо лучшим результатом и меньшими потерями. Компания выросла, стала взрослее. Она осознала, что стремиться в космос можно всегда, но не всегда удается туда попасть.

    Возможно, что когда-нибудь Google предпримет еще одну попытку решить проблему сиротских работ. Однако сейчас, похоже, компания ждет, пока ее примеру последуют другие. «Не думаю, что мы можем что-то изменить при нынешней правовой базе», – отмечает Джаскевиц.

    Пока я работал над статьей, я не мог перестать думать о книге, которую прочитал несколько лет назад. Это был эксцентричный, до занудства внимательный к деталям роман «Круглосуточный книжный мистера Пенумбры» (Mr. Penumbra’s 24-Hour Bookstore) Робина Слоуна (Robin Sloan). В ней рассказывается о тайном обществе, которое пытается разгадать вековую загадку, связанную с книгопечатанием и типографией. Google играет в романе критически важную роль, пока главный герой работает над поиском разгадки. Оказывается, что даже необъятной информационной базы компании недостаточно, чтобы все получилось. Затем протагонист находит одну книгу, которая помогает разрешить загадку. Все, что было нужно – и этой фразой Слоун заканчивает свое произведение – «нужная книга в нужное время».

    Роман напоминает, что возможности инженерной мысли Google не безграничны. Разделение задач на простые этапы, представление их в виде данных и применение эффективных методик – это хороший способ работать. Так вы сможете серьезно продвинуться в деле создания «библиотеки утопии», но не сможете преуспеть.

    Но даже если и сможете, жизнь не превратится в утопию. Вас все еще будет ждать тяжелая работа. Ведь превратив книгу в данные, вы упрощаете процесс поиска цитат и сниппетов, но никак не изменяете процесс чтения книги – этот неповторимый способ временного перемещения опыта одного человека в разум другого.

    До сих пор для полноценного чтения книги требуется участие человека с обоих сторон. Индексная система вроде Google Books помогает нам находить и анализировать текст, но пока что использование этих фрагментов остается нашей заботой. Возможно, стремлению оцифровать все книги было предначертано обернуться разочарованием и не преобразить жизнь людей.

    Как и многие другие продвинутые в техническом плане библиофилы, Слоун активно использует Google Books, однако его расстраивает то, что сервис перестал развиваться и поражать воображение. «Я бы хотел, чтобы Google Books был красивым и полезным сервисом, который бы развивался и постоянно становился еще интереснее», – мечтает он. Кроме того, Слоуна волнует еще один вопрос: ясно, что Google по закону не может сделать полные тексты книг доступными для всех желающих – но что если дать прочитать их машинам?

    Сегодня инструменты машинного обучения, способные анализировать тексты разными способами, развиваются очень быстро. Слоун отмечает, что «культура вокруг этой индустрии во многом напоминает то, что происходило в “Домашнем компьютерном клубе” и первых интернет-компаниях». Однако для продвижения в исследованиях ученым нужно снабжать свои программы огромным количеством данных.

    «Если бы Google могла взять этот корпус данных, разделить его по жанрам, темам, временным промежуткам и всем остальным возможным категориям и затем предоставить доступ к базе инженерам и энтузиастам машинного обучения, из этого могло бы получиться что-то интересное – сейчас даже невозможно сказать, что», – объясняет Слоун. Он предположил, что Google уже делает это внутри компании. Джаскевиц и другие специалисты Google комментировать эти догадки отказались.

    Возможно, когда очередная нейросеть из будущего получит сознание и почувствует присущий Кафке экзистенциальный кризис, она сможет найти утешение в правильной книге, которая поможет растопить лед. Или, в отличие от нас эта сеть сможет прочитать все отсканированные нами книги – действительно прочитать, как это и нужно делать. Что бы она тогда сделала?

    Google Lens распознает миллиард объектов

    За сравнительно недолгое время своего существования Google Lens практически незаметно для большинства пользователей превратился в мощнейший инструмент распознавания различных объектов. Число распознаваемых объектов возросло с четверти миллиона до одного миллиарда. Впрочем, Google Lens способен в основном распознавать вполне определенные предметы. Другие же так и остаются неизвестными для обучаемого искусственного интеллекта, управляющего работой этого инструмента.

    Google Lens — инструмент для камеры, работа которого обеспечивается искусственным интеллектом. Читателям, которые следят за развитием выоских технологий на сайте и в Telegram-канале новостей, несомненно интересно будет узнать, что сейчас Google Lens уже способен распознавать более одного миллиарда объектов. Об этом развивающая ОС Android компания сообщает в своем блоге. Впрочем, отмечает Шэннон Ляо (Shannon Liao) на страницах theverge.com, остаются предметы, которые Google Lens не распознает.

    Google Lens хорошо распознает представленные в продаже товары

    Инструмент Google Lens дебютировал в минувшем году. Он работал с Photo и Assistant и узнавал примерно 250 тысяч объектов. Развитие началось год спустя, когда распознавание текста Google Lens стали тренировать на этикетках товаров. Распознавая текст, Google Lens стал различать намного больше товаров. Ему также показывали данные множества снятых смартфонами фотографий и, таким образом, возможности Google Lens существенно возросли.

    Google Lens не распознает старые книги и игровые консоли

    1 миллиард объектов, распознаваемых программным инструментом, обеспечивается товарами, доступными в Google Shopping. И это означает, что в их числе не входят редкие объекты, к которым относятся, к примеру, игровые консоли девяностых годов минувшего века и первые редакции малораспространенных книг. Таким образом, Google Lens — инструмент, который полезен преимущественно тем пользователям, которые хотят побольше узнать о предлагаемом товаре.

    Кроме представленных в продаже товаров, Google Lens также способен распознавать людей, названия сетей Wi-Fi и геометрические фигуры. Возможность автоматического подключения к сети Wi-Fi посредством фото лейбла роутера была анонсирована еще на I/O 2020. В текущем году к ней добавилась также возможность копирования информации с визитной карточки с последующим занесением ее в список контактов телефона.

    Google создала новую систему умного распознавания изображений

    Google анонсировал сервис Cloud AutoML, который сделает машинное обучение более доступным для приложений любой сферы: от медицины до розничной продажи. Сервис будет доступен как отдельным клиентам, использующим Google Cloud, так и разработчикам приложений, которые будут платить пропорционально количеству обращений их приложения к библиотеке программной Google.

    «В настоящее время можно по пальцам пересчитать коммерческие организации, у которых есть доступ к специалистам и средствам, чтобы оценить машинное обучение и ИИ, — сказала главный научный сотрудник Cloud AI Фэй-Фэй Ли на пресс-конференции в преддверии анонса. — Мне было ясно сразу, когда я присоединилась к разработке, что нам необходимо увеличить масштабы применения ИИ».

    Разработчики сначала получат доступ к инструментам распознавания и тегирования изображений Cloud AutoML Vision. Пользователи смогут загрузить группы изображений и спокойно откинуться в кресле, пока программа Google разметит их и обучит систему на базе этого контента. Как утверждает глава исследований и развития Джиа Ли, хотя на рынке Google уже предлагал инструменты машинного обучения, например, Vision API, но подобные инструменты не смогли предоставить тот же уровень точности. К примеру, с помощью этих инструментов можно было отмечать фотографии с облаками. Но с использованием нового инструмента Google разработчики могли бы распознавать, какого именно вида облака изображены на фотографии: кучевые, перистые или дождевые. Эта дополнительная деталь позволит пользователям решить больше специфических проблем, используя машинное обучение, говорят в компании.

    Самосовершенствование алгоритма распознавания в процессе работы сервиса решает одну из проблем, на которую ученые тратят много времени. Но остается неясным, какой спрос на рынке на подобную помощь от Google Cloud и во сколько ее можно оценить. Хотя Ли утверждает, что «составные элементы используют только широко применяемые решения», у многих разработчиков при создании приложений может не хватить средств или ресурсов, чтобы оплатить новый сервис Google. Поэтому алгоритмы машинного обучения пока находятся в свободном онлайн-доступе, что поможет рассчитать потребность в них.

    Позиция Google такова, что на рынке существуют миллионы разработчиков, но только небольшая часть из них специализируется на машинном обучении или имеет доступ к дорогим специалистам по обработке и анализу данных. Покупая Cloud AutoML Vision, разработчики получают доступ к собственным инструментам Google по распознаванию изображений, являющимся лидером в своей категории. Перед анонсом Google учел отзывы потребителей тестовой версии, включая URBN, Disney Consumer Products and Interactive Media и the Zoological Society of London.

    Добавить комментарий