Представлен чип для системы машинного зрения без камер


Оглавление (нажмите, чтобы открыть):

Digitrode

цифровая электроника вычислительная техника встраиваемые системы

Как выбрать камеру для приложений машинного зрения

Когда вы настраиваете систему машинного зрения, ваш выбор камеры будет зависеть от объектов, которые вы хотите, чтобы наблюдала система, необходимой скорости, освещения и температуры, а также доступного пространства. И не стоит забывать – все это стоит денег.

В данном материале мы поможем советами с выбором камеры для приложений машинного зрения, предоставив небольшой обзор видов существующих решений и параметры, по которым следует делать свой выбор.

Машинное зрение vs Системы наблюдения

Для большинства применений в автоматизации производства или в медицинской сфере вам понадобится камера машинного зрения. Камера машинного зрения захватывает данные изображения и отправляет их без сжатия на ПК. По этой причине картинки выглядят менее «красиво», чем с мобильных телефонов. В бытовых камерах данные изображения сжимаются и сглаживаются, поэтому они выглядят хорошо, но это не обеспечивает качество, необходимое для обнаружения дефектов и чтения кода.

Сетевые камеры или IP-камеры записывают видео и сжимают его. Их преимуществом является надежность и устойчивость к вибрации и скачкам температуры. Они также устойчивы к плохим условиям освещения и прямого солнечного света. IP-камеры в основном используются в устройствах видеонаблюдения и интеллектуальных системах дорожного движения.

Сканирование области vs Линейное сканирование

Если у вас высокоскоростное приложение с конвейерной лентой, вам понадобится камера линейного сканирования. Эти камеры используют одну линию пикселей (иногда 2 или 3 строки) для захвата данных изображения. Они могут проверять качество печати газет на скорости до 60 миль в час, быстро сортировать письма и посылки в логистике, проверять продукты на предмет повреждений. Они также контролируют качество пластиковых пленок, стали, текстиля, пластин и электроники.

Если вам нужен тщательный осмотр некоторой области, камеры с зональным сканированием – ваш выбор. Они имеют прямоугольный сенсор, состоящий из нескольких линий пикселей, и фиксируют все изображение одновременно. К таким, например, относятся высококачественные basler камеры, имеющие хорошее разрешение и различные интерфейсы. Камеры с пространственным сканированием используются в системах обеспечения качества, считывания кодов, а также для сбора и размещения объектов в робототехнике. Они также интегрируются в микроскопы, стоматологические сканеры и другие медицинские устройства.

Монохромные камеры vs Цветные камеры

Монохромные камеры в большинстве случаев являются лучшим выбором, если приложение не требует анализа цвета. Поскольку им не нужен цветной фильтр, они более чувствительны, чем цветные камеры, и обеспечивают более детальное изображение.

Большинство камер цветного машинного зрения используют матрицу Байера для получения цветовых данных. Каждый пиксель имеет цветной фильтр, половина из которых зеленая, а четверть – красная и синяя. Алгоритм дебайеринга использует информацию от смежных пикселей для определения цвета каждого пикселя. Таким образом, дебейринг 2 × 2 считывает информацию из трех смежных пикселей, а дебайеринг 5 × 5 считывает информацию из 24 смежных пикселей. Поэтому, если вам нужна цветная камера, чем больше число дебайеринга, тем лучше.

В камерах CMOS (КМОП) электроника, которая преобразует свет в сигналы, встроена в поверхность датчика. Это делает передачу данных особенно быстрой. КМОП-датчики дешевле, не имеют распускания или размытия и имеют более высокий динамический диапазон. Это позволяет им, например, запечатлеть как ярко освещенный номерной знак, так и затененного человека в автомобиле на одном и том же изображении.

Поскольку датчики CCD (ПЗС) не имеют преобразовательной электроники на поверхности датчика, они могут захватывать больше света и поэтому имеют более низкий коэффициент шума, высокий коэффициент заполнения и более высокую точность цветопередачи. Эти свойства делают ПЗС-камеры хорошим выбором для приложений с низкой освещенностью и низкой скоростью, таких как астрономия.

Частота кадров – это количество изображений, которые датчик может захватывать и передавать в секунду. Человеческий мозг обнаруживает приблизительно от 14 до 16 изображений в секунду; частота кадров фильма обычно составляет 24 кадра в секунду. Для быстро движущихся приложений, таких как проверка газет, камера должна «снимать» за миллисекунды. С другой стороны, существуют микроскопические приложения, для которых требуется низкая частота кадров, сопоставимая с частотой кадров человеческого глаза.

На сегодняшний день самый популярный размер компактной камеры составляет около 30 мм с каждой стороны. Миниатюризация продолжается, и поэтому существует новый класс камер с голыми платами без корпуса и толщиной всего 6 мм. Эти камеры подходят для ограниченных по размеру и экономически эффективных приложений. Для этого требуется другая инфраструктура: компьютер на чипе вместо ПК, архитектура процессора ARM вместо x86; Linux, Windows IoT или Android вместо Windows. Некоторые настройки могут использовать интерфейс USB 3.0, но интерфейсы на основе MIPI и LVDS обеспечивают большую гибкость и компактность. Поэтому сегодня лучше купить камеру машинного зрения более современного типа с компактными размерами и широкими возможностями, чтобы повысить эффективность приложений машинного зрения.

Компьютерное зрение без камер

Ваша походка, особенности отражения радиоволн вашим телом и его термальная сигнатура позволяют искусственному интеллекту (ИИ) идентифицировать вас без помощи телекамер, пишет на портале InformationWeek Джеймс Кобиелус из компании Wikibon.

Компьютерное зрение — кошмар защитников тайны личной жизни. Наиболее ярко это проявляется в разгорающейся войне между сторонниками компьютерного зрения (распознавание лиц с помощью ИИ) и многими разработчиками инновационных контрмер, использующими ИИ, чтобы не допустить столь назойливого наблюдения.

Обычные камеры не могут видеть сквозь стены. Таким образом, доступное массовому пользователю компьютерное зрение бессильно там, где вы можете не допустить установки камер. Но подобно тому, как слепые используют другие органы чувств, чтобы компенсировать отсутствие зрения, применяющие ИИ платформы компьютерного зрения способны создавать все более точный визуальный образ даже без захвата изображения.

В более широком смысле компьютерное зрение становится суммой данных от сенсоров, которые могут быть представлены в виде визуальных шаблонов. Благодаря совершенствованию ИИ возрастает возможность создавать высокоточный визуальный портрет на основе отражаемых телом радиочастотных сигналов, давления на опорную поверхность, вибраций, создаваемых человеком при ходьбе, и его теплового излучения. Все это по отдельности и вместе взятое представляет уникальную сигнатуру, которую можно использовать, чтобы «увидеть» человека, даже если он успешно скрывает от любопытных глаз лицо, голос, отпечатки пальцев и геном.

Вскоре может отпасть необходимость устанавливать везде камеры, чтобы скомпоновать достаточно хорошие картины происходящего внутри и вне помещений. Ниже приводится краткий обзор появившихся в результате недавних исследований инноваций, большинство которых используют усовершенствованный ИИ.

Распознавание по отраженному сигналу WiFi. Даже если вы в комнате один, дверь закрыта, а окна занавешены, вас можно идентифицировать по тому, как ваше тело отражает сигналы Wi-Fi. Исследователи из MIT разработали сканер, в котором объединены источник излучения Wi-Fi, сенсоры и алгоритмы ИИ. Он моделирует действия человека, находящегося по другую сторону непрозрачного препятствия. Подобно эхолокатору эта технология, получившая название RF-Pose, определяет схематичные двумерные фигуры людей и другие объекты на основе шаблонов отражаемых ими сигналов Wi-Fi. При корреляции и перекрестном обучении с приложениями ИИ, распознающими походку, жесты и движения, по этим схематичными фигурам можно идентифицировать человека в 83% случаев.

Распознавание походки по давлению на опорную поверхность. В Университете Манчестера на основе ИИ создана система распознавания походки SfootBD почти со 100%-ной точностью. Она с помощью пассивного сенсора анализирует распределение веса, скорость и манеру ходьбы. Сигналы о давлении на опорную поверхность соотносятся с заснятой камерой высокого разрешения манерой ходьбы. Для тренировки ИИ исследователи создали базу данных сигналов о походке более чем 120 человек, измеряя давление на пол. Данные собирали в публичных местах (контрольные пункты в аэропортах, рабочие места) и в домашних условиях. Алгоритм был проверен на контрольной группе имитаторов походки, в результате чего он смог распознавать попытки копировать чужую походку.

Распознавание активности по температуре. В этой технологии нет ничего нового. Она используется при автоматизации строительства, управлении энергетическими объектами, в системах безопасности и контроля доступа. Сенсоры фиксируют выделяемое человеком или иным объектом тепло в инфракрасном диапазоне. Это один из множества параметров, определяемых новым поколением суперсенсоров, которые улавливают также звуки, вибрации, свет и электромагнитное излучение. Google является одной из многих компаний, вложивших большие средства в ИИ, необходимый для обработки всех этих данных в их совокупности, чтобы с высокой точностью распознавать действия человека и другую активность в помещениях и вне их.

Генеративная реконструкция перспективы. Исследователи строят модели ИИ, известные как генеративные сети запросов (generative query networks), которые способны посмотреть на объект под различными углами и описать, как он будет выглядеть в иной перспективе. DeepMind, дочерняя компания Alphabet, создала ИИ, который может в автономном режиме сформировать управляемую данными визуальную картину мира и даже с высокой точностью определить, что находится там, где картина нечеткая. Исследователи протестировали свой подход на квадратном столе, виртуальной руке робота и простом лабиринте. Они используют генеративно-состязательную сеть (generative adversarial network, GAN), в которой генеративная сеть создает сцены, а дискриминативная сеть пытается оценить степень их правдоподобия. GAN эффективно строит уровни деталей сцены, включая формы объектов, их расположение и цвета, используя векторное представление.

Понятно, что такие инструменты могут повсеместно использоваться правоохранительными органами, спецслужбами и военными. Но это не обязательно плохо. Видеокамеры вторгаются в личную жизнь и часто неприменимы там, где тем не менее имеется законная общественная потребность в наблюдении:

  • они могут помочь полиции определить наличие вооруженных людей в соседнем помещении и их точное местонахождение, устраняя элемент неожиданности и сводя к минимуму вероятность попасть в засаду;
  • они могут сделать экономически оправданными постоянный мониторинг и обеспечение безопасности каждого помещения во всех жилищах, офисах и других зданиях без затрат на установку там видеонаблюдения;
  • потенциально они могли бы помочь сиделкам вести непрерывный мониторинг амбулаторного статуса престарелых, инвалидов и людей с различными заболеваниями без видеокамер, которые воспринимаются как посягательство на частную жизнь.

Камеры машинного зрения – альтернатива IP-камерам?

Различия между промышленными и IP-камерами

Полоса пропускания и степень сжатия
IP-камеры разработаны для работы в среде с низкой пропускной способностью, поэтому их легко интегрировать в существующие компьютерные системы без риска для целостности таких систем. IP-камеры настраиваются удаленно и передают сжатый видеопоток (MPEG-4, MJPEG или H.264). Приоритет в оптимизации изображения отдается эффектной картинке на мониторе оператора.

Камеры машинного зрения, выступая компонентом закрытых систем обработки изображений, напротив, предназначены для работы в среде с высокой пропускной способностью и обеспечивают оптимальное качество видео. Этим объясняется одно из основных технических различий – сжатие изображения. То есть если IP-камера сильно сжимает картинку, чтобы сэкономить ресурсы при ее передаче, промышленная камера отправляет «сырые» (raw) данные, которые будут впоследствии обработаны мощным процессором на сервере. Такой подход позволяет сохранить мельчайшие детали исходного изображения, что незаменимо, например, в системах визуального контроля качества поверхностей. Если дефект находится на том участке изображения, данные для которого отсутствуют, то система контроля качества ошибочно пропустит дефектный компонент как соответствующий стандарту качества, то есть не справится со своей задачей.

Многопотоковость
IP-камеры могут передавать сразу несколько потоков, сжатых по различным алгоритмам (H.264, MPEG-4, MJPEG). Каждое конечное устройство затем принимает совместимый видеопоток. Оператор может выбрать видеопоток с высоким разрешением MJPEG, который позволит различать на мониторе даже мелкие детали, тогда как максимально сжатый видеопоток в формате H.264 передается на архивирование.

Камеры машинного зрения передают данные уже после обработки и анализа, например для целей ведения производственной статистики, оптимизации производительности оборудования и настройки оборудования для устранения повторяющихся ошибок. По сути, изображения сохраняются только после просмотра.

Совместимость с системами реального времени
Совместимость с системами реального времени предполагает, что камера начнет захват изображения немедленно после получения сигнала от триггера (то есть через заранее известный и хорошо прогнозируемый отрезок времени), после чего изображение будет сразу передано в систему, отправившую запрос. Приемлемый диапазон задержки может варьироваться от микросекунд до секунд. В камерах машинного зрения возможность передачи изображений в режиме реального времени является обязательным условием. Например, при осуществлении визуального контроля качества изделий, движущихся по конвейеру с высокой скоростью, задержка в работе системы приведет к сбою контроля качества. Таким образом, задержка между получением сигнала и отправкой изображения является критически важной. Не менее важна и предсказуемость времени отклика, то есть консистентность работы комплекса. Например, для системы, генерирующей 300 кадров/с, задержки больше нескольких микросекунд категорически неприемлемы. Однако и за пределами промышленных объектов предъявляется это требование – в частности, в системах контроля дорожного движения камеры могут быть синхронизированы со светофором (фиксация проезда на красный свет).

Многие IP-камеры не предусматривают работу в режиме реального времени. Обычно системы видеонаблюдения, как, например, те, что установлены в банках для мониторинга помещений, эксплуатируются в режиме автоматического захвата и передачи изображений для получения непрерывного видеопотока, без необходимости срабатывания по триггеру. Камера, настроенная на получение 30 кадр/с, использует внутренний генератор импульсов для захвата кадра с интервалом 1/30 секунды. В некоторых же случаях желательно запускать захват кадра в момент, определяемый внешними событиями, например внешним триггером, который срабатывает при пересечении автомобилем выбранной границы.

Генерирование сигналов ввода-вывода
Большинство камер машинного зрения оснащены интерфейсом ввода-вывода для управления внешними устройствами. Например, для включения света в помещении только на время захвата изображения, когда человек входит в зону действия камеры.

Области применения

Промышленные камеры
Системы обработки изображений часто используются для контроля качества различной продукции, например пищевых продуктов. Благодаря этим изображениям производитель может принимать обоснованные решения, что без промышленной камеры было бы невозможно.

Другими областями применения камер машинного зрения являются электроника, робототехника и полупроводниковая промышленность.

Промышленные камеры передают несжатые (raw) изображения на ПК, где они обрабатываются при помощи мощных процессоров, которые невозможно разместить внутри камеры. При этом качество изображений при передаче не страдает, так как полностью отсутствует сжатие.

IP-камеры
Ввиду своих технических характеристик IP-камеры прекрасно подходят для решения задач видеонаблюдения. Они могут применяться как классические камеры видеонаблюдения для предотвращения краж, воровства и вандализма. Кроме того, их используют для мониторинга производственных процессов, а также контроля обстановки на дорогах или выявления нарушений правил дорожного движения. IP-камеры служат и для дистанционного управления машинами, автомобилями и роботами. В зависимости от области применения решающими с точки зрения оптимальной эксплуатации будут различные характеристики камеры.

Машинное зрение на практике

Идеальным решением для систем биометрической идентификации по изображению лица являются камеры машинного зрения. Рассмотрим одну из таких систем на примере контроля входа и выхода учеников на проходных Колледжа связи № 54 в Москве.

Задача
Руководство колледжа было заинтересовано в поиске альтернативы картам доступа с RFID-метками как способа идентификации посетителей. Целями построения системы машинного зрения были:

  • контроль посещаемости;
  • предотвращение передачи карт другому лицу;
  • обеспечение безопасности объекта.

Принцип работы
Система состоит из компьютеров (одного сервера и одного рабочего места оператора), камер (по две на проход – одна на вход и одна на выход), контроллеров доступа, турникетов и ПО (рис. 1). Ученики, преподаватели и персонал занесены в биометрическую базу данных.

Изображения, которые наилучшим образом подходят для последующего сравнения с картинкой, полученной камерой, а также угол съемки определяются и выбираются системой автоматически. Процедура регистрации была проведена с ми н имальным и неудобствами для учеников и преподавателей – им не пришлось позировать, поворачивать голову определенным образом и т.п.

Система использует графические сопроцессоры (акселераторы), что позволяет добиться огромной скорости обработки на оборудовании сопоставимой цены. С каждым обработанным изображением линейно увеличивается точность работы системы, так как ошибки идентификации не накапливаются.

С целью накопления и сбора реальной статистики ученикам и преподавателям было предложено по-прежнему носить с собой карту доступа и решить самостоятельно, что использовать в дальнейшем: распознавание лиц или карты с RFID-меткой. Для повышения вовлеченности учеников и преподавателей в работу системы точки доступа были оборудованы открытыми мониторами, чтобы каждый человек мог видеть процесс идентификации в режиме реального времени (рис. 2).

В результате 91% участников проекта предпочли использовать систему распознавания лиц, а не карту доступа. При проведении опроса они назвали следующие причины: «потому что так быстрее», «карту легко забыть дома, а лицо никуда не денется»; «гораздо проще посмотреть в камеру, чем шарить по карманам или в сумке в поисках карты доступа».

Во многих специальных приложениях камеры машинного зрения могут оказаться прекрасной альтернативой традиционным IP-камерам. Они предлагают ряд преимуществ, в частности в сфере распознавания лиц, где необходимы несжатые изображения. Камеры машинного зрения передают достаточный объем данных для надежной идентификации личности. Обеспечивают превосходное качество изображения. Высокая скорость съемки, которая играет важную роль во многих областях, – это, скорее, преимущество камер машинного зрения, нежели IP-камер.

MJPEG (англ. Motion JPEG)

MJPEG (Motion JPEG) — покадровый метод видеосжатия, основной особенностью которого является сжатие каждого отдельного кадра видеопотока с помощью алгоритма сжатия изображений JPEG.

При сжатии методом MJPG межкадровая разница не учитывается.

Камера машинного зрения OpenMV M7

OpenMV M7 — это система компьютерного зрения в виде компактного модуля камеры с низким энергопотреблением. Она отличается от обычных камер дополнительной начинкой с микроконтроллером для обработки изображения на лету и управления внешними устройствами. Камера OpenMV M7 позволяет сделать умную систему видеонаблюдения с распознаванием лиц, цифровое зрение для робота или систему сортировки на производстве.

Начинка


Захватом изображения занимается светочувствительная КМОП-матрица OmniVision OV7725 размером 1/3″ с разрешением 640×480 (VGA). Камера может снимать видео в 8-битном режиме оттенков серого или цветном 16-битном формате RGB565 с частотой 60 кадров в секунду. Поддерживаются форматы сжатия MJPEG, GIF и несжатое видео RAW. Рядом с камерным модулем расположена ИК-подсветка из двух светодиодов для съёмки в темноте.

Объектив с фокусным расстоянием 2,8 мм и диафрагмой F2.0 использует стандартную резьбу M12 с шагом 0,5 мм, поэтому к OpenMV M7 подходят сменные объективы от GoPro и других портативных камер.

За обработку изображения отвечает 32-битный процессор STM32F765VIT6 от компании STMicroelectronics с вычислительным ядром ARM Cortex-M7. Контроллер работает на тактовой частоте до 216 МГц и обладает блоками памяти SRAM на 512 КБ и Flash на 2 МБ.

Начинка позволяет выполнять алгоритмы компьютерного зрения разной сложности:

  • детекцию движения в кадре;
  • распознавание лиц;
  • отслеживание цветных объектов и маркеров;
  • отслеживание движения зрачков;
  • определение и считывание QR-кодов, штрих-кодов и AprilTags;
  • скоростное отслеживание линии;
  • распознавание геометрических объектов;
  • сравнение изображения с заданным шаблоном.

Для записи видео и хранения рабочих данных используются карты microSD объёмом до 32 ГБ. Скорость чтения и записи до 100 Мбит/с позволяет оперативно подгружать объекты для машинного зрения.

Программное обеспечение

Для программирования платформы используется язык MicroPython и среда разработки OpenMV IDE с поддержкой русского языка. Она объединяет в себе редактор программного кода, просмотр видеобуфера камеры и построение RGB-гистограмм в реальном времени, чтобы упростить процесс отладки.

Благодаря поддержке MicroPython вам доступна масса готовых библиотек для управления периферией и оптимизированными для микроконтроллеров алгоритмами обработки изображений. Это позволяет быстрее запрограммировать свою систему на основе существующих «кирпичиков», а не писать всё с нуля.

Подключение периферии

На OpenMV M7 предусмотрено 10 контактов ввода-вывода общего назначения (GPIO) для подключения внешних устройств. Все 10 пинов поддерживают прерывания, и 9 из них — ШИМ. Пин P6 также оснащён 12-разрядными АЦП и ЦАП для подключения аналоговой периферии. А ещё три пина предназначены для управления сервоприводами.

На пинах выдаётся логическое напряжение 3,3 В и ток до 25 мА, но они толерантны к входному напряжению 5 В (кроме пина P6).

Аппаратные интерфейсы включают в себя 1× SPI, 1× CAN, 2× I²C и 2× UART.

Питание

Плата питается через разъём Micro-USB или контакт Vin, источник определяется автоматически. При питании через USB подойдёт наш блок питания с кабелем USB (A — Micro USB). В случае питания через Vin рекомендуется входное напряжение от 3,6 до 5 В.

Выбор камеры: как подобрать камеру для системы обработки изображений?

Запутались в многочисленных функциях?

Если перед вами стоит задача проектирования системы обработки изображений, вы рискуете потеряться в бесконечном выборе моделей, технических характеристик, полезных функций и возможностей применения камер.

Вам нужен кто-то, кто поможет сделать выбор. Кто не даст потеряться в ошеломляющем количестве предложений, укажет путь к принятию правильных решений и подскажет, как подобрать подходящую камеру для вашей системы машинного зрения.

Мы предлагаем руководство, в котором подробно рассматриваются все критерии выбора камеры. Оно поможет шаг за шагом принимать правильные решения, чтобы выбрать самую лучшую камеру, соответствующую всем вашим требованиям.

Начните с объективного самостоятельного анализа. Задайте себе два вопроса:

Ответа на этот вопрос обычно достаточно, чтобы определиться, в каком из двух основных направлений двигаться дальше:

Решение 1. Сетевая или промышленная камера?

Камеры для систем обработки изображений подразделяются на промышленные камеры (камеры машинного зрения) и сетевые камеры (IP-камеры).

Сетевые камеры предназначены для видеосъемки. Они часто используются для решения классических задач видеонаблюдения, а также в сочетании с промышленными камерами. Типичные характеристики сетевых камер:

Типичные характеристики промышленных камер:

Экскурс. Способы получения изображения матричными и линейными камерами

Матричные камеры

Линейные камеры

Сетевые камеры

Решение 2. Монохромная или цветная камера?

Ответить на этот вопрос относительно просто, надо только определиться, какое изображение необходимо для решения поставленной задачи, – оно должно быть цветным для оценки требуемой характеристики, или достаточно черно-белого? Если цвет не является обязательным условием, то рекомендуется остановить свой выбор на монохромной камере, тем более что монохромные камеры отличаются более высокой чувствительностью и позволяют получать более резкие и четкие изображения. Кроме того, во многих областях, например в интеллектуальных транспортных системах, монохромные и цветные камеры часто применяются в комбинации в целях обеспечения соблюдения определенных законодательных требований, предъявляемых в конкретной стране к фотографиям, используемым в качестве доказательств.

Решение 3. Типы сенсоров, исполнение затвора, кадровая частота

На следующем этапе выбираем подходящий сенсор (на базе технологии КМОП или ПЗC) и тип затвора (глобальный или скользящий). Затем необходимо подобрать частоту кадров, то есть количество изображений, которое камера должна снять в секунду для решения поставленной задачи.

Типы сенсоров

Экскурс. ПЗC или КМОП?

Фундаментальное различие между этими двумя технологиями сенсоров заключается в их технической конструкции.

В сенсорах на базе технологии КМОП преобразование лучей света (а именно фотонов) в электронные сигналы (электроны) осуществляется с помощью электронных схем, интегрированных непосредственно в поверхность сенсора. Эти сенсоры отличаются высоким быстродействием, поскольку с них быстрее считываются данные изображения, а кроме того, они предоставляют пользователю гибкие возможности работы с набором изображений. КМОП-сенсоры широко распространены в потребительском сегменте рынка, например, представляют собой стандартную технологию для зеркальных фотоаппаратов.

В ПЗС-сенсорах все пиксели участвуют в преобразовании фотонов, то есть на его поверхности отсутствуют какие-либо электронные схемы. Благодаря этому на поверхности сенсора можно разместить больше пикселей, что, в свою очередь, означает возможность захвата большего количества фотонов. Таким образом, сенсоры этого типа отличаются повышенной светочувствительностью, что является их основным преимуществом для применения в условиях низкой освещенности, например в астрономии. ПЗС-сенсоры обеспечивают превосходное качество изображения в областях, где не требуется высокая скорость съемки, хотя они уже практически достигли максимума своего быстродействия, что обусловлено их архитектурой и способом передачи и обработки данных изображения.

На протяжении многих лет технология КМОП была настолько усовершенствована, что сегодня сенсоры на ее основе подходят для решения практически любых задач обработки изображений. Преимущества КМОП-сенсоров:

Эти характеристики помогли КМОП-сенсорам прочно занять ниши, в которых ранее доминировали ПЗС-сенсоры. Особенно сильный коммерческий аргумент в пользу современного поколения КМОП-сенсоров – это высокая скорость съемки при отсутствии потерь качества изображения.

Типы затвора

Одно простое, но решающее условие: тип затвора следует выбирать с учетом задачи, которую решает камера. Затвор препятствует попаданию света на сенсор камеры и открывается только на время экспозиции. Заданная длительность экспозиции определяет правильное «дозирование» света и указывает на то, как долго затвор остается открытым. Разница между глобальным и скользящим затвором заключается в том, как они обеспечивают экспозицию.

Экскурс. Как устроены глобальный затвор и скользящий затвор?

Глобальный затвор полностью открывается, чтобы свет попал на всю поверхность сенсора. В зависимости от кадровой частоты, съемка движущегося объекта осуществляется в виде быстрой смены кадров. Глобальный затвор станет оптимальным выбором в тех областях, где требуется снимать быстродвижущиеся объекты, например дорожно-транспортная отрасль, логистика, а также контроль качества печатных материалов.

Скользящий затвор обеспечивает построчную экспозицию матрицы. В зависимости от заданной длительности экспозиции, на изображении могут возникать искажения в случае перемещения объекта в то время, когда затвор открыт, – так называемый, «эффект плавающего затвора». Однако это не означает, что следует отказаться от скользящего затвора только потому, что объекты съемки движутся. Во многих случаях «эффект плавающего затвора» можно предупредить за счет правильной настройки длительности экспозиции в сочетании с использованием внешней вспышки.

Мастер Йода рекомендует:  Что такое линкбилдинг

Для получения дополнительной информации о типах затвора см. технический документ
Глобальный затвор и скользящий затвор: функциональные возможности и характеристики двух способов экспозиции.

Кадровая частота

Выражается в кадрах в секунду и часто обозначается «кадр/с». В случае линейных камер используется термин «частота строчного сканирования». Этот термин означает количество кадров, которые сенсор может отснять и передать за одну секунду.

Чем выше кадровая частота, тем выше быстродействие сенсора. => Чем выше быстродействие сенсора, тем больше кадров он может отснять за секунду. => Чем больше кадров, тем больше объем данных.

Решение 4. Разрешение, сенсор и размеры пикселя

Разрешение

Допустим, в технических характеристиках камеры указано 2048×1088. Что именно имеется в виду?

Эти числа означают количество пикселей в строке, в данном случае – 2048 пикселей по горизонтали и 1088 пикселей по вертикали. Если их перемножить, получим разрешение 2 228 224 пикселей, или 2,2 мегапикселя, то есть 2,2 миллиона пикселей (сокращенно – Мп).

Чтобы определить, какое разрешение требуется для решения конкретной задачи, необходимо выполнить простые математические расчеты:

Разрешение = (Размер объекта) / (Размер рассматриваемой детали объекта)

Экскурс. Как определить необходимое разрешение?

Предположим, требуется получить точный снимок цвета глаз человека ростом примерно 2 м, стоящего в конкретном месте:

Разрешение = (рост человека)/(участок глаза) = (2 м)/(1 мм) = 2.000 пикс (x;y) = 4 Mп

= > Для четкого различения на изображении объекта размером 1 мм потребуется разрешение 4 Мп.


Сенсор и размеры пикселя

Факт № 1.
Начнем с простого. Чем больше поверхность самого сенсора и отдельных пикселей, тем больше света попадает на него во время экспозиции. Свет преобразуется в сигналы, которые используются сенсором для создания и обработки данных изображения. Пока что все просто, но пойдем дальше. Чем больше эта площадь, тем выше соотношение «сигнал – шум», что в особенности касается пикселей большого размера – 3,5 мкм и больше. Более высокое соотношение «сигнал – шум» подразумевает более высокое качество изображения. Значение 42 дБ считается хорошим результатом.

Факт № 2.
Большой сенсор вмещает большее количество пикселей, а значит, обеспечивает более высокое разрешение. Реальное преимущество состоит в том, что отдельные пиксели при этом будут достаточно большого размера, чтобы обеспечить высокое соотношение «сигнал – шум», в отличие от сенсоров меньшего размера и, следовательно, меньшей площади, для которых необходимы пиксели меньшего размера.

Факт № 3.
И все же, даже большой сенсор с большим количеством пикселей большого размера сможет обеспечить высокое качество изображения только при условии использования надлежащей оптической системы. Его потенциал будет полностью реализован только в случае выбора подходящего объектива, способного передать такое высокое разрешение.

Факт № 4.
Сенсоры большого размера всегда будут более дорогостоящими, поскольку чем больше площадь, тем больше кремния требуется для их изготовления.

Смарт-камеры In-Sight

Смарт-камеры для промышленных предприятий

Cognex In-Sight – это линейка смарт-камер машинного зрения с большим количеством программируемых функций, среди которых высокоточная локализация объектов, распознавание текста, считывание штрихкодов и двумерных кодов, геометрические измерения, работа с цветом.

Решения Cognex для промышленных производств

Cognex предлагает самый широкий ассортимент систем технического зрения с семейством продуктов In-Sight. Вы можете подобрать оптимальную платформу для вашей задачи по разумной цене. Все модели In-Sight программируются и настраиваются с помощью программного обеспечения In-Sight Explorer, которое вы можете опробовать совершенно бесплатно. Кроме того, благодаря эмулятору вы сможете испытать возможности каждой камеры на реальных изображениях.

Типичные задачи для камер In-Sight – это чтение текстовой маркировки, проверка правильности сборки, измерение размеров, обнаружение дефектов, вычисление координат предметов (зрение роботов) и многое другое.

Нужна консультация по Вашей задаче?

ЗВОНИТЕ 8-800-700-35-17 (бесплатно по России), +7 (8202) 20-16-36

Имеем в наличии образцы оборудования для проведения тестов

Смарт-камеры

In-Sight 8000

  • Монохромные матрицы с разрешением от 640х480 до 2592×1944 пикселей
  • Крепление объектива C/CS
  • Фиксированное крепление
  • Тип питания: PoE
  • Компакктные размеры: 31х31х75 мм
  • Защитный корпус IP40 или IP30 (в зависимости от модели)

Алгоритм PatMax – высокоточная локализация объектов на изображении

В отличие от распространенного метода сравнения с шаблоном, PatMax математически описывает объект с помощью кривых. Это позволяет избежать привязки к пиксельной сетке и уровням яркости пикселей, что дает непревзойденную точность локализации объектов даже в условиях изменения углов, размеров, яркости и других искажений.

Алгоритм OCRMax – распознавание текстовой информации

Алгоритм OCRMax – это новый алгоритм распознавания текста от Cognex, сочетающий в себе высокое качество распознавания, производительность и простоту настройки.

Для его применения не требуется производить сложную процедуру обучения нейронных сетей или подбора параметров. Настроить алгоритм сможет даже пользователь с минимальным уровнем подготовки.

Возможности OCRMax:

  • Распознавание символов разной ширины, символов с наклоном
  • Распознавание соприкасающихся символов фиксированных шрифтов
  • Распознавание символов на зашумленном фоне
  • Распознавание строк с не фиксированной длиной

Качество распознавания на реальных производственных линиях:

  • 99.9% распознавания маркировки струйным принтером на 100000 деталях
  • Процент ложного отбраковывания за одну производственную смену снижен с 1,3% до 0,1%

Алгоритм IDMax – распознавание 1D и 2D кодов

Смарт-камеры In-Sight и сканеры штрих-кодов DataMan для чтения кодов используют запатентованные алгоритмы 1DMax + ™ и 2DMax + ™ в составе технологии IDMax. Эти алгоритмы обеспечивают высочайшее качество и непревзойденную скорость чтения кодов.

При этом технологии чтения кодов от Cognex являются экономически эффективными и привлекательными альтернативами лазерных сканеров в заводских цехах.

Машинное зрение для роботизированного контроля качества деталей

Система машинного зрения Cognex In-Sight 5403 в интеграции с роботом ABB проверяет ориентацию, размеры и вес каждой детали. Если все параметры в допустимых пределах, робот устанавливает деталь в один из свободных разъемов.

Компьютерное зрение:
технологии, рынок, перспективы

В июне 2020 года аналитический центр TAdviser и компания «Системы компьютерного зрения» (входит в ГК ЛАНИТ) представили исследование рынка решений компьютерного зрения (Computer Vision, CV), охватывающее и мировые тренды, и ситуацию в России. Согласно оптимистичному сценарию, за 5 лет объем российского рынка CV может вырасти почти в 5 раз, до 38 млрд рублей.

Содержание

Важность исследования

Компьютерное зрение и искусственный интеллект – одни из самых востребованных направлений в современном мире ИТ, — отмечает Владимир Уфнаровский, совладелец компании «Системы компьютерного зрения». — О достижениях России в этих областях известно очень немного, но при этом огромное количество разработок базируется, в частности, на российских исследованиях. Кроме того, существует множество разнообразных «мифов» вокруг КЗ и ИИ – одни считают, что компьютеры уже легко могут «видеть» и «осознавать» что-либо, превосходя человека, а другие, наоборот, не понимают, насколько уже продвинулись технологии. Мы (коллектив «ЛАНИТ-ТЕРКОМ», а затем и «Систем компьютерного зрения») занимаемся КЗ с 2006 года и очень рады, что наконец появился всеобъемлющий материал, описывающий современное состояние дел

Основы компьютерного зрения

Компьютерное зрение (Computer Vision, CV), в том числе машинное зрение (Machine Vision, MV) – это автоматическая фиксация и обработка изображений, как неподвижных, так и движущихся объектов при помощи компьютерных средств [1] . В России также используется термин «техническое зрение».

Первые попытки заставить компьютер «видеть» относятся к началу 60-х годов 20 века. Однако лишь в последние годы в связи с повышением вычислительных мощностей и быстродействия процессоров, объёмов памяти, повышением разрешающей способности и других параметров камер, развитием полосы пропускания каналов связи, а также с появлением таких технологий, как машинное и глубокое обучение (Machine/Deep Learning), искусственный интеллект AI (Artificial Intelligence) технологии CV/MV стали находить все больше применений в различных отраслях индустрии и повседневной жизни людей.

В последние годы CV стало активно использоваться в промышленности, в т.ч. в таких отраслях, как автомобилестроение, пищевая промышленность, фармацевтика, производство микроэлектронных изделий и многих других.

В расширенной версии исследования содержатся более полные сведения о технологиях компьютерного зрения, о последних тенденциях его конвергенции с искусственным интеллектом, а также о новых областях применения КЗ. Кроме того, в расширенной версии дан обзор российских компаний, работающих в различных областях КЗ. Для получения отчета направьте запрос на адрес editor@tadviser.ru

Например, в автомобилестроении применяют системы CV, чтобы считывать маркировку компонентов при сборке на конвейере. Компьютерное зрение также используется для повышения качества, в частности, для осмотра, калибровки, проверки размеров, зазоров, расстояний, а также для выравнивания деталей на линиях сборки автомобилей.

В производстве пищевой продукции системы CV могут проверять, все ли ингредиенты указаны на упаковке товара, особенно те, которые могут содержать аллергические вещества.

Фармацевтика подразумевает высокую ответственность за обеспечение безопасности, поэтому необходимо надёжно отслеживать все компоненты состава и качество готовой продукции.

При изготовлении микросхем и электронных компонентов CV используют в чистых помещениях для контроля размещения кремниевых пластин, маркировки и положения чипа интегральных схем и других элементов.

Сегодня компьютерное зрение широко применяется для многих компонентов цифровой экономики:

  • «Умный город» (Smart City),
  • Интеллектуальные транспортные системы ИТС (Intelligent Transportation System),
  • Автономные автомобили (Driverless Car) и системы помощи водителю ADAS (Advanced driver-assistance systems),
  • Беспилотные летательные аппараты (в т.ч. дроны),
  • Высокотехнологичное сельское хозяйство (Smart Agriculture),
  • Электронная медицина (eHealth)
  • Системы военного применения,
  • Аддитивное производство (3D-printing)

и во многих других. Причём, постоянно появляются всё новые области и сценарии применения CV.

Сегодняшнее развитие систем CV пока далеко от реализации всех его возможностей. Однако эта отрасль быстро развивается и диапазон его применений быстро ширится.

Задачи CV

Задачи CV заключаются, главным образом, в получении полезной информации (insight) из фото- или видеоизображений. Наиболее употребительными задачами CV могут быть:

  1. Задачи калибровки камер и оптических систем, как состоящих из одной камеры, так и набора камер
  2. Задачи определения движения по изображениям
  3. Задачи определения препятствий по ходу движения
    1. В 3D-облаке по стереокамере или набору камер
    2. По одной камере за счёт движения
  4. Задачи распознавания объектов на сцене
  5. Задачи пространственной реконструкции сцены
  6. Задачи локализации изображения в заранее известной сцене
  7. Задачи анализа отличия в наборе изображений


Технологии

В общем случае, системы CV состоят из фото- или видеокамеры, а также компьютера, на котором работают программы обработки и анализа изображений.

Если программное обеспечение по обработке изображения расположено непосредственно в камере, такая камера называется «смарт-камерой». ПО может также работать на удалённом компьютере или компьютерах, или выполняться в облаке по модели SaaS (Software as a Service).

Системы компьютерного зрения включают следующие основные компоненты:

  • подсветку объекта (не всегда требуется) и оптику (линзы и объективы)
  • сенсорную матрицу для проецирования изображения
  • системы обработки изображения, полученного с матрицы.

В необходимых случаях, например, внутри помещений, когда свет можно контролировать, может подсвечиваться часть объекта, которую необходимо инспектировать, так, чтобы нужные характеристики объекта были заметными для камеры.

Оптическая система проецирует полученное изображение в форме видимого или невидимого человеческим глазом спектра на сенсорную матрицу. Сенсорная матрица камеры преобразует изображение в цифровой образ, который затем посылается в процессор для анализа.

В большинстве случаев системы CV предназначены для работы в естественном освещении. Кроме того, системы CV могут работать в диапазонах, невидимых для человеческого глаза.

Для работы в условиях недостаточного освещения могут использоваться камеры с подсветкой, в которых кольцевой источник света обеспечивает яркое равномерное освещение объекта, когда необходимо высветить фактуру материала, мелкие детали и пр. Также освещение помогает избавиться от бликов, засветки объекта, используется в сложных условиях, например, в тумане.

Такой интегрированный источник не даёт затенения и обеспечивает ровное освещение матовых поверхностей. Сенсорная матрица располагается в камере и предназначена для фиксации изображения соответствующим образом освещённого объекта. Обычно сенсорные матрицы строятся на основе полупроводниковых приборов с зарядовой связью ПЗС, CCD (charge coupled device), либо может быть использована комплементарная технология «металл-окисел-полупроводник» КМОП, или CMOS (complementary metal oxide semiconductor).

Изображение представляет собой набор элементов – пикселей, цвет которых зависит от освещённости. Плотность пикселей (разрешение сенсорной матрицы) очень важна для корректной работы приложения компьютерного зрения. Чем больше разрешение, тем больше деталей будет на изображении, тем более точными будут измерения. Требуемая плотность пикселей зависит от размеров объекта, рабочего расстояния камеры и других параметров.

Типы систем CV и методы обработки изображений

Существует три основных типа систем CV [2] :

  • одномерные (1D),
  • двумерные (2D)
  • бъёмные (3D) системы СV.

Отдельно стоят панорамные многокамерные системы и системы «рыбий глаз» (fisheye), которые обычно относят к особому типу, а иногда, в зависимости от количества камер, их конструкции и расположению – к одному из вышеперечисленных типов.

Стереозрение

Стереозрение – один из методов извлечения информации о глубине сцены при помощи изображений с двух камер (стереопары). В основе метода лежит принцип человеческого зрения, когда мозг человека получает информацию об объёме по картинке от двух глаз. Точно так же разница в расположении пикселей в изображении с двух камер даёт информацию о глубине.

При помощи регулировки расстояния между камерами стереопары (baseline) можно регулировать требуемую глубину распознавания сцены.

Сферические и панорамные системы

Сферические (панорамные) системы «рыбий глаз» (fisheye) используются для эмуляции панорамных PTZ-камер для видеонаблюдения и для интеграции трансляционных веб-камер в 2D- и 3D-приложения геоинформационных систем (ГИС), таких как Google Earth и Google Maps [3] .

Панорамные fisheye-системы, работающие с приложениями обработки изображений облачных провайдеров, применяются, например, в системах помощи водителю (ADAS), беспилотных автомобилях, при мониторинге больших пространств и подсчёте количества людей [4] .

Многокамерные системы (массивы)

Массивы (сети) камер используются для отслеживания перемещения отдельных людей внутри помещений или в местах с ограниченной видимостью (склады в морских портах, заводские территории и пр.), а также для управления дорожным движением в интеллектуальных транспортных системах (ИТС).

Системы из небольшого количества (2 – 6) камер применяются для таких областей как:

  • Автоматизация производства,
  • Видеонаблюдение с БПЛА,
  • 3D-фильмы,
  • Интерактивные игры AR/VR,
  • Распознавание лиц, движения, идентификации и пр.

Например, использование многокамерной системы из пяти камер на конвейере при массовом производстве значительно облегчает контроль качества продукции [5] .

Библиотеки ПО компьютерного зрения

  • OpenCV (Open Source Computer Vision Library) – библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения. Реализована на языке C/C++, также разрабатывается для Python, Java, Ruby, Matlab, Lua и других языков.
  • PCL (Point Cloud Library) — крупномасштабный открытый проект для обработки 2D/3D-изображений и облаков точек. Платформа PCL содержит множество алгоритмов, включая фильтрацию, оценку характеристик, реконструкцию поверхности, регистрацию, подбор модели и сегментацию.
  • ROS (Robot Operating System) – платформа разработки ПО для роботов. Она представляет собой набор инструментов, библиотек и соглашений, которые упрощают разработки сложных и эффективных программ для управления многими типами роботов.
  • MATLAB — высокоуровневый язык и интерактивная среда для программирования, численных расчётов и визуализации результатов. С помощью MATLAB можно анализировать данные, разрабатывать алгоритмы, создавать модели и приложения.
  • CUDA (Compute Unified Device Architecture) — программно-аппаратная архитектура параллельных вычислений, которая позволяет существенно увеличить вычислительную производительность благодаря использованию графических процессоров фирмы Nvidia.

Системы и методы обработки изображений

В простых системах обработки CV обычно требуется получить количественную и качественную информацию из визуальных данных (изображений): такие параметры, как размер, цвет, количество, направление и характер движения, а также контрастные переходы в окрестностях пикселя изображения, из которых производится получение характерных черт, ХЧ (т.н. «фичи», от англ. Features). На их основе производится анализ изображения для извлечения полезной информации.

В системах обработки изображений CV используются такие методы, как машинное обучение (Machine Learning), системы глубокого обучения (Deep Learning) и нейросети (Neural Networks). Эти методы имитируют процесс распознавания и анализа, который проходит в мозге человека.

Основные подходы к решению задач СV

Основные подходы к решению задач СV:

  • Контурный анализ
  • Поиск по шаблону (template matching)
  • Поиск вне шаблонов, сопоставление по ключевым точкам (feature detection, description matching)
  • Совмещение данных (Data Fusion)

Компьютерное зрение не ограничивается только этими основными методами, например, можно выделить так называемые генетические алгоритмы, применяемые, в частности, для распознавания лиц.

Контурный анализ

Контур объекта – это кривая, соответствующая границе объекта на изображении. В этом методе анализируется не полное изображение объекта, а только его контур, что существенно снижает сложность алгоритмов и вычислений при обработке. Ограничения метода контурного анализа:

  • при одинаковой яркости с фоном объект может не иметь чёткой границы на изображении или оно может быть «зашумлено» помехами, что приводит к невозможности выделения контура;
  • перекрытие объектов или их группировка приводят к тому, что контур выделяется неправильно и не соответствует границе объекта;
  • слабая устойчивость к помехам, приводящая к тому, что любое нарушение целостности контура или плохая видимость объекта приводят либо к невозможности детектирования, либо к ложным срабатываниям.

Поиск по шаблону (Template matching)

Самый распространённый метод распознавания объектов в CV – поиск соответствия шаблонам изображений (template matching) [6] , чтобы определить, есть ли заданный объект на изображении, и, если есть, где он находится на изображении. Приложения метода: распознавание транспортных средств, прокладка маршрутов для мобильных роботов, производство и приложения в медицине, и др. Основные виды поска по шаблону:

Простое соответствие – один из основных методов нахождения нужного объекта на изображении при поиске по шаблону. Метод заключается в пошаговом сканировании шаблоном исходного изображения, при каждом шаге которого измеряется или рассчитывается степень соответствия участка изображения шаблону. В конце сканирования на изображении выделяется область, наиболее соответствующая шаблону.

  • Соответствие на базе характерных черт, «фич» (Feature-based matching)

Метод соответствия по характерным чертам, ХЧ, применим, когда как изображение, так и шаблон содержат больше соответствий по ХЧ и контрольным точкам [7] , чем по цельному образу. В этом случае, ХЧ могут включать точки, кривые или модели поверхности, которые проверяются на соответствие шаблону. Цель такой проверки – найти парные связи между целью (т.н. «референсом») и частью изображения с использованием пространственных соотношений или ХЧ.

  • Соответствие на базе областей (Area-based matching)

Методы нахождения соответствия на базе областей (Area-based), которые также называются корреляционными методами, основаны на комбинированном алгоритме нахождения характерных черт, ХЧ (feature detection), и соответствия шаблону (template matching). Такой метод хорошо работает, если шаблоны не имеют заметных общих ХЧ с изображением, поскольку сравнение происходит на пиксельном уровне. Соответствия измеряются по показателям интенсивности шаблона и изображения [8] .

В некоторых случаях нахождение прямого соответствия между шаблоном и изображением невозможно (см. рисунок ниже). Поэтому, при нахождении соответствия используются собственное значение (eigenvalue) и собственное пространство (eigenspace). Эти величины содержат информацию, необходимую для сравнения образов при разных условиях освещённости, контрастности контуров или совпадения по положению объектов.


  • Корреляция изображений (Image Correlation Matching)

В этом методе измеряются метрики подобия (similarity metric) между исходным изображением и шаблоном. В отличие от метода простого соответствия, исходное изображение и шаблон могут иметь различные интенсивности изображения или уровни шума. В этом случае сравнение производится по метрике подобия на основе корреляций между шаблоном и оригиналом.

Компьютерное зрение значительно расширяет возможности контроля качества продукции (фактически переводя контроль на новый уровень) непосредственно в производственном процессе, а не после изготовления детали или продукта [9] .

Автоматическая визуальная инспекция (определение дефектов) при помощи компьютерного зрения сегодня значительно превосходит ручные методы инспекции по точности, скорости, лёгкости выполнения и стоимости.

Термин «нейросети» (Neural networks) был очень популярен в конце 1980-х – начале 1990-х годов. Нейросети состоят из слоёв, т.н. «нейронов», которые представляют собой вычислительные узлы, имитирующие работу нейронных клеток живого организма. Эти сети могут передавать информацию только в одном направлении и могут обучаться на примерах (для классификации объектов или регрессивного анализа).

  • Глубокое обучение в системах CV

Глубокое обучение (Deep learning) может быть полезно в задачах, когда базовый элемент (отдельный пиксель изображения, одна частота сигнала, одно слово или буква) не несет большого смыслового значения, однако, комбинация таких элементов имеет полезное значение.

Системы глубокого обучения могут извлекать такие полезные комбинации без вмешательства человека (Unsupervised Feature Learning).

Глубокие нейросети (deep neural network), с более чем 1-2 слоями, ранее казалась либо нереализуемыми, либо непрактичными в использовании. До 2006 года, внешние слои нейросети были неспособны к извлечению ХЧ (features) входных изображений, поскольку алгоритмы обучения нейросетей оставались несовершенными.

На рисунке показан пример системы CV с машинным обучением на примере задачи сегментирования сцены по трём типам: «горизонтальный», «вертикальный» и «небо» [10] .

Пиксельные данные от исходного изображения с коррекцией цвета поступают на нейросеть глубокого обучения, где производится предварительная обработка изображения и распознаётся, к какому типу рельефа принадлежит каждый пиксель с известной степенью вероятности.

Пример распознавания рукописных цифр с использованием простой одноуровневой нейросети приведён на рисунке ниже [11] .

  • Калибровка камер по шаблону

Технологии калибровки камер можно разделить на 2 вида [12] :

  • Фотограмметрическая калибровка (по шаблону).
  • Калибровка по сцене.

Калибровка камер по шаблону обычно производится наблюдением за калибровочным объектом (шаблоном), геометрия которого в пространстве известна с большей точностью. Калибровочный объект обычно состоит из 2 или 3 плоскостей, расположенных под различными углами друг другу. Эти подходы нуждаются в дорогих калибровочных аппаратах и их тщательной установке.

Калибровка камер по сцене не использует калибровочные объекты, а осуществляется лишь движением камеры в статической сцене. Если изображения будут браться от тех же самых камер с фиксированными внутренними параметрами, соответствия между тремя картинками будет достаточно для получения и внутренних, и внешних параметров, которые позволят реконструировать объёмную структуру объекта.

Компьютерное зрение вне шаблонов

Наборы ХЧ для обработки изображений в компьютерном зрении могут, например, представлять собой элементы изображения, такие как точки, края, линии или границы объектов. Другие примеры ХЧ относятся к движению в последовательности изображений, к формам, представленным в виде кривых между областями изображения, или к свойствам этих областей.

  • Детектирование и распознавание объектов

Детектирование объектов – это нахождение экземпляров объектов на изображении. При распознавании объектов не только устанавливается факт наличия объекта на изображении, но также и определяется его расположение на изображении [13] . На рисунке ниже показаны примеры детектирования (слева) и распознавания объектов (справа).

Детектирование объектов предусматривает сопоставление двух и более изображений при поиске изображений уникальных объектов, например, архитектурных сооружений, скульптур, картин и т.д., обнаружение на изображениях классов объектов разной степени общности (автомобилей, животных, мебели, лиц людей и т. д., а также их подклассов), категоризация сцен (город, лес, горы, побережье и т.д.) [14] .

Приложения для детектирования объектов также весьма разнообразны: сортировка изображений в домашних цифровых фотоальбомах, поиск товаров по их изображениям в интернет-магазинах, извлечение изображений в геоинформационных системах, биометрическая идентификация личности, целевой поиск изображений в социальных сетях и многое другое.

Распознавание такого разнообразия объектов и приложений обуславливает необходимость использования методов машинного и глубокого обучения.

Некоторые другие примеры применения метода распознавания вне шаблонов: фотограмметрия, обнаружение препятствий, одновременная локализации объектов и построение карты в неизвестном пространстве (SLAM), дефектоскопия.

Фотограмметрия – это процесс создания 3D-моделей из нескольких изображений одного объекта, сфотографированного с разных углов.

Этот метод давно использовался в картографии и геодезии и стал более популярным благодаря доступности из-за увеличения мощности компьютеров. Это позволило использовать фотограмметрию в других областях:

  • создание геоинформационных систем (ГИС);
  • охрана окружающей среды (изучение ледников и снежного покрова, бонитировка почв и исследование процессов эрозии, наблюдение за изменениями растительного покрова, изучение морских течений);
  • проектирование и строительство зданий и сооружений;
  • киноиндустрия (совмещение игры живых актёров с компьютерной анимацией);
  • автоматизированное построение пространственных моделей объекта по снимкам;
  • компьютерные игры (создание трёхмерных моделей игровых объектов, создание реалистичных ландшафтов местности и пр.).

Обнаружение препятствий используется, например, в системах помощи водителю ADAS (Adnvanced Driver Assistance System), в системах управления беспилотными ЛА и пр.

В число алгоритмов ADAS входят следующие:

  • Контроль полосы движения,
  • Обнаружение объектов на пути движения и по сторонам,
  • Распознавание дорожных объектов,
  • Адаптивный круиз контроль,
  • Круговой обзор.

SLAM (Simultaneous Localization And Mapping) — метод одновременной локализации объектов и построения карты в неизвестном пространстве или для обновления карты в заранее известном пространстве с одновременным контролем текущего местоположения и пройденного пути. Он применяется в автономных транспортных средствах для их ориентации в пространстве.

Этот метод используется для пространственной реконструкции (Stereo-SLAM) во время движения транспортных средств для создания объёмных карт объектов по снимкам с одной или нескольких CV-камер [15] .

  • Дефектоскопия

Системы CV с распознаванием вне шаблонов часто используются для нахождения различных дефектов в материалах и изделиях.

  • Распознавание объектов и локализация в заранее снятой сцене

Кроме терминов «детектирование» (detection) и «распознавание» (recognition) в технологиях компьютерного зрения используются также термины «классификация» ( >[16] .

  • Классификация объекта – распознавание на изображении одной категории объекта, обычно, самой заметной. Такой вид распознавания чаще всего используется в смартфонах, оснащённых «искусственным интеллектом».
  • Локализация объекта – объект не только распознаётся, но и локализуется на исходном изображении.
  • Детектирование объекта – на изображении могут быть объекты разных классов, которые распознаются и локализуются на исходном изображении.
  • Сегментация объектов – для каждого объекта не только распознаётся его класс и его местоположение, но также выделяются границы объекта на изображении.
  • Локализация наблюдателя и контроль измерений

Алгоритмы локализации позволяют определить позицию камеры относительно сцены (локализация) и обнаруживать отличия в сцене в исторической перспективе (присутствие новых объектов в сцене и изменение охвата сцены) на уровне облака точек [17] .

В процессе локализации выполняются следующие задачи:

  • Локализация в последовательности изображений: найти положение нового изображения в ранее снятой последовательности изображений;
  • Локализация в облаках точек (3D-модели):
    • нахождение положение нового изображения в существующем облаке точек
      • с существующими изображениями, источниками для данного облака точек;
      • найти положение нового изображения с текстурированной облаком точек, с дополнительными данными от GPS (data fusion);
    • нахождение положения нового облака точек в существующем облаке через исходные изображения;

    • Обнаружение изменений на изображениях и на облаках точек.
    • Коррекция цвета и экспозиции

    Распознавание цвета в системах CV для некоторых задач помогает определить свойства материалов: из чего сделан тот или иной объект и в каком он находится состоянии? Например, на чёрно-белом фото невозможно определить, какие ягоды спелые. На цветном фото это можно определить [18] .

    Цветовое CV может гораздо точнее определить оттенок цвета, что часто требуется в различных отраслях, например, при ремонте автомобилей, в медицине и пр.

    Цветовое CV активно используется в следующих применениях:

    • Игры;
    • Инспекция медицинских препаратов и врачебная диагностика;
    • Идентификация деталей и запчастей;
    • Инспекция цветного материала (ткань, плёнка…) на соответствие заданному цвету;
    • Инспекция этикеток, наклеек и пр;
    • Сортировка отработанных материалов;
    • Удалённая сенсорика, отслеживание;
    • Биометрия, мониторинг трафика;
    • Тестирование красок и пигментов и пр.

    Совмещение данных (Data Fusion)

    Data Fusion – совмещение данных от различных источников с изображениями с камер CV с целью получения более точной и полезной информации. В CV можно столкнуться со следующими проблемами [19] :

    • Различные ХЧ можно выделить из одного и того же изображения;
    • Различные экземпляры одного типа объектов (например, «люди», «машины») могут выглядеть очень по-разному;
    • Различные экземпляры одного класса объектов могут «вести себя» по-разному, по крайней мере, временами;
    • Один и тот же объект с различных точек наблюдения (т.е. с разных камер) может выглядеть по-разному;
    • Различные комбинации всего вышеперечисленного.

    Совмещённый анализ данных с системы CV и комплекса датчиков помогает значительно повысить ценность информации, получаемой от системы CV и значительно улучшить работу приложения, её использующего. Например, системы ADAS кроме камер CV, могут оснащаться множеством различных датчиков: LIDAR, Radar, одометр, ультразвуковые датчики (см. рисунок ниже).

    Комплексный анализ данных (Fusion Algorithm) со всех датчиков и дополнительных сенсоров (Supplementary Sensor) и системы CV (Vision System) позволит сделать однозначный вывод: «По ходу движения автомобиля в 11,6 м идёт пешеход».

    Применения

    Сегодня компьютерное зрение широко применяется во многих отраслях цифровой экономики, таких как «Умный город», автономные автомобили и системы помощи водителю (ADAS), беспилотные летательные аппараты, высокотехнологичное сельское хозяйство, здравоохранение и многих других.

    Видеонаблюдение и безопасность

    Видеонаблюдение – важная часть физической безопасности. Видеонаблюдение с участием человека, по большей части, сводится к длительным периодам ожидания чего-то необычного на видеомониторе. Это очень важная работа, но очень утомительная. По оценкам психологов, среднее время удержания внимания человека на одном объекте не превышает 14 минут [20] .

    Поэтому были созданы т.н. системы интеллектуального видеонаблюдения IVS (intelligent v >[21] , задачей которых является распознавание необычных событий или предметов на кадрах видеонаблюдения (см. рисунок ниже).

    Платформа обработки изображений (Image processing) осуществляет распознавание лиц (Face detection), обнаружение движения (Motion detection), обнаружение статических объектов (Static object detection), защиту приватности (Privacy protection), отслеживание маршрута перемещения людей (Human tracking), обнаружение аномалий (Anomaly detection), оценку позы человека (Human pose estimation). При обнаружении каких-либо необычных явлений, выдаются предупреждения, объект выделяется на экране рамкой, и пр. (Warning, Emphasizing, Retrieving, Counting, и т.д.).

    В некоторых городах, таких как Лас-Вегас и Дубай, глубокое обучение в системах видеонаблюдения получило практическое применение в системах «Умного города». Например, такие системы могут информировать соответствующие службы о том, когда и где необходимо собирать мусор, обслуживать уличное освещение или управлять сигналами светофоров, например, переключать свет с красного на зелёный, если в поперечном направлении нет машин и пр [22] .

    Машинное зрение для роботов

    Промышленные роботы-манипуляторы обычно хорошо выполняют повторяющиеся рутинные задачи. Однако практически беспомощны, когда задача меняется, например, когда объект манипуляций будет другого размера или конфигурации. Машинное зрение даёт роботу возможность автоматически адаптироваться к изменениям размеров или неточностям объектов и их произвольному расположению. Таким образом, применение машинного зрения для роботов позволяет производить разные продукты, ничего не меняя в самом роботизированном комплексе и без его полного перепрограммирования.

    Автомобильная отрасль

    Доля смертей из-за автомобильных аварий составляет 2,2% от общего количества смертей в мире. Это примерно 1,3 млн. в год, или почти 3300 человек в день, не считая того, что от 20 до 50 млн. человек в год получают серьёзные травмы в результате ДТП. Причиной столь высокой смертности чаще всего является «человеческий фактор» [23] .

    Системы предупреждения о боковом трафике (Cross Traffic Alert) [24] также помогают предотвратить множество аварий, когда водитель не замечает транспорт, движущийся в поперечном направлении. Такие системы обычно строятся на базе радаров, работающих на высокой частоте (20 ГГц и выше). Однако они довольно дороги и могут устанавливаться в автомобилях высокого класса как дополнительная опция [25] .

    Компьютерное зрение способно значительно упростить такие системы и сделать их широкодоступными.

    Применение компьютерного зрения в военных целях

    Основные применения CV в военных целях следующие [26] :

    • Видеонаблюдение,
    • Автономные транспортные средства,
    • Средства обезвреживания минных полей,
    • Контроль качества при производстве боеприпасов.

    Потребительский рынок

    Дрон с компьютерным зрением, распознающий препятствия

    Компания DJI выпустила новейший дрон Phantom 4 который способен распознавать препятствия при помощи встроенной системы CV и машинного обучения. Он способен самостоятельно выбирать маршрут полёта до указанной оператором цели [27] . Процессор GPU дрона был разработан компанией Movidius.

    Компания Movidius объявила о сотрудничестве с Google в проекте внедрения глубокого обучения в смартфоны, что позволяет выполнять разработку изображений на смартфоне локально, а не оправлять большое количество графических данных в облако. В дроне DJI используется именно такая технология.

    Медицина и здравоохранение

    Применение компьютерного зрения для обработки медицинских изображений часто используется в компьютерной диагностике для планирования персональной терапии, медицинского ухода и улучшения принятия решений [28] .

    Системы с машинным обучением на базе изображений компьютерного зрения помогают врачу поставить диагноз, поскольку на изображении могут присутствовать мелкие детали, которые врач может не заметить, но такие детали могут быть распознаны системой CV с высокой степенью надёжности.

    Кроме того, изображение может быть сравнено с тысячами других подобных изображений в базе данных медицинской системы, и результат сравнения используется для более точной постановки диагноза медицинским специалистом.

    Построение 3D-изображения раковой опухоли по данным компьютерной томографии

    Компания Microsoft разработала систему CV InnerEye, которая может визуально идентифицировать и отображать на мониторе врача возможные опухоли и другие аномальные образования по данным компьютерной томографии [29] . Затем лечащий врач может более точно идентифицировать их. Для разработки InnerEye был применён алгоритм глубокого обучения на миллионах сканов компьютерной томографии разных пациентов.

    Несмотря на то, что в здравоохранении существует множество прорывов и технологических достижений, из-за особенностей работы медицины, вероятно, пройдёт ещё немало лет, прежде чем технологии CV в здравоохранении получат широкое распространение [30] .

    Сельское хозяйство

    Объем продукции сельскохозяйственного производства должен почти удвоиться, чтобы удовлетворить спрос на продукты питания для 9,7 миллиардов людей к 2050 году по данным ООН [31] . Эффективность сельского хозяйства для этого должна вырасти почти на 25%. Применение CV-технологий совместно с системами глобального позиционирования позволяет вести точное (прецизионное) земледелие (precision agriculture) [32] , которое может значительно повысить урожайность и эффективность сельского хозяйства.

    Использование беспилотных летательных аппаратов позволяет получать топографические карты местности, а применение технологий обработки изображений позволяет получать 3D-модели участков земной поверхности с возможностью определения любых геометрических размеров. Погрешность геометрических измерений при этом не превышает десятков сантиметров.

    3.7.1. Определение зрелости хлопка На больших сельскохозяйственных предприятиях, например, хлопковых или кукурузных полях, определение зрелости урожая обычно делается вручную. Такие расчёты, как правило, позволяют получить лишь приблизительную оценку и занимают много времени. Поэтому разработчики из Университета штата Теннесси (США) разработали систему CV с оснащённым камерами квадрокоптером для мониторинга зрелости хлопка [33] .

    Полученные с квадрокоптера фотографии обрабатывались с помощью алгоритма распознавания изображений, при этом удалось подсчитать урожай с точностью от 85% до 93% при использовании различных методов и средств анализа.

    Определение веса свиней

    Взвешивание свиней обычно делается только два раза за всё время их жизни: в начале и в конце откорма. Загнать животных на весы не очень сложно, но это огромный стресс для животного, а от стресса свиньи теряют вес. Если бы животноводы точнее знали, как идёт процесс откорма каждого поросёнка, то можно было бы составить индивидуальную программу откорма и определить индивидуальный состав пищевых добавок, что существенно улучшило бы общий выход продукции.

    Поэтому был разработан новый, неинвазивный метод взвешивания животных на основе системы компьютерного зрения, которая оценивает вес свиней по фото- и видеоданным с использованием машинного обучения. На основании полученных данных корректируется процесс откорма.

    CV для доения коров

    Компания «GEA Farm Technologies» разработала систему CV робота для доения коров. Система CV решает задачу точного наведения чашек насосов на соски вымени коровы (объекты), с помощью системы трекинга объектов и системы структурной подсветки, которая необходима для определения дальности от камеры до всех объектов.

    Также была разработана система для автоматического обнаружения объектов на видео и их сопровождения в межкадровом пространстве в режиме реального времени: оценка положения, параметров формы и динамики движения в каждый момент времени.

    В системе CV важными параметрами слежения за объектами являются время захвата объекта системой CV и его дальнейшее отслеживание. В разработанной CV удалось достичь времени в 3-10 мс на захват всех 4-х объектов, и 0,6 мс – на установку слежения за всеми найденными объектами. Система CV также может определять дальность до объектов в диапазоне 200-700 мм с точностью менее 2,5 мм на всём диапазоне дистанций.

    Прецизионное земледелие

    В настоящее время во всём мире получают широкое распространение решения для прецизионного (точного) земледелия (Precision Agriculture), которые за счёт точного позиционирования сельхозтехники на обрабатываемом поле и, следовательно, более точной обработке пашни, позволяют поднять урожайность на 10% и более.

    Компанией «Системы Компьютерного Зрения» разработана система точного земледелия, которая за счёт применения системы CV позволяет достичь точности позиционирования орудия обработки (имплемента) 2 см на дистанции в 6 м (см. рисунок ниже).


    Розничная торговля

    CV в сочетании с алгоритмами искусственного интеллекта позволяет ритейлерам автоматизировать процессы, которые раньше требовалось выполнять вручную. Уведомления о закончившихся товарах или неудовлетворении других требований покупателей можно получать автоматически, создав систему аналитики непосредственно в торговой точке.

    Например, компания Х5 планирует внедрить в своих магазинах системы компьютерного зрения, чтобы отслеживать наличие полного ассортимента товаров на полках и вовремя выкладывать раскупленные товары, а также контролировать длину очереди на кассе и, в случае появления большего количества покупателей в залах магазина, сразу же увеличивать количество работающих касс [34] .

    В 2020 году компания Amazon году открыла магазин Amazon Go, с решением Just Walk Out Shopping [35] , которое позволяет оплачивать товары автоматически при выходе из магазина без подхода к кассе. Камеры CV способны распознавать не только действия покупателя, когда он берёт товар с полки и кладёт в корзину, но и наоборот, когда он кладёт товар обратно на полку. В этом случае, товар удаляется из виртуальной корзины покупателя. Камеры отслеживают покупателя всё время, пока он находится внутри магазина, без распознавания лиц.

    Логистика, доставка товаров

    Анализ складских запасов

    Компания «Системы компьютерного зрения» разработала новую технологию определения объёмов древесных брёвен с помощью анализа изображений. Для получения точных данных достаточно сфотографировать штабель брёвен с двух сторон. Затем программа обработки изображений самостоятельно определит количество брёвен, плотность укладки и введёт нужные поправки. В качестве дополнительных опций можно определить количество коры, качество древесины (выявление гнили) и некоторые другие параметры [36] .

    Данная система способна обеспечить погрешность вычисления объёма древесины не более 3%. Точность измерения составляет 97-98%. Для сравнения, при ручном методе точность измерения составляет 85-95%, а при пропуске лесовоза через дорогостоящую лазерную рамку – 90-95%.

    Другие применения распознавания образов

    Компанией «Системы компьютерного зрения» разработана система контроля популяции и передвижения амурских тигров при помощи компьютерного зрения на основе распознавания особей по снимкам с фотоловушек (подробнее). Система автоматически определяет принадлежность тигра к конкретному уникальному номеру или имени по изображениям, полученным системой с фотоловушек. Система позволяет вносить информацию о каждом тигре: уникальный идентификатор, имя, пол, возраст, сколько раз был сфотографирован и карту с его фотографиями, иметь ссылки на родственных тигров и возможность проставлять эти родственные связи. Идентификация тигра осуществляется с помощью алгоритмов компьютерного зрения с использованием свёрточных нейросетей.

    Производство

    Современное высокотехнологичное производство требует особых подходов к контролю качества выпускаемой продукции. Компьютерное зрение (CV) совершило настоящий технологический прорыв и значительно расширило возможности дефектоскопии в промышленности, перевела ее на новый, более высокий уровень. Теперь технологии позволяют отслеживать качество не только после изготовления изделия или продукта, но и непосредственно во время производственного процесса. Кроме того, системы CV способны значительно упростить и ускорить дефектоскопию производственного оборудования, агрегатов и коммуникаций, находящихся в эксплуатации (подробнее).

    Будущее компьютерного зрения

    CV – быстро растущая область цифровых технологий, которая затрагивает многие стороны повседневной жизни.

    Компания Apple внедрила функцию распознавания лиц в новые модели iPhone, приобретя такие компании, как PrimeSense, RealFace и Faceshift. Американский портал AngelList, объединяющий стартапы и инвесторов, составил список из 529 новых компаний, которые работают в области компьютерного зрения [37] . Средняя капитализация таких стартапов составляет 5,2 млн. долл. Много стартапов привлекают капитал от 5 до 10 млн. долл. Портал отмечает, что поток инвестиций в компьютерное зрения нарастает. Замена человеческого зрения на компьютерное во многих областях – очень выгодное вложение капитала.

    Точность анализа видеоинформации компьютером всё время растёт и применение CV может дать большую экономию средств наряду с улучшением качества.

    Можно выделить пять основных тенденций развития CV [38] :

    1. Рост промышленных систем компьютерного зрения. CV для медицинских устройств, фармацевтики, производства пищевых продуктов, автомобильной промышленности предоставляет более высокий уровень контроля качества, а CV для промышленности, как ожидается, в 2020 году станет основным трендом в области компьютерного зрения.
    2. Облачные системы глубокого обучения. Алгоритмы глубокого обучения и классификаторы нейросетей позволят более быстро и точно проводить классификацию и распознавание изображений от систем CV. В ближайшие годы число таких разработок значительно возрастёт.
    3. Робототехника. Использование промышленных роботов стремительно увеличивается. Поэтому спрос на системы CV для роботов будет расти.
    4. Рост требований к параметрам оптики для CV, который вызван ростом требований к чёткости и разрешающей способности изображений CV. Разрабатываются и производятся сенсоры для CV-камер с большей разрешающей способностью и с большим количеством пикселей, однако, без качественной оптики эти усовершенствования будут малополезны. Поэтому разрабатываются такие инновационные решения, как микролинзы на каждый пиксель и др., которые кардинально могут повысить параметры работы оптических систем, которые уже подошли к своим технологическим пределам в традиционных решениях.
    5. Использование термальных изображений при контроле производственных процессов. Обычно термальные камеры использовались в основном для военных целей, в охранном видеонаблюдении. Термальные изображение в комбинации с CV могут обнаруживать такие аномалии в производственном процессе, которые не видны глазу или традиционным системам CV.

    Искусственный интеллект общего применения (AGI – Artificial General Intelligence)

    Термин (AGI) Artificial General Intelligence, появившийся относительно недавно, означает способность компьютера совершать абстрагированные умозаключения или, по крайней мере, имитировать этот процесс, тем самым приближая его к мышлению человека [39] . Однако AGI пока находится на самой ранней стадии развития. Абстрактное мышление остаётся пока неразрешимой проблемой для искусственного интеллекта.

    Именно по этой причине технологии AGI находятся на кривой Гартнера в самом начале подъёма «триггера инноваций».

    CV является одной из важных составляющих технологий для искусственного интеллекта AI (см. рисунок ниже).

    Рынок

    Диапазон применений CV в последние 10-15 лет значительно расширился. Компания Tractica в своём отчёте о рынке компьютерного зрения в 2014 году указывает шесть областей CV.В 2020 году в новой версии отчёта Tractica указывает уже восемь областей применения компьютерного зрения: добавлены Retail (розничная торговля) и Agriculture (сельское хозяйство).

    Мировой рынок CV

    Оценки объёма мирового рынка систем CV у различных аналитических компаний довольно сильно разнятся в зависимости от методологии исследования, таксономии и классификации технологий компьютерного зрения. Разные аналитические компании оценивают рынок по своим методикам, включая или не включая те или иные технологии и области в объём предметной оценки. Например, некоторые компании могут включать в состав технологий CV рентгеновские установки или МРТ, другие считают, что эти технологии к CV не относятся. Некоторые компании выделяют рынок распознавания образов отдельно от рынка CV, причём, по их оценкам, он превосходит рынок CV (или того, что они считают CV).

    Одни компании могут оценивать рынок CV вместе с сопутствующей технологией искусственного интеллекта (AI), другие выделяют AI в отдельный рыночный сегмент. С другой стороны, далеко не весь объём AI относится к CV.

    Все это затрудняет процесс объективной оценки рынка CV в мире, отдельных регионах и странах.

    Например, наиболее авторитетная аналитическая компания McKinsey в своём исследовании об искусственном интеллекте указывает, что границы между многими технологиями CV чётко не очерчены, поэтому объёмы рынка не удаётся точно определить.

    Так, на 2020 г. McKinsey оценивает рынок Computer Vision c большим «разбросом»: от 2,5 до 3,5 млрд. долл. Причем наибольшую долю инвестиций среди смежных технологий, где может использоваться CV, занимает машинное обучение (Machine Learning) с уровнем инвестиций в 5 – 7 млрд. долл.

    Ниже приведены оценки рынка CV, его сегментов и сопутствующих технологий от различных мировых аналитических компаний.

    Market Research Future

    Компания Market Research Future оценивает мировой рынок CV в 2020 году в 9,2 млрд. долларов США и ожидает, что к 2023 году он превысит 48,3 млрд. долл. при устойчивом росте [40] , который увеличивается после 2020 года (см. рисунок ниже).

    Marketsandmarkets

    По данным компании MarketsandMarkets лидерами рынка CV в 2023 г. будут являться следующие регионы мира [41] :

    В том же порядке располагаются и лидеры по темпам роста, причем с большим отрывом опережает Азиатско-Тихоокеанский регион (более 8% среднегодового роста).

    Компания Marketsandmarkets также оценивает рынок решений искусственного интеллекта AI для CV в 3,62 млрд. долл. в 2020 г. с ростом до 25,32 млрд. долл. в 2023 году.

    Tractica

    Компания Tractica более консервативна в своих оценках из-за более строгой сегментации технологий CV. Аналитики разделили рынок CV на три основных сегмента: программное обеспечение (Software), услуги (Services) и оборудование (Hardware) [42] .

    Tractica использует методику оценки рынка по генерируемому каждым сегментом доходу. Если в 2020 году выручка на нем составила $1,1 млрд, то в 2020-м показатель был близок уже к $2 млрд. К 2025 году выручка на рассматриваемом рынке, по оценке Tractica, достигнет $26,2 млрд.

    Maximize Market Research

    Компания Maximize Market Research не столь оптимистична относительно темпов роста рынка CV, как Market Research Future, хотя и начинает свой прогноз даже с несколько большего уровня – 10,06 млрд. долл. в 2020 году. Однако на 2024 год она прогнозирует объем рынка почти в два раза меньше – лишь 18,07 млрд. долл.

    Рынки компонентов для систем CV

    Рынок сенсорных матриц

    По данным французской компании Yole Développement [43] рынок сенсорных матриц для камер для компьютерного зрения вырастет от 2 млрд. долл. в 2020 г. до примерно 4 млрд. долл. в 2023 году при среднегодовом темпе роста CAGR 12%. Доли рынка компаний, производящих сенсорные матрицы (не только для компьютерного зрения), по данным за 2015-2020 гг. показаны на рисунке ниже.

    Абсолютным лидером на этом рынке является компания Sony, следом за которой идут Samsung и Omnivision. Этот рынок, как и рынок камер в целом, является очень динамичным и на нём происходит большое количество слияний и поглощений.

    Рынок камер

    В 2020 году объем поставок видеокамер для видеонаблюдения в мире составил около 130 млн. шт [44] .

    В Великобритании в 2013 году насчитывалось около 6 млн. камер IVS (примерно 1 камера на 11 человек) [45] .

    В китайском городе Тянцзинь (крупный промышленный центр неподалёку от Пекина) в 2015 году насчитывалось более 600 тыс. камер высокого разрешения, которые производили 50 петабайт видео ежедневно.

    Хотя многие системы видеонаблюдения всё ещё требуют наблюдения со стороны персонала, разработки в области автоматизированного компьютерного зрения в целях безопасности являются одним из самых заметных трендов [46] .

    Потребительский рынок

    Потребительский рынок (Consumer) по оценкам многих аналитиков остаётся самым крупным вертикальным рынком для компьютерного зрения и одним из самых быстрорастущих его сегментов [47] .

    Согласно данным портала Statista.com потребительский рынок искусственного интеллекта с CV вырос с 2 млрд. долл. в 2015 году до 17,7 млрд. долл. в 2020 году с CAGR 40% [48] .

    Рынок CV в России

    Как указывалось выше, рынок компьютерного зрения весьма сложен для оценки его объёма и прогноза его роста по ряду причин:

    • Неопределённость таксономии: что именно следует относить к компьютерному зрению? Некоторые компании оценивают, например, только рынок видеокамер, не включая программное обеспечение. Другие относят к компьютерному зрению только смарт-камеры со встроенным ПО обработки изображений, а отдельные платформы обработки изображений и искусственный интеллект считают другим сегментом и т.д. С другой стороны, очевидно, что далеко не все решения искусственного интеллекта используются в целях CV.
    • Несмотря на то, что технологии CV используются достаточно давно, в России рынок систем и решений CV пока нельзя считать окончательно сформировавшимся.
    • Компьютерное зрение применяется в широком спектре задач и часто его оценка производится только для каких-то определённых сегментов, например, распознавания лиц, которое, в свою очередь, также может использоваться во многих секторах рынка: охранном видеонаблюдении, ритейле, поисковых мероприятиях и пр.
    • Решения с использованием технологий CV в большинстве случаев являются органической частью других, более широких решений, например, «Умного города», и иногда бывает сложно оценить его долю в этих решениях.

    В ходе исследования был проведён опрос более чем 50 участников рынка CV. Многие из них затруднились оценить объём рынка CV в России и дать прогноз его развития на ближайшие 3-5 лет. Ответы участников опроса, которые дали оценку объёма рынка CV в России, характеризовались большим «разбросом» — от 1 до 30 млрд. руб. в настоящее время и от 5 до 100 млрд. к 2025 году.

    В расширенной версии исследования содержатся более полные сведения о технологиях компьютерного зрения, о последних тенденциях его конвергенции с искусственным интеллектом, а также о новых областях применения КЗ. Кроме того, в расширенной версии дан обзор российских компаний, работающих в различных областях КЗ. Для получения отчета направьте запрос на адрес editor@tadviser.ru


    Прогнозы темпов среднегодового роста на период от 2020 до 2025 года также имели достаточно широкие девиации: от 5% до 50% CAGR.

    По мнению аналитиков TAdviser, это обусловлено тем, что участники опроса обычно работают в определённых сегментах широкого и многогранного рынка, поэтому их оценки для определения общего объёма могут быть субъективны.

    Методология оценки

    Исходя из этих предпосылок, для оценки рынка CV России была выбрана методика многофакторной сравнительной оценки, которая используется для обработки данных о недостаточно хорошо определённых и структурированных рынках и новых технологиях.

    Данный метод предполагает сравнение объёмов других известных рынков (чаще всего мирового, а также рынка развитых стран и регионов мира) и оценку региональных рынков по другим известным параметрам, например, по доле в мировом ВВП. Полученный результат подвергается многофакторной проверке по другим косвенным данным, которая показывает степень объективности начальной оценки и даёт возможность скорректировать её. В данном исследовании такой метод оценки показал достаточно хорошую сходимость результатов.

    В оценку рынка компьютерного зрения в России были включены три его основных сегмента: программное обеспечение, услуги и оборудование. Факторы оценки: генерируемый каждым сегментом доход, а также объём продаж оборудования и ПО, относящихся к технологиям CV.

    В результате анализа тенденций развития рынка компьютерного зрения в России методом и сравнения их с мировыми трендами, оценка объёма рынка CV России в 2020 году составила около 8 млрд. руб.

    К концу 2023 года объем рынка CV в России может достигнуть и превысить 38 млрд. руб. при сохранении курса рубля на дату исследования, а также при сохранении текущих тенденций развития цифровой экономики.

    Темпы роста CAGR рынка CV в России после 2021 года, возможно, возрастут до 40% в год, при планируемых результатах реализации национальной программы цифровой экономики.

    Факторы, способствующие росту рынка CV в России

    К факторам роста использования технологий CV в России следует, в первую очередь, отнести следующие:

    • Развитие национальной программы цифровой экономики, в которой компьютерное зрение прописано отдельным пунктом в разделе «Нейротехнологии и искусственный интеллект» [49] ;
    • Потенциал российских инноваций на рынке систем автоматизации и робототехники [50] ;
    • Развитие применений CV в розничной торговле [51] ;
    • Развитие решений «Умного города» [52] , «Безопасного города» [53] и интеллектуальных транспортных систем [54] ;
    • Автоматизация промышленного производства [55] ;
    • Развитие Интернета Вещей (IoT) и промышленного интернета IIoT[56] .

    Факторы, препятствующие росту CV в России

    Некоторые эксперты считают, что влияние компьютерного зрения на экономику, социальную сферу и нашу повседневную жизнь будет значительным, однако, в России пока не хватает условий для инновационной деятельности, создания новых технологических компаний и запуска крупных проектов. Для успеха российских компаний в области компьютерного зрения нужны высококлассные специалисты, однако, по мнению этих экспертов, российская система высшего специального образования пока не справляется с требованиями рынка по подготовке профессиональных кадров в области CV [57] .

    По мнению других участников рынка, одним из основных сдерживающих факторов может быть отсутствие необходимых навыков и знаний у российских разработчиков систем CV и сопутствующего ПО [58] .

    Сдерживающим фактором для развития CV в России может быть также недостаточное развитие сопутствующих технологий широкого спектра – от исполнительных электрических механизмов до интегральных микросхем. Это препятствует развитию смежных отраслей, в которых необходимы технологии CV (например, роботостроения).

    Среди других препятствий развития CV в России, которые указывают участники рынка CV, следующие:

    • Несовершенство законодательства в сфере искусственного интеллекта в РФ;
    • Проблемы безопасности и конфиденциальности;
    • Непроработанность ценообразования и бизнес-моделей;
    • Недостаточная точность и надёжность систем;
    • Высокая стоимость разработки и внедрения;
    • Регуляторные проблемы;
    • Долгое время окупаемости;
    • Завышенные ожидания заказчиков по параметрам работы систем CV, а также их себестоимости.

    Состояние и перспективы развития CV в России

    Результаты опроса, проведённого в ходе исследования, показывают состояние рынка на 2020 и наиболее перспективные отрасли для развития компьютерного зрения на последующие 2-3 года (см. рисунки ниже).

    • Видеонаблюдение и безопасность 32%
    • Автомобили и транспорт 5%
    • Производственный сектор 17%
    • Оборонный сектор 8%
    • Потребительский рынок 5%
    • Медицина и здравоохранение 14%
    • Сельское хозяйство 3%
    • Розничная и оптовая торговля 10%
    • Почта, логистика, доставка товаров 3%
    • Другое 3%

    Наиболее перспективные отрасли для применения CV в России по результатам опроса в ходе исследования:

    • Видеонаблюдение и безопасность 28%
    • Автомобили и транспортные средства 16%
    • Производственный сектор 16%
    • Оборонный сектор 12%
    • Потребительский рынок 8%
    • Медицина и здравоохранение 28%
    • Сельское хозяйство 4%
    • Розничная и оптовая торговля 8%

    Экономический эффект от использования систем компьютерного зрения

    • Снижение затрат

    Многие предприятия используют ручную проверку качества изделий, что приводит к высоким затратам на оплату труда. Системы CV, при их правильной интеграции, могут выполнять задачи контроля качества быстрее и точнее, чем человек. Расчёт эффективности выполняется в каждом конкретном случае, каких-то общих шаблонов здесь не существует.

    Снижение времени на контроль качества или сортировку изделий при массовом производстве позволяет значительно повысить скорость производства и, следовательно, общую производительность труда. Кроме того, не выявленное заранее несоответствие изделия заданным параметрам может вызвать остановку производственной линии и, следовательно, затраты времени и труда на её обслуживание и повторный запуск. Компьютерное зрение способно устранить эти потери.

    • Сбор данных и отслеживание параметров

    Сбор данных от систем CV и их интеграция в программные решения систем управления производственными процессами MES (Manufacturing Execution System) даёт глубокое понимание производственного процесса, облегчает анализ и нахождение путей его усовершенствования. Такие усовершенствования можно отслеживать и затем учитывать их в общей оценке эффективности внедрения систем CV.

    Системы CV обеспечивают то, что на выходе производственных линий будут появляться только точно соответствующие параметрам качества изделия. Часто именно этот аспект является решающим при внедрении систем CV. Степень удовлетворённости конечного потребителя и общественное мнение о качестве и надёжности изделий предприятия сложно оценить в терминах экономической эффективности, однако, с точки зрения маркетинга это очень важный аспект.

    • Снижение непродуктивных затрат

    Производители часто закладывают некоторый уровень непродуктивных затрат (потерь) в стоимость производства. Например, при выпуске расфасованных жидкостей, производители закладывают некоторые объёмы сверх положенных по номиналу, поскольку недолив на несколько процентов приведёт к полной отбраковке ёмкости на этапе выходного контроля, а наоборот, излишний объем жидкости в большинстве случаев не приведёт к потерям номинального объёма. Использование систем CV способно значительно снизить допустимый допуск на излишний объем расфасованной продукции и уменьшить непроизводительные затраты.

    Это один из основных факторов мотивации при внедрении систем CV. Устранение операторов из вредных сред и замена их на системы CV позволит сократить затраты на оплату труда и повысить безопасность сотрудников, т.е. снизить возможные потери на выплату страховок и компенсаций.

    Пример оценки эффективности внедрения CV

    Рассмотрим онлайновый маркетплейс, где пользователи продают одежду, бывшую в употреблении. Для этого пользователям портала необходимо загрузить несколько фото одежды и дать короткое описание изделия [59] .

    Правила маркетплейса предписывают, что можно предлагать к продаже только новую либо мало ношенную одежду, и именно одежду, а не гаджеты, например. Кроме того, предпочтения могут отдаваться известным брендам одежды с доказанным качеством. Недостаточно качественные фото, даже при удовлетворении прочих требований, не подлежат публикации. Для этого в штате маркетплейса имеется несколько модераторов, которые оценивают пригодность того или иного объявления для публикации.

    Предположим, что в штате маркетплейса для выполнения этой работы имеется четыре модератора, которые должны просматривать 150 тыс. уникальных изображений в день, загружаемых пользователями на сайт. Допустим, что 15% из них будут отбракованы из-за низкого качества контента (т.е. 22500 картинок). Каждому модератору требуется примерно 10 секунд, чтобы оценить пригодность изображения для публикации.

    Зарплата модератора составляет 12 долларов в час, каждый модератор работает 8 часов в день.

    Несложный расчёт показывает, что при идеальных условиях модераторы могут отсмотреть не более 11520 картинок (т.е. 8%) из 150 тыс. загружаемых на сайт ежедневно.

    Что может предпринять маркетплейс в такой ситуации? Есть три возможных варианта:

    1. Нанять больше модераторов, тем самым значительно увеличив накладные расходы, что неизбежно повлечёт увеличение размера комиссии маркетплейса и, следовательно, снижение количества пользователей.
    2. Разработать методы, позволяющие сократить количество изображений, подлежащих модерации.
    3. Применить технологию распознавания образов в системе CV, которая будет брать на себя большинство рутинной работы (например, 90%), оставляя человеку (модератору) только наиболее сложные случаи (10%).

    Расчёты показывают, что при выборе третьего варианта экономится 73% ручной работы, что даёт экономию в 6850 долл. в месяц. Компания Cognex приводит несколько собственных кейсов сокращения затрат при использовании систем CV в различных отраслях производства.

    • Известный автопроизводитель внедрил систему CV для контроля производственного оборудования, что дало возможность сократить несколько позиций по обслуживанию с оплатой около 5000 долларов в месяц. Внедрение системы CV окупилось за 6 месяцев. Оценка общей эффективности составила около 100 тыс. долларов в год.
    • Внедрение роботов с компьютерным зрением на производственном предприятии дало возможность сократить стоимость часа рабочего времени на 15 долларов в пересчёте на одного рабочего. Экономия в год составила около 160 тыс. долларов.
    • Применение компьютерного зрения дало производственному предприятию в США возможность избавиться от использования дорогостоящей оснастки производственной линии для точного позиционирования обрабатываемых изделий. Это дало возможность предприятию экономить около 120 тыс. долларов в год.

    Машинное зрение. Что это и как им пользоваться? Обработка изображений оптического источника

    Машинное зрение — это научное направление в области искусственного интеллекта, в частности робототехники, и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.

    Исторические прорывы в машинном зрении

    • 1955 год – Оливер Селфридж. Статья «Глаза и уши компьютера».
    • 1958 год – Фрэнк Розенблатт. Компьютерная реализация персептрона.
    • 1960-е годы – первые системы обработки изображений.
    • 1970-е годы – Лавренсе Робертс. Концепция машинного построения трёхмерных образов объектов.
    • 1979 год – Ганс-Хельмут Нагель. Теория анализа динамических сцен.
    • 1990-е годы – Первые беспилотные системы управления автотранспортом.
    • 2003 год – Корпоративные системы распознавания лиц.

    Компоненты системы машинного зрения

    • Одна или несколько цифровых или аналоговых камер (черно-белые или цветные) с подходящей оптикой для получения изображений
    • Программное обеспечение для изготовления изображений для обработки. Для аналоговых камер это оцифровщик изображений
    • Процессор (современный ПК c многоядерным процессором или встроенный процессор, например — ЦСП)
    • Программное обеспечение машинного зрения, которое предоставляет инструменты для разработки отдельных приложений программного обеспечения.
    • Оборудование ввода-вывода или каналы связи для доклада о полученных результатах
    • Умная камера: одно устройство, которое включает в себя все вышеперечисленные пункты.
    • Очень специализированные источники света (светодиоды, люминесцентные и галогенные лампы и т. д.)
    • Специфичные приложения программного обеспечения для обработки изображений и обнаружения соответствующих свойств.
    • Датчик для синхронизации частей обнаружения (часто оптический или магнитный датчик) для захвата и обработки изображений.
    • Приводы определенной формы используемые для сортировки или отбрасывания бракованных деталей.

    Машинное зрение сосредотачивается на применении, в основном промышленном, например, автономные роботы и системы визуальной проверки и измерений. Это значит, что технологии датчиков изображения и теории управления связаны с обработкой видеоданных для управления роботом и обработка полученных данных в реальном времени осуществляется программно или аппаратно.


    Обработка изображений и анализ изображений в основном сосредоточены на работе с 2D изображениями, т.е. как преобразовать одно изображение в другое. Например, попиксельные операции увеличения контрастности, операции по выделению краёв, устранению шумов или геометрические преобразования, такие как вращение изображения. Данные операции предполагают, что обработка/анализ изображения действуют независимо от содержания самих изображений.

    Компьютерное зрение сосредотачивается на обработке трехмерных сцен, спроектированных на одно или несколько изображений. Например, восстановлением структуры или другой информации о 3D сцене по одному или нескольким изображениям. Компьютерное зрение часто зависит от более или менее сложных допущений относительно того, что представлено на изображениях.

    Также существует область названная визуализация, которая первоначально была связана с процессом создания изображений, но иногда имела дело с обработкой и анализом. Например, рентгенография работает с анализом видеоданных медицинского применения.

    Наконец, распознавание образов является областью, которая использует различные методы для получения информации из видеоданных, в основном, основанные на статистическом подходе. Значительная часть этой области посвящена практическому применению этих методов.

    Таким образом, можно сделать вывод, что понятие «машинное зрение» на сегодняшний день включает в себя: компьютерное зрение, распознавание зрительных образов, анализ и обработка изображений и т.д.

    Задачи машинного зрения

    • Распознавание
    • Идентификация
    • Обнаружение
    • Распознавание текста
    • Восстановление 3D формы по 2D изображениям
    • Оценка движения
    • Восстановление сцены
    • Восстановление изображений
    • Выделение на изображениях структур определенного вида, сегментация изображений
    • Анализ оптического потока

    Распознавание

    Классическая задача в компьютерном зрении, обработке изображений и машинном зрении это определение содержат ли видеоданные некоторый характерный объект, особенность или активность.

    Эта задача может быть достоверно и легко решена человеком, но до сих пор не решена удовлетворительно в компьютерном зрении в общем случае: случайные объекты в случайных ситуациях.

    Один или несколько предварительно заданных или изученных объектов или классов объектов могут быть распознаны (обычно вместе с их двухмерным положением на изображении или трехмерным положением в сцене).

    Идентификация

    Распознается индивидуальный экземпляр объекта принадлежащего к какому-либо классу.
    Примеры: идентификация определённого человеческого лица или отпечатка пальцев или автомобиля.

    Обнаружение

    Видеоданные проверяются на наличие определенного условия.

    Обнаружение, основанное на относительно простых и быстрых вычислениях иногда используется для нахождения небольших участков в анализируемом изображении, которые затем анализируются с помощью приемов, более требовательных к ресурсам, для получения правильной интерпретации.

    Распознавание текста

    Поиск изображений по содержанию: нахождение всех изображений в большом наборе изображений, которые имеют определенное различными путями содержание.

    Оценка положения: определение положения или ориентации определенного объекта относительно камеры.

    Оптическое распознавание знаков: распознавание символов на изображениях печатного или рукописного текста (обычно для перевода в текстовый формат, наиболее удобный для редактирования или индексации. Например, ASCII).

    Восстановление 3D формы по 2D изображениям осуществляется с помощью стереореконструкции карты глубины, реконструкции поля нормалей и карты глубины по закраске полутонового изображения, реконструкции карты глубины по текстуре и определения формы по перемещению

    Пример восстановления 3D формы по 2D изображеню

    Оценка движения

    Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатываются для нахождения оценки скорости каждой точки изображения или 3D сцены. Примерами таких задач являются: определение трехмерного движения камеры, слежение, то есть следование за перемещениями объекта (например, машин или людей)

    Восстановление сцены

    Даны два или больше изображения сцены, или видеоданные. Восстановление сцены имеет задачей воссоздать трехмерную модель сцены. В простейшем случае, моделью может быть набор точек трехмерного пространства. Более сложные методы воспроизводят полную трехмерную модель.

    Восстановление изображений

    Задача восстановления изображений это удаление шума (шум датчика, размытость движущегося объекта и т.д.).

    Наиболее простым подходом к решению этой задачи являются различные типы фильтров, таких как фильтры нижних или средних частот.

    Более высокий уровень удаления шумов достигается в ходе первоначального анализа видеоданных на наличие различных структур, таких как линии или границы, а затем управления процессом фильтрации на основе этих данных.

    Восстановление изображений

    Анализ оптического потока (нахождения перемещения пикселей между двумя изображениями).
    Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатываются для нахождения оценки скорости каждой точки изображения или 3D сцены.

    Примерами таких задач являются: определение трехмерного движения камеры, слежение, т.е. следование за перемещениями объекта (например, машин или людей).

    Методы обработки изображений

    • Счетчик пикселей
    • Бинаризация
    • Сегментация
    • Чтение штрих-кодов
    • Оптическое распознавание символов
    • Измерение
    • Обнаружение краев
    • Сопоставление шаблонов

    Счетчик пикселей

    Подсчитывает количество светлых или темных пикселей.
    С помощью счетчика пикселей пользователь может выделить на экране прямоугольную область в интересующем месте, например там, где он ожидает увидеть лица проходящих людей. Камера в ответ немедленно даст сведения о количестве пикселей, представленных сторонами прямоугольника.

    Счетчик пикселей дает возможность быстро проверить, соответствует ли смонтированная камера нормативным требованиям или требованиям заказчика относительно пиксельного разрешения, например, для лиц людей, входящих в двери, которые контролируются камерой, или в целях распознавания номерных знаков.

    Бинаризация

    Преобразует изображение в серых тонах в бинарное (белые и черные пиксели).
    Значения каждого пикселя условно кодируются, как «0» и «1». Значение «0» условно называют задним планом или фоном а «1» — передним планом.

    Часто при хранении цифровых бинарных изображений применяется битовая карта, где используют один бит информации для представления одного пикселя.

    Также, особенно на ранних этапах развития техники, двумя возможными цветами были чёрный и белый, что не является обязательным.

    Сегментация

    Используется для поиска и (или) подсчета деталей.

    Цель сегментации заключается в упрощении и/или изменении представления изображения, чтобы его было проще и легче анализировать.

    Сегментация изображений обычно используется для того, чтобы выделить объекты и границы (линии, кривые, и т. д.) на изображениях. Более точно, сегментация изображений — это процесс присвоения таких меток каждому пикселю изображения, что пиксели с одинаковыми метками имеют общие визуальные характеристики.

    Результатом сегментации изображения является множество сегментов, которые вместе покрывают всё изображение, или множество контуров, выделенных из изображения. Все пиксели в сегменте похожи по некоторой характеристике или вычисленному свойству, например, по цвету, яркости или текстуре. Соседние сегменты значительно отличаются по этой характеристике.

    Чтение штрих-кодов

    Штрих-код — графическая информация, наносимая на поверхность, маркировку или упаковку изделий, представляющая возможность считывания её техническими средствами — последовательность чёрных и белых полос либо других геометрических фигур.
    В машинном зрении штрих-коды используют для декодирования 1D и 2D кодов, разработанных для считывания или сканирования машинами.

    Оптическое распознавание символов

    Оптическое распознавание символов: автоматизированное чтение текста, например, серийных номеров.

    Распознавание используется для конвертации книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице.

    Оптическое распознавание текста позволяет редактировать текст, осуществлять поиск слов или фраз, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь.

    Моя программа, написанная на LabView по работе с изображениями

    Использовано компьютерное зрение для неразрушающего контроля качества сверхпроводящих материалов.

    Введение. Решение задач обеспечения комплексной безопасности (как антитеррористической и механической безопасности объектов, так и технологической безопасности инженерных систем), в настоящее время, требует системной организации контроля, текущего состояния объектов. Одними из наиболее перспективных способов контроля текущего состояния объектов являются оптические и оптико-электронные методы, основанные на технологиях обработки видеоизображений оптического источника. К ним относятся: программы по работе с изображениями; новейшие способы обработки изображений; оборудования для получения, анализа и обработки изображений, т.е. комплекс средств и методов относящихся к области компьютерного и машинного зрения. Компьютерное зрение — это общий набор методов, позволяющих компьютерам видеть и распознавать трех- или двухмерные объекты, как инженерного направления, так и нет. Для работы с компьютерным зрение требуются цифровые или аналоговые устройства ввода-вывода, а также вычислительные сети и IP анализаторы локаций, предназначенные для контроля производственного процесса и подготовки информации для принятия оперативных решений в кратчайшие сроки.

    Постановка проблемы. На сегодняшний день, главной задачей для проектируемых комплексов машинного зрения остаётся обнаружение, распознавание, идентификация и квалификация объектов потенциального риска, находящихся в случайном месте в зоне оперативной ответственности комплекса. Существующие на данный момент программные продукты, направленные на решение перечисленных задач обладают рядом существенных недостатков, а именно: значительная сложность, связанная с высокой детализацией оптических образов; высокая потребляемая мощность и достаточно узкий спектр возможностей. Расширение задач обнаружения объектов потенциального риска, до области поиска случайных объектов в случайных ситуациях, находящихся в случайном месте, имеющимися программными продуктами не возможно, даже с задействованием суперкомпьютера.

    Цель. Разработка универсальной программы обработки изображений оптического источника, с возможностью потокового анализа данных, то есть программа должна быть лёгкой и быстрой для того, чтобы её можно было записать на малогабаритное ЭВМ устройство.

    • разработка математической модели программы;
    • написание программы;
    • опробирование программы в условиях лабораторного эксперимента, с полной подготовкой и проведением эксперимента;
    • исследование возможности применения программы в смежных областях деятельности.


    • отсутствием на рынке программного обеспечения программ обработки изображений с выводом подробного анализа инженерных составляющих объектов;
    • постоянно растущими требованиями к качеству и скорости получения визуальной информации, резко повышающими востребованность программ обработки изображений;
    • существующей потребность в программах высокой производительности, надежных и простых с точки зрения пользователя;
    • высокой стоимостью профессиональных программ обработки визуальной информации.
    • отсутствием на рынке программного обеспечения программ обработки изображений с выводом подробного анализа инженерных составляющих объектов;
    • постоянно растущими требованиями к качеству и скорости получения визуальной информации, резко повышающими востребованность программ обработки изображений;
    • существующей потребность в программах высокой производительности, надежных и простых с точки зрения пользователя;
    • существует потребность программ высокой производительности и простого управления, чего добиться в наше время крайне сложно. Для примера я взял Adobe Photoshop. Данный графический редактор обладает гармоничным сочетанием функциональности и простоты использования для рядового пользователя, но в данной программе невозможно работать со сложными инструментами по обработке изображения (например, анализ изображения путём построения математической зависимости (функции) или же интегральной обработкой изображений);
    • высокой стоимостью профессиональных программ обработки визуальной информации. Если программное обеспечение качественно, то цена на него крайне высока, вплоть до отдельных функции того или иного набора программ. На графике ниже представлена зависимость цены/качества простых аналогов программы.

    Для упрощения решения задач данного типа, мною была разработана математическая модель и написана программа для ЭВМ устройства по анализу изображения при помощи простейших преобразований исходных изображений.

    Программа работает с преобразованиями типа бинаризации, яркости, контраста изображения и т.д. Принцип действия программы продемонстрирован на примере анализа сверхпроводящих материалов.

    При создании композиционных сверхпроводников на основе Nb3Sn варьируется объемное соотношение бронзы и ниобия, размер и количество волокон в нем, равномерность их распределения по сечению бронзовой матрицы, наличие диффузионных барьеров и стабилизирующих материалов. При заданной объемной доле ниобия в проводнике увеличение количества волокон приводит, соответственно, к уменьшению их диаметра. Это ведет к заметному возрастанию поверхности взаимодействия Nb / Cu-Sn, что в значительной степени ускоряет процесс нарастания сверхпроводящей фазы. Такое увеличение количества сверхпроводящей фазы при повышении числа волокон в проводнике обеспечивает возрастание критических характеристик сверхпроводника. В связи с этим необходимо наличие инструмента для контроля объемной доли сверхпроводящей фазы в конечном продукте (композиционном сверхпроводнике).

    При создании программы учитывалась важность проведения исследований материалов, из которых создаётся сверхпроводящие кабели, так как при неправильном соотношении ниобия к бронзе возможен взрыв проводов, а, следовательно, людские жертвы, денежные затраты и потеря времени. Данная программа позволяет определить качество проводов на основе химическо физического анализа объекта.

    Описание этапов исследования.

    1 этап. Пробоподготовка: резка композиционного сверхпроводника на электроэрозионном станке; запрессовка образца в пластмассовую матрицу; полировка образца до зеркального состояния; травление образца для выделения волокон ниобия на бронзовой матрице. Получены образцы запрессованных композиционных сверхпроводниковых образцов;

    2 этап. Получение изображений: получение металлографических изображений на сканирующем электронном микроскопе.

    3 этап. Обработка изображений: создание инструмента для определения объемной доли сверхпроводящей фазы на металлографическом изображении; набор статистически значимых данных на конкретном типе образцов. Созданы математические модели различных инструментов по обработке изображений; создана программная разработка для оценки объемной доли сверхпроводящий фазы; программа была облегчена путём соединения нескольких математических функций в одну; было получено среднее значение объемной доли волокон ниобия в бронзовой матрице 24.7±0,1 %. Низкий процент отклонения свидетельствует о высокой повторяемости структуры композиционного провода.

    Электронномикроскопическое изображения композиционных сверхпроводников

    Методы обработки изображений в программе.

    • Идентификация — распознается индивидуальный экземпляр объекта, принадлежащего к какому-либо классу.
    • Бинаризация – процесс перевода цветного (или в градациях серого) изображения в двухцветное черно-белое.
    • Сегментация — это процесс разделения цифрового изображения на несколько сегментов (множество пикселей, также называемых суперпикселями).
    • Эрозия – сложный процесс, при выполнении которого структурный элемент проходит по всем пикселам изображения. Если в некоторой позиции каждый единичный пиксел структурного элемента совпадет с единичным пикселом бинарного изображения, то выполняется логическое сложение центрального пиксела структурного элемента с соответствующим пикселом выходного изображения.
    • Дилатация — свертка изображения или выделенной области изображения с некоторым ядром. Ядро может иметь произвольную форму и размер. При этом в ядре выделяется единственная ведущая позиция, которая совмещается с текущим пикселем при вычислении свертки.

    Формулы работы программы

    Формула бинаризации (метод Оцу):

    Схема дилатации и эрозии

    Формулы сегментации порогами цвета:

    Определение модуля градиента яркости для каждого пикселя изображения:

    • CHMER GX-320L с ЧПУ — станок для электроэрозионной резки образцов
    • SimpliMet 1000 — станок для горячей запрессовки
    • AutoMet 250 Buehler – машина для шлифовки и полировки
    • Axio Scope A1 Carl Zeiss – оптический микроскоп для контроля качества шлифов
    • Hitachi TM-1000 — сканирующий электронный микроскоп для получения металлографических изображений

    Представлен чип для системы машинного зрения без камер

    Машинное зрение — раздел робототехники, который использует анализ изображений для решения промышленных задач.

    Цифровая камера снимает изображение и передает его в компьютер. Специальное ПО анализирует данные изображения и ставит задачи оборудованию.

    В зависимости от задачи для каждой системы пишут алгоритмы распознавания. Вот помидор едет по конвейеру, и система анализирует его цвета, формы, размеры, пятна, чтобы отсортировать гнилые и неспелые. В алгоритмы заложены характеристики правильных помидоров.

    Характеристики объекта можно заложить в алгоритм двумя способами:
    1. описать с помощью математических формул
    2. обучить нейронную сеть на базе изображений

    Для сортировщика помидоров достаточно математических формул. А вот для распознавания номерных знаков на улице нужна большая база данных, чтобы обучить нейросеть. Алгоритм будет работать только в тех условиях и при тех параметрах, при которых собрана база изображений. Больше об этом можно прочитать здесь.

    GigE Vision, USB3 Vision, FireWire, Camera Link: цифровые интерфейсы для камер машинного зрения

    Сравним наиболее популярные цифровые интерфейсы для систем машинного зрения, их особенности и преимущества.

    Gigabit Ethernet/GigE Vision

    Многокамерная съемка, длинный кабель, отсутствие плат видеозахвата
    Стандарт Gigabit Ethernet (GigE) широко используется для передачи видеосигнала в системах машинного зрения с 2006 г. По количеству инсталляций это наиболее быстро распространяющийся интерфейс для цифровых камер промышленного применения. Причина в том, что GigE избавляет пользователей от традиционных проблем.

    1. Позволяет получать от камеры изображения при значительных длинах кабеля. Так, длина 5-й категории кабеля (CAT5) может достигать 100 м. Имеются стандартные способы увеличения этого расстояния, вплоть до использования оптики. Такие длины кабеля невозможны для протоколов Camera Link, USB 2.0 и FireWire.

    2. Упрощает применение нескольких камер, подключаемых к одному компьютеру. При пропускной способности 100 Мбайт/с и длине кабеля 100 м Gigabit Ethernet является универсальным цифровым интерфейсом, поэтому отпадает необходимость в платах видеозахвата (фреймграбберах) и специальных кабелях для работы со скоростной камерой в системе машинного зрения.

    Цифровые системы стандарта GigE являются альтернативой традиционным системам на базе аналоговых телекамер почти в любой сфере применения. На сегодня GigE преобладает в ряде областей – от производственных объектов до интеллектуальных транспортных систем.

    При работе с сетевым интерфейсом Gigabit Ethernet поставщик решения должен учитывать следующие требования:

    1. высокая вычислительная мощность для захвата изображения (обычно 3–8% от производительности процессора);
    2. временной период между кадрами – определяется пользователем. Интерфейс Gigabit Ethernet позволяет получить точность синхронизации камеры 1 мс. Этого оказывается достаточно для большинства приложений. Пользователям, желающим синхронизовать камеры с точностью выше 1 мс, следует использовать внешний запуск.

    Gigabit Ethernet/GigE Vision

    Скорость: 100 Мбайт/с.
    Длина кабеля: до 100 м.

    • стандартный интерфейс для любого компьютера;
    • простая организация многокамерного режима съемки;
    • значительная длина кабеля;
    • поддержка стандарта PoE.

    Ограничения: требуется высокая процессорная мощность

    USB 3.0/USB3 Vision

    Высокие скорости, отсутствие плат видеозахвата, низкая нагрузка на процессор, простота установки
    Стандарт USB 3.0 стал стандартом потребительского рынка. Большинство компьютеров на сегодня оснащены портами USB 3.0. Спецификация USB3 Vision была официально принята в 2013 г.; она отвечает всем необходимым требованиям передачи видео в системах машинного зрения.

    Скорость передачи данных, которую обеспечивает USB 3.0, в 9 раз выше по сравнению с предшествующим стандартом USB 2.0. Он также имеет более низкий уровень ошибок передачи видео, дает меньше задержки и искажения, поддерживает более высокую мощность питания, позволяет использовать более длинные кабели. В USB 3.0 управление питанием реализовано на уровне соединения – инициировать переход в режим энергосбережения при простое может как хост-компьютер, так и само устройство (что актуально для уличных камер и камер с питанием от аккумуляторной батареи).

    Можно выделить несколько ключевых преимуществ USB 3.0. Реальная пропускная способность может достигать 350 Мбайт/с без использования фреймграббера. Интерфейс поддерживает технологию Plug-and-Play. Технология Direct Memory Access (DMA) позволяет снизить нагрузку на процессор при передаче данных до минимума и масштабировать вычислительные ресурсы в соответствии с потребностями.

    USB 3.0/USB3 Vision

    Скорость: 350 Mбайт/с.
    Длина кабеля: до 8 м.

    • повсеместное распространение;
    • простота использования (Plug-and-Play);
    • низкая нагрузка на процессор;
    • низкий уровень задержек передачи и искажений;
    • управление питанием и энергосберегающие режимы;
    • передача данных и питания по одному кабелю.
    • длина кабеля;
    • сложная организация многокамерного режима съемки.

    FireWire

    Устаревший ограниченный интерфейс
    FireWire (также известный как IEEE 1394) многие годы являлся популярным цифровым интерфейсом. Чем же он был так привлекателен? Тем, что поддерживал подключение видеокамер с протоколом обмена DCAM, обеспечивал отличную совместимость программного обеспечения и устройств и давал необходимую мощность питания на каждом порту. А рынок до сих пор предлагает широкий выбор камер.

    Тем не менее доля рынка устройств, использующих стандарт FireWire, снижается. На то несколько причин. Пропускная способность не превышает 64 Мбайт/с (IEEE 1394b), что резко ограничивает разрешение и частоту кадров в секунду. Длина кабеля всего 4,5 м. Стандарт FireWire уходит с потребительского рынка, как результат – рост цен, невысокий выбор оборудования и ПО.

    В общем, при организации новых систем машинного зрения не рекомендуется рассматривать FireWire в качестве интерфейса передачи видео. Более целесообразным вариантом с аналогичными преимуществами, но со значительно более высокой скоростью передачи будет USB 3.0.

    Скорость: l IEEE 1394a – максимум 32 Mбайт/с l IEEE 1394b – максимум 64 Mбайт/с
    Длина кабеля: до 4,5 м.

    • низкая нагрузка на процессор;
    • низкий уровень задержек передачи и искажений.
    • сокращение числа поддерживаемого оборудования и ПО;
    • длина кабеля;
    • скорость передачи

    Camera Link

    Высочайшие скорости, более сложное решение
    Camera Link является очень функциональным и мощным интерфейсом, разработанным специально для камер машинного зрения.

    Диапазон частот интерфейса Camera Link позволяет работать с камерами, габариты которых не превышают размеров кубика сахара, а также с камерами, разрешающая способность которых достигает 2 Мпкс, а скорость – нескольких сотен кадров в секунду. Для камер, расчитанных на пропускную способность канала 100–850 Мбайт/с, рекомендуется использовать стандартизованный интерфейс Camera Link.

    Поскольку Camera Link был разработан специально для камер машинного зрения, он гарантирует очень высокую скорость видеосигнала, простоту использования и сохранность данных. Все компоненты решения должны поддерживать стандарт Camera Link. Кабели, соединения и платы видеозахвата стандарта Camera Link обычно предназначены для применения только в ТВ-системах и являются дорогостоящими. Каждый компонент решения должен быть сертифицирован производителем и совместим с другими компонентами.

    Интерфейс Camera Link имеет три варианта конфигурации:

    1. Base (1 порт, 1 разъем для кабеля) – 255 Mбайт/с;
    2. Medium (2 порта, 2 разъема для кабеля) – 510 Mбайт/с;
    3. Full (4 порта, 2 разъема для кабеля) – 850 Mбайт/с.

    Скорость для разных вариантов конфигурации: Base – 255 Mбайт/с, Medium – 510 Mбайт/с; Full – 850 Mбайт/с.
    Длина кабеля: до 10 м при 85 МГц.

    • специализированный и признанный стандарт;
    • высокие скорости передачи;
    • передача данных и питания по одному кабелю (PoCL – Power over Camera Link).
    • требуется специализированная плата видеозахвата;
    • необходимы компоненты класса Hi-End (плата видеозахвата, кабели);
    • длина кабеля.

    Перспективные стандарты

    Универсального интерфейса для цифровых камер машинного зрения не существует. Однако есть очевидные претенденты на эту роль в будущем. По мнению экспертов, некоторые интерфейсы со временем могут исчезнуть с рынка систем машинного зрения: FireWire – из-за ухода с потребительского рынка, и USB 2.0 – из-за нестабильной передачи видео. Оба этих стандарта не соответствуют современным требованиям по высокому разрешению изображения и частоте передачи кадров.

    Поскольку интерфейс Gigabit Ethernet поддерживает наибольшую длину кабеля и простую организацию многокамерного режима съемки, для многих различных задач он окажется предпочтительным.

    Будет расти популярность стандарта USB 3.0/ USB3 Vision благодаря высоким скоростям, низким нагрузкам на процессор и демократичной стоимости решений. USB 3.0 придет на смену существующим системам на базе интерфейсов FireWire и USB 2.0.

    Для пользователей, чьими главными приоритетами являются скорость и разрешение, наилучшим выбором будет Camera Link Full. Ожидается, что на смену решениям на базе Camera Link Base и Medium придет интерфейс USB 3.0 как более экономически выгодный.

    GigE, USB 3.0 и Camera Link Full являются наиболее перспективными и массовыми стандартами на сегодня и в перспективе.

    Мастер Йода рекомендует:  ТОП-8 трендов web-разработки, обязательных в 2020 году
Добавить комментарий