Intel perceptual computing sdk

Ещё одна копия хабора

  • Распознавание жестов, положения рук, пальцев, уровень открытости ладони
  • Отслеживание положения лица, определение контрольных точек (губы, нос, глаза), идентификация («узнавание») лица
  • Отслеживание положение 2-х и 3-х мерных объектов

В конце ноября появилась новая версия (Beta 2) — помимо исправления ошибок и работы над оптимизацией разработчики также добавили возможность работы с голосом. Это стало возможным благодаря включению в состав SDK модуля Nuance Dragon Assistant.
На данный момент Beta 2 является последней версией, но уже включает в себя ряд возможностей, способных помочь разработчику добавить в свое программное обеспечение новые способы взаимодействия с пользователем.
Чтобы получить более полное представление о возможностях PerC SDK, вы можете посмотреть видео, показывающее его работу на приемре нескольких приложений, доступное на странице SDK.

Камера

Для начала, чтобы объяснить как это все работает, я бы хотел рассказать именно о камере.
На самом деле, это устройство сложно назвать камерой, это скорее набор сенсоров. В ее состав входят два микрофона, позволяющих значительно улучшить качество распознавания речи, также сенсор имеет встроенную RGB и инфракрасную камеры.

На поле естественных интерфейсов и Perceptual Computing выходит компания Intel.

Perceptual Computing — это технология, позволяющая пользователю взаимодействовать с устройствами, используя естественные для человека способы: голосовые команды, движения рук, мимика лица и т.п.

На 3D-сенсор Kinect от компании Microsoft, компания Intel отвечает своей камерой CREATIVE Interactive Gesture Camera™ и Intel Perceptual Computing SDK.

В октябре прошлого года, на сайте компании Intel появилась первая версия PerC SDK, которая поддерживала следующие возможности:
* Распознавание жестов, положения рук, пальцев, уровень открытости ладони
* Отслеживание положения лица, определение контрольных точек (губы, нос, глаза), идентификация («узнавание») лица
* Отслеживание положение 2-х и 3-х мерных объектов

А спустя месяц — в конце ноября; появилась новая версия (Beta 2) — в которую была добавлена возможность работы с голосом при помощи модуля Nuance Dragon Assistant.

модуль для распознавания речи, устанавливается отдельно

Для своей работы, Intel Perceptual Computing SDK требуется наличие камеры CREATIVE Interactive Gesture Camera™, которая кроме обычной RGB-камеры, содержит так же в себе инфракрасную камеру и два микрофона (позволяют улучшить качество распознавания речи).

Впрочем, работа с SDK, возможна и без камеры, но тогда будут доступны только модули распознавания речи и определения положения и маркеров лица.

Характеристики камеры CREATIVE Interactive Gesture Camera™

* Разрешение RGB сенсора: 720p (1280 x 720)
* Разрешение IR Depth сенсора: QVGA (320 x 240)
* Угол обзора (градусы): 73
* Частота работы (кадров в секунду): 30
* Расстояние: от 15 см до 1 метра
* Питание: USB 2.0 ( OpenCV и ROS ).
При этом, SDK предоставляет API, которое позволяет работать с данными камеры как на низком уровне, так и на высоком (используя готовые алгоритмы распознавания жестов, положения рук, лица, голоса).

Читайте также:  Metroid samus returns 3ds

Напрямую с камерой, работает драйвер (используя возможности аппаратной платформы для ускорения работы SDK), а далее приложение, использующее SDK, использует модуль ввода-вывода, что позволяет одновременную работу сразу нескольких приложений, использующих SDK (грамотный ход — вспомним невозможность работы с web-камерой, когда приложение получает эксклюзивный доступ и делает невозможным работать с камерой из других приложений).

Intel Perceptual Computing SDK, содержит необходимые заголовочные и библиотечные файлы для его использования в фреймворках Unity Game Engine, openFrameworks , Processing , а так же приложениях, написанных на С++, С#.

Области применения Perceptual Computing и Intel Perceptual Computing SDK, ограничиваются только нашей фантазией.
Это:
* идентификация пользователя;
* игры

, где пользователь может управлять игровыми персонажами и объектами.
* различные «примерочные» причёсок/очков и т.п., использущие идентификацию лица.

Конкурс

Для продвижения камеры и своего SDK, компания Intel замутила конкурс Perceptual Computing Challenge с призовым фондом $1 000 000.

Для участия в конкурсе, необходимо представить приложение, которое будет использовать возможности PerC SDK по управлению жестами, отслеживанию положения, идентификации лица пользователя.

Конкурс разбит на два этапа.
Чтобы участвовать в конкурсе на первом этапе необходимо до 20-ого февраля:
* Зарегистрироваться на сайте конкурса
* Выбрать одну или несколько категорий, в котором будет участвовать приложение
* Дать краткое описание предлагаемого приложения (на английском)
* Создать прототип приложения, демонстрирующий одну из всех планируемых возможностей
* Отправить скриншот экрана прототипа
* Отправить видео, демонстрирующее возможности прототипа (на английском)

4 номинации конкурсных работ:
* игры
* совместное использование возможностей PerC SDK (как один способ взаимодействия, может быть дополнен другим)
* креативный пользовательский интерфейс (взаимодействие с пользователем с использованием PerC SDK).
* продуктивность (повышение продуктивности работы пользователя)

SDK можно бесплатно загрузить здесь .
А самое интересное — камеру CREATIVE Interactive Gesture Camera™, необходимую для полноценной работы SDK, на время конкурса, тоже можно получить бесплатно ( для этого нужно заполнить заявление (loan) и камеру вышлют бесплатно по почте (нужно будет отослать обратно через 60 дней).

После 20-го февраля, будет происходить отбор участников из числа приславших заявки и выполнивших все условия. Имена победителей первого этапа станут известны после 11-го марта.
После этого стартует второй этап конкурса, который уже будет оценивать реальные приложения.
Подробнее о конкурсе можно узнать в статье на хабре и на сайте конкурса Perceptual Computing Challenge .

Читайте также:  Цифровое телевидение билайн список каналов

За возможность бесплатно пощупать этот сенсор — можно попробовать поучаствовать 🙂
Зарегистрировался в конкурсе, и запросил камеру. На почту прислали pdf, который нужно распечатать, написать свой адрес и расписаться.
Отсканировал и отправил обратно. В ответ, написали, что мой запрос получен и обещали выслать камеру в течение 7-10 дней.

Ставим SDK. Судя по dll-кам, находящимся в каталоге bin, SDK используется для своей работы OpenCV 2.3.0
а если заглянуть дальше в bin/data/classification/DB, то можно углядеть, что для детектирования (классификации) лиц используются вейвлеты Хаара, а для детектирования рук используется нейронная сеть (ANN): файл data представляет собой YAML-файл, в котором хранятся настройки OpenCV-ой нейронной сети (функция активации — сигмод, обучение — обратное распространение ошибки).
Забавно 🙂

Презентацию к лекции можно скачать здесь.

Intel Perceptual Computing SDK предназначен в первую очередь для того, чтобы снизить стоимость разработки программных продуктов, в которых в качестве средств взаимодействия с пользователем необходимо использовать что-то, отличное от клавиатуры или мышки. Другими словами те, кто в дальнейшем будут использовать SDK для разработки, смогут потратить свои силы и время на то, чтобы реализовать именно логику программы, а не на реализацию алгоритма, который будет взаимодействовать с пользователем.

Системные требования

Перечислим системные требования для установки комплекта.

  • 32-х битная архитектура процессора Intel второго или третьего поколения или процессор Intel 64 Intel Core;
  • 1Гб свободного места на жестком диске;
  • Creative interactive gesture camera.
  • Microsoft Windows 7 with service pack 1 (или более поздний), или Microsoft Windows 8;
  • Microsoft Visual Studio C++ 2008-2012 с service pack 1 (или более поздний);
  • Microsoft .NET 4.0 Framework (для работы с C#);
  • SoftKinetic DepthSense SDK runtime 1.0.4 (или более поздний с возможностью отслеживания пальцев рук);
  • Unity PRO 3.5.1f2 (или более поздний);
  • Processing 1.5.1 (или более поздний);
  • openFrameworks v0071 (или более поздний).

Creative interactive gesture camera

Комплект Intel Perceptual Computing SDK распространяется бесплатно и может быть скачан с официального сайта Intel (http://software.intel.com/en-us/vcsource/tools/perceptual-computing-sdk). Многие модули SDK могут быть доступны без технической составляющей. Однако для того, чтобы пользоваться широкими возможностями Intel Perceptual Computing SDK потребуется техническая составляющая. Описанная ранее Creative Interactive Gesture Camera позволяет захватывать не только видео или изображения, но она также снабжена сенсором глубины, с помощью которого можно захватывать карту глубины и т.д.

Карта глубины – это черно-белое изображение, на котором объект будет темнее, если он находится ближе к камере и наоборот, если расположен дальше от камеры.

Читайте также:  Как восстановить скайп на компьютере бесплатно

Формат захвата цветного изображения 720p до 30 кадров в секунду. Сенсор глубины возвращает изображения формата 320х240 пикселей. Сенсор глубины возвращает несколько слоев: карта глубины, карта доверия (насколько можно доверять значению в конкретной точке), и карту вершин. По умолчанию карта глубины возвращается в отфильтрованном формате. Это сделано для того чтобы устранить шум, который возникает к примеру от источников света. Однако при желании можно получить исходный нефильтрованный сигнал. Стоит заметить, что все приведенные параметры являются всего лишь ограничениями самой камеры. Непосредственно SDK может работать с изображением большего формата.

Кроме того с камеры можно получить некоторые параметры, например, такие как яркость, экспозицию, значение уровня доверия, после которого все точки будут отсекаться.

Creative Interactive Gesture Camera это камера ближнего действия. Ее рабочая дистанция примерно от 50 до 150 см, хотя при помощи нее отслеживать объекты на расстоянии 4-5 метров принципиально возможно, но сенсор глубины не рассчитан на большое расстояние , и, соответственно качество отслеживания будет сильно снижаться с увеличением расстояния.

Кроме того доступен захват аудио с двух микрофонов. Захватывается одно или двух канальный звук с частотой дискретизации до 48 кГц.

Заказать Creative interactive gesture camera можно также с сайта Intel, перейдя по следующей ссылке: http://click.intel.com/intelsdk/Creative_Interactive_Gesture_Camera_Developer_Kit-P2061.aspx.

Архитектура SDK

На рис. 2.1 представлена архитектура SDK . Основная идея заключается в модульности структуры SDK . Здесь имеется набор модулей для ввода/вывода, а также набор модулей для реализации тех или иных алгоритмов. Например, алгоритмов распознавания лиц, распознавания речи или синтеза речи.

SDK стандартизирует интерфейсы модулей ввода/вывода и алгоритмы модулей таким образом, что приложения могут получить доступ к функциональности напрямую. Приложение , использующее SDK , не работает напрямую с камерой, этим занимается модуль ввода-вывода, благодаря чему достигается одновременная работа сразу нескольких приложений, использующих SDK , что, например, невозможно при работе с web камерой, когда приложение получает эксклюзивный доступ , ограничивающий работу с камерой для других приложений. Также SDK предоставляет механизм для поиска конкретной реализации из множества доступных модулей, а также другие важные функции, такие как синхронизация выполнения и взаимодействие с другими библиотеками и фреймворками. Кроме того SDK предоставляет набор вспомогательных классов для общих случаев использования (исходный код или библиотеки форм), таким образом разработчику остается только настроить их для конкретного использования. SDK включает в себя несколько популярных платформ и врапперов (языковых оберток) для расширения сферы применения.