Построение 3D модели сцены по одному фотоснимку

Презентация

Анонс

Проект из Stanford University («переехавший» в начале 2010 года в Cornell University) «Make3D», примечателен тем, что поставил перед собой пока еще не ставшую типичной задачу восстановления трехмерной модели сцены всего из одного фотоснимка. До сих пор, чтобы добиться подобного результата, разработчики восстанавливали трехмерную информацию, комбинируя несколько (два и более) снимков одного и того же объекта с разных ракурсов. В данном же проекте уже продемонстрировано, что значительный объем информации содержится в монокулярных признаках (monocular cues) самого изображения, которые до этого зачастую игнорировались.

В качестве особенностей метода можно выделить то, что он не опирается ни на какие базовые предположения о структуре сцены и объектов находящихся на ней. Модификация алгоритма с учетом подобных условий, для заранее известного класса сцен, может только улучшить результат.

Для создания системы авторы воспользовались алгоритмами машинного обучения – случайными полями Марковского типа (MRF: MarkovRandomField), в которых учитываются не только локальные особенности участков фотографии («суперпикселей»), а также окружающий их контекст, и всевозможное варианты взаимного расположения участков фотографии («суперпикселей»):

  • Соединения: скорей всего два «суперпикселя» будут вплотную соединены (угол дома), нежели далеко разнесены в пространстве (забор и дом за ним);
  • Копланарность: если два «суперпикселя» имеют схожую структуру и граница между ними не очень четкая, то очень вероятно, что они принадлежат одному объекту и лежат в одной плоскости (продолжение стены);
  • Коллинеарность: длинные прямые на двумерной фотографии скорей всего будут так же длинными прямыми и в трехмерной модели сцены.

Данный доклад – о том, как устроена эта система, каким образом учтены все эти многочисленные параметры и что в итоге из этого получается.

В практической реализации авторам уже удалось добиться удовлетворительных результатов более чем на 60% произвольных фотоснимков, предоставленных и оцененных сторонними пользователями системы при проведении ее испытаний.

В перспективе подобный проект, на мой взгляд, может найти применение в самых различных областях. Например, для улучшения способности роботов ориентироваться в пространстве, добавления трехмерных сцен в компьютерных и видеоиграх, расширения возможностей автоматизированных систем видеонаблюдения, системах складского учета и т.д.

В качестве одного из самых наглядных примеров, достаточно рассмотреть распространенные сервисы, наподобие Google Street View или Bing Maps 3D, в которых доступны объемные трехмерные изображения зданий, но в основном - только для центральных улиц, остальная же часть местности, как правило, остается без внимания, не говоря уже о внутренних помещениях больших супермаркетов и складов.

В современном Интернете содержание для многих сервисов добавляют сами пользователи. Google и Microsoft уже разрабатывают продукты «SketchUp» и «3DVIA Shape» соответственно, чтобы люди могли самостоятельно строить трехмерные модели зданий, которые их окружают. Подобный проект мог бы гармонично вписаться в эти сервисы, для осуществления первичной обработки одной или нескольких фотографий объекта с обычного телефона, помогая выстроить предварительную трехмерную модель, и тем самым упростить пользовательский ввод и сделать сервисы более доступными и популярными.

Комментарии

{{comment.AuthorInfo}}
{{ comment.DateCreated | date: 'dd.MM.yyyy' }}
Ваш отзыв теперь здесь. Продолжайте общаться с докладчиком

Партнеры конференции

Заметили ошибку?