МОСКВА, 14 мая – РИА Новости. Немецкие математики создали необычную нейросеть, которую они научили "раскрашивать" уже существующие видеоролики и кинокартины в своеобразные "живые картины", выполненные в стиле Ван Гога, Пикассо или других известных художников, принципы работы которой они опубликовали в статье в электронной библиотеке arxiv.org.
Большинство систем искусственного интеллекта, существующих сегодня, представляют собой так называемые нейросети. Они представляют собой специальный самообучающийся алгоритм, имитирующий работу нервных клеток в живом организме. Основным его преимуществом является способность распознавать даже сильно искаженные сигналы, которую нейросеть приобретает при накоплении опыта.
В последние годы среди ученых стало популярно создавать так называемые "глубокие" нейросети. Их главным отличием от обычных нейросетей является то, что в них присутствует не один, а несколько слоев абстракции и обработки информации, которые повышают "интеллектуальные способности" таких сетей. На основе "двуслойной" сети такого рода, в частности, построена системма AlphaGo, недавно победившая чемпиона мира в Го в серии из пяти игр.
Алексей Досовицкий из университета Фрайбурга (Германия) и его коллеги приспособили подобную сеть для реализации мечты многих ценителей кино и культуры – "раскраски" фильмов под Ван Гога, Сальвадора Дали, Пикассо и других известных художников-импрессионистов.
Для реализации подобной задачи ученые создали нейросеть из двух слоев, первый из которых анализирует картины художника и извлекает из них информацию об используемых красках и стиле, а второй – анализирует мелкие детали на кадрах фильма и распознает объекты, по сути, превращая их в эскизы будущих картин. Ключевое значение здесь имеет, как объясняют ученые, не только результаты работы каждого слоя нейросети, но и корреляции между ними.
Подобная "стилизация" уже проводилась для одиночных фотографий, однако при "раскраске" фильмов возникали проблемы, связанные с тем, что при обработке каждого кадра нейросеть выдавала сильно различающиеся картинки, которые склеить друг с другом было крайне проблематично, так как на выходе получается каша из мелькающих разрозненных картинок.
Досовицкий и его коллеги решили эту проблему, научив нейросеть распознавать уже присутствующие на кадрах объекты и, благодаря этому, предотвращать их чрезмерное изменение по мере обработки видеоряда. Кроме того, программа научилась запоминать то, какие предметы уже появлялись на экране и использовать для их отрисовки тот же стиль, который применялся при их выводе в первый раз.
Подобный подход не только превратил разрозненные кадры в единое видео, но и заметно понизил вычислительные аппетиты алгоритма. В среднем, для обработки одного кадра на мощной видеокарте GeForce Titan X требуется около 10 минут времени, что можно сократить до примерно трех минут, используя информацию о соседних кадрах.
Пока данный алгоритм вряд ли будет работать с вменяемой скоростью на домашних компьютерах, однако в принципе его можно применять для онлайн-обработки видео при помощи систем облачных вычислений. Вполне возможно, что в будущем каждый человек сможет смотреть любое кино, "написанное" в том стиле, который ему нравится, заключают ученые.