Индусский код в действии: нейросеть научили превращать размытые картинки в качественное видео
Индийские разработчики представили систему, которая умеет создавать короткие видео из размытых изображений. Алгоритм работает на основе сверточных и рекуррентных нейросетей и позволяет превращать артефакты движения на снимках в короткие (до десяти кадров) видео, говорится в препринте на arXiv.org.
При просмотре размытого изображения человек может мысленно достроить картину происходящего. Например, видя фотографию птицы с нечеткими крыльями, можно предположить, что размытие изображения обусловлено артефактами движения крыльев во время получения снимка. Для систем компьютерного зрения эта задача, однако, представляет бóльшую сложность, и большинство известных методов направлены только на удаление артефактов движения и сглаживание кадров.
Ученые из Индийского технологического института под руководством А. Н. Раджагопалана (A. N. Rajagopalan) предположили, что на основе одного размытого изображения можно создать целое короткое видео: то есть восстановить изначальное движение из его артефактов на снимке. Для этого они разработали алгоритм на основе свёрточных нейросетей, которые активно применяют для задач, связанных с автоматическим распознаванием изображений, а также реккурентных нейросетей.
Модель обучается на большом количестве видео, которые разбиваются на кадры. После этого нейросеть ищет такой кадр, артефакты на котором наиболее соответствуют артефактам кадра тренировочной выборки. После этого декодер «восстанавливает» артефакты кадра тренировочной выборки в движение, запечатленное на видео. Внутри модели, таким образом, хранятся данные о возможных восстановленных движениях из каждого доступного в обучающей выборке размытого кадра.
В результате работы нейросеть выдает восстановленные из размытого изображения видео, состоящие из десяти кадров. Разработанный алгоритм, по мнению создателей, сможет в дальнейшем помочь улучшать не только восстановление размытых изображений, но и самих видео.