Результаты поиска потегуинтерполяция

Дополнительные фильтры
Теги:
интерполяцияновый тег
Автор поста
Рейтинг поста:
-∞050100200300400+
Найдено: 3
Сортировка:

Гайд на основные Функции DAIN-APP V0.36 от 11.03.2020


Само приложение: https://grisk.itch.io/dain-app

ГАЙД ОТ ЛАМЕРА-ДЛЯ ЛАМЕРОВ! ГЛУБОКОГО ВНИКАНИЯ И РОСПИСИ ЗАТРАТ ПАМЯТИ ТУТ НЕТ!
Программа использует память видеокарты. Нужна Куда(загугли).
ОКНО ДИАЛОГА
юзер-фнедли интерфейс для настройки

1) 
1.1)Input Video- Процессировать видео
1.2)Input PNG Sequense- Процессировать выделенную последовательность изображении.
1.3)Resume render- Продолжить прерванный ранее рендер.

2)
2.1)Inpute file(s)- Выбрать нужный фаил.
2.2)Export as...- Экспортировать как Mp4, GIF, WebM, APNG.
2.3)Output Folder- Указать место, в котором программа создаст 3 папки: оригинальные кадры, интерполированные кадры, результат.

3)Mode.
3.1)Mode 1: all( frames treated the same)- Все, новые и старые, кадры будут использованы в конечном результате. Дефолтная настройка. Средняя ресурсоёмкость. Не меняет скорость результата.
3.2)Mode 2: Remove duplicate frames( may alter animation speed)- Не будут сгенерированы одинаковые кадры. Скорость анимации может изменится. Самая маленькая ресурсоёмкость.
3.3)Mode 3: Adaptive record timestamps them remove duplicate frames.- Каждый кадр будет на своём месте во времени(timespamp), а потом программа попробует угадать сколько кадров между ними нужно создать. Наименее полезен и стабилен. Высокая ресурсоёмкость. Не смотря на описание, скорость результата часто меняется.
3.4)Mode 4: Static record timestamps them remove duplicate frames.- Мод 3, но программа создаст только указанное количество кадров. Не всегда полезен. Средняя ресурсоёмкость. Не меняет скорость результата.

4) Depth Awareness Mode.
4.1)Real life or 3D- Для видео с четкой глубиной.
Сartoon or Anime- Для анимации и аниме без глубины, или её практическим отсутствием.
4.2)Alpha transparency- Будут ли сгенерированые кадры иметь полупрозрачные переходные части.
No alpha- функция отключена
Fast alpha- Менее ресурсоёмкий вариант, результат будет немного хуже.
Fast alpha- Более ресурсоёмкий вариант, наиболее качественный результат.
4.3) Interpolation Algorithm. 
Default- Стандартные х2, х4 и х8 функции интерполяции. Меньшие затраты памяти, медленнее более чистые результаты.
Experimental- Эксперементальные функции интерполяции. Быстрее, больший расход памяти, генерирует больше артефактов. Не доступна (4.2).

5)
5.1) Input FPS- Количество кадров в секунду орицинального файла\фаилов.
5.2) Interpolate 2x/4x/8x- Увеличить изначальное кадры в такое количество раз. 
5.3) Output FPS- Расчетное количество кадров конечного результата, всегда округляется до целых после конца рендера.

6) Split frames into sections- Использовать, если не хватает памяти. При рендере программа будет разделять каждый кадр на части с указанными размерами(6.1) и (6.2). Снижает расход ресурсов, но сильно замедляет процесс.
6.1) Section size- Размер секции. Т.е. Если указать 500, то разделение будет идти на секции 500х500 пикселей, при этом создаст четыре версии в зависимости от (6.2).
6.2) Section Padding- Переменная, которая определяет четые вариации (6.1). Т.е, при указании (6.1)=500, и (6.2)=200, будут такие четыре варианта: 500х500, 200х500, 500х200, 200х200. Такими секциями программа будет обрабатывать кадры, начиная с максимального количества больших секции, и постепенно уменьшая их размер.

7) 
7.1) Downscale video- Уменьшает размер результата. Указывать в виде ХнаХ(500х500) пикселей.
7.2) Don't interpolate scene changes- При обнаружении резкой смены изображения(перехода сцены), программа не будет интерполировать переход между ними.

8)
8.1) Clean interpolated folder before starting-  Программа очистит папку с интерполированными кадрами при старте следующего рендера с теми же (2.3). Я постоянно использую при работе на трудной гифкой, которую нужно переделывать не один раз.
8.2) Limit color palette to use only original colors- При рендере программа будет использовать только оригинальную палитру цветов файла. Анимации могу использовать (4.2) только с этой функцией. Я включаю всегда. 
8.3) Create a output with audio- Результат сохранит изначальное аудио. Работает нормально только с (3.1) и (3.4). Не стабильная эксперементальная функция.
8.4) Perfect loop animation- Анимация будет идеально закольцована. Использовать, если оригинал это подразумевает.

9) If FPS exceed this value. Create another version with this FPS.- Если ФПС перейдет это значение(9.1), создать версию с этим [ФПС](9.1).
9.1) [FPS]= - переменная, определяющая предел ФПС.
9.2) (If FPS exceeds [FPS]) Create a [FPS] version of movie- Если был превышен лимит (9.1), то сгенерировать дополнительную версию с указанным ФПС(9.1) в виде видео.
9.2) (If FPS exceeds [FPS]) Interpolate down to [FPS] [Conf 1: Smooth]-  Если был превышен лимит (9.1), то сгенерировать версию с указанным ФПС(9.1). Будет задействована первая конфигурация. Результат будет более плавным.
9.3) (If FPS exceeds [FPS]) Interpolate down to [FPS] [Conf 2: Sharp]- Если был превышен лимит (9.1), то сгенерировать версию с указанным ФПС(9.1). Будет задействована Вторая конфигурация. Результат будет более резким.

10)
10.1)Preform all steps: Render- полностью выполнит процесс рендера.
10.2)Step 1: Split source video into frames- Только разделит фаил на кадры, создаст папку (2.3), и поместит их туда.
10.3)Step 2: Feed sorce frames to DAIN- Начинает процесс интерполяции оригинальных кадров и генерацию новых.
10.4)Step 3: Convert DAIN frames to video- Сшивание сгенерированных кадров в (2.2).

ОКНО ПРОЦЕССА
Говорить тут особо неочем: подробности процесса, количество готовых кадров.


Ну, вот вроде и все. Учтите, что универсальных настроек не существует, и почти всегда надо будет шаманить для лучшего результата.

Вероятностное улучшение фотографий по нескольким пикселям: модель Google Brain

,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Пример работы нейросети после обучения на базе лиц знаменитостей. Слева — исходный набор изображений 8×8 пикселей на входе нейросети, в центре — результат интерполяции до 32×32 пикселей по предсказанию модели. Справа — реальные фотографии лиц знаменитостей, уменьшенные до 32×32, с которых были получены образцы для левой колонки

Можно ли повышать разрешение фотографий до бесконечности? Можно ли генерировать правдоподобные картины на основе 64 пикселей? Логика подсказывает, что это невозможно. Новая нейросеть от Google Brain считает иначе. Она действительно повышает разрешение фотографий до невероятного уровня.

Такое «сверхповышение» разрешения не является восстановлением исходного изображения по копии низкого разрешения. Это синтез правдоподобной фотографии, которая вероятно могла быть исходным изображением. Это вероятностный процесс.

Когда стоит задача «повысить разрешение» фотографии, но на ней нет деталей для улучшения, то задачей модели является генерация наиболее правдоподобного изображения с точки зрения человека. В свою очередь, сгенерировать реалистичное изображение невозможно, пока модель не создала контуры и не приняла «волевое» решение о том, какие текстуры, формы и паттерны будут присутствовать в разных частях изображения.

Для примера достаточно посмотреть на КДПВ, где в левой колонке реальные тестовые изображения для нейросети. На них отсутствуют детали кожи и волос. Их никоим образом невозможно восстановить традиционными способами интерполяции вроде линейной или бикубической. Однако если предварительной обладать глубокими знаниями о всём разнообразии лиц и их типичных очертаниях (и зная, что здесь нужно увеличить разрешение именно лица), то нейросеть способна совершить фантастическую вещь — и «нарисовать» недостающие детали, которые с наибольшей вероятностью будут там.

Специалисты подразделения Google Brain опубликовали научную работу «Рекурсивное пиксельное суперразрешение», в которой описывают полностью вероятностную модель, обученную на наборе фотографий высокого разрешения и их уменьшенных копиях 8×8 для генерации изображений размером 32×32 из маленьких образцов 8×8.

Модель состоит из двух компонентов, которые обучаются одновременно: кондиционная нейросеть (conditioning network) и приор (prior network). Первая из них эффективно накладывает изображение низкого разрешения на распределение соответствующих изображений высокого разрешения, а вторая моделирует детали высокого разрешения, чтобы сделать финальную версию более реалистичной. Кондиционная нейросеть состоит из блоков ResNet, а приор представляет собой архитектуру PixelCNN.

Схематично модель изображена на иллюстрации.

prior network (PixeICNN)
conditioning network (CNN)
logits
HR
image,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Кондиционная свёрточная нейросеть получает на входе изображения низкого разрешения и выдаёт логиты — значения, которые предсказывают кондиционную логит-вероятность для каждого пикселя изображения с высоким разрешением. В свою очередь, свёрточная нейросеть приор делает предсказания, основанные на предыдущих случайных предсказаниях (обозначены пунктирной линией на схеме). Вероятностное распределение для всей модели вычисляется как softmax-оператор поверх суммы двух наборов логитов с кондиционной нейросети и приора.

Но как оценить качество работы такой сети? Авторы научной работы пришли к выводу, что стандартные метрики типа пикового отношения сигнал/шум (pSNR) и структурного сходства (SSIM) не способны корректно оценить качество предсказания для таких задач сверхсильного увеличения разрешения. По этим метрикам выходит, что лучший результат — это размытые картинки, а не фотореалистичные изображения, на которых чёткие и правдоподобные детали не совпадают по месту размещения с чёткими деталями настоящего изображения. То есть эти метрики pSNR и SSIM крайне консервативны. Исследования показали, что люди легко отзличают реальные фотографии от размытых вариантов, созданных регрессионными методами, а вот отличить сгенерированные нейросетью образцы от реальных фотографий им не так просто.

Посмотрим, какие результаты показывает модель, разработанная в Google Brain и обученная на наборе 200 000 лиц знаменитостей (набор фотографий CelebA) и 2 000 000 спальных комнат (набор фотографий LSUN Bedrooms). Во всех случаях фотографии перед обучением системы были уменьшены до размера 32×32 пикселя, а потом ещё раз до 8×8 методом бикубической интерполяции. Нейросети на TensorFlow обучались на 8 графических процессорах.

Результаты сравнивались по двум основным базам: 1) независимая попиксельная регрессия (Regression) c архитектурой, похожей на нейросеть SRResNet, которая показывает выдающиеся результаты по стандартным метрикам оценки качества интерполяции; 2) поиск ближайшего соседнего элемента (NN), который ищет в базе учебных образцов пониженного разрешения наиболее схожее изображение по близости пикселей в евклидовом пространстве, а затем возвращает соответствующую картинку высокого разрешения, из которой был сгенерирован этот учебный образец.

Нужно заметить, что вероятностная модель выдаёт результаты разного качества, в зависимости от температуры softmax. Вручную было установлено, что оптимальные значения τ лежат между 1,1 и 1,3. Но даже если установить τ=1.2, то всё равно каждый раз результаты будут разными.

,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


Различные результаты при запуске модели с температурой softmax τ=1.2

Оценить качестве работы вероятностной модели можете по образцам ниже:

Сравнение результатов по спальням





Сравнение результатов по лицам знаменитостей:


Для проверки реалистичности результатов учёные провели опрос черед краудсорсинг. Участникам показывали две фотографии: одну настоящую, а вторую сгенерированную различными методами из уменьшенной копии 8×8 и просили указать — какая фотография сделана камерой. 

Algorithm	pSNR	SSIM	MS-SSIM	Consistency	% Fooled
Bicubic	28.92	0.84	0.76	0.006	-
NN	28.18	0.73	0.66	0.024	-
Regression	29.16	0.90	0.90	0.004	4.0 ±0.2
r = 1.0	29.09	0.84	0.86	0.008	11.0 = 0.1
r = 1.1	29.08	0.84	0.85	0.008	10.4 = 0.2
r = 1.2	29.08	0.84	0.86	0.008	10.2 = 0.1
Bicubic	28.94	0.70


Сверху в таблице — результаты для базы лиц знаменитостей, снизу — для спальных комнат. Как видим, при температуре τ = 1.2 на фотографиях спальных комнат модель показала максимальный результат: в 27,9% случаях её выдача оказалась более реалистичной, чем настоящее изображение! Это явный успех. 

На иллюстрации внизу — самые удачные работы нейросети, в которых она «побила» оригиналы по реалистичности. Для объективности — и некоторые из худших.

Ours
Ground Truth
Ours
Ground Truth
23/40 = 57%
17/40 = 42%
16/40 = 40%
1/40 - 2%
1/40 = 2%
3/40 = 7%
4/40 = 1%
34/40 = 85%
30/40 = 75%

26/40 = 65%
3/40 = 7%
1/40 = 2%,нейросеть,повышение разрешения,Google Brain,geek новости,интерполяция,длиннопост


В области генерации фотореалистичных изображений с помощью нейросетей сейчас наблюдается очень бурное развитие. В 2017 году мы наверняка услышим много новостей на эту тему.

Взято с geektimes.
Здесь мы собираем самые интересные картинки, арты, комиксы, мемасики по теме (+3 постов - )