1. Генерация 3D-изображений с использованием 2D-диффузионных моделей (arXiv)

Автор: Цзяньфэн Сян, Цзяолун Ян, Бинбинь Хуан, Синь Тонг.

Аннотация: В этой статье мы представляем новый метод генерации 3D-изображений, который использует 2D-модели диффузии. Мы формулируем задачу генерации 3D-изображения как генерацию набора многоракурсных 2D-изображений, а далее — последовательный безусловно-условный процесс генерации многоракурсного изображения. Это позволяет нам использовать 2D-модели диффузии для повышения эффективности генеративного моделирования метода. Кроме того, мы включаем информацию о глубине от монокулярных оценок глубины, чтобы построить обучающие данные для модели условной диффузии, используя только неподвижные изображения. Мы обучаем наш метод крупномасштабному набору данных, то есть ImageNet, к которому не обращались предыдущие методы. Он производит высококачественные изображения, которые значительно превосходят предыдущие методы. Кроме того, наш подход демонстрирует способность генерировать экземпляры с большими углами обзора, даже несмотря на то, что тренировочные изображения разнообразны и не выровнены, собраны из «диких» реальных сред.

2. Устранение смещения оценок и подсказок 2D-диффузии для надежного преобразования текста в 3D (arXiv)

Автор: Сусон Хон, Донхун Ан, Сын Рён Ким.

Аннотация: Проблема несоответствия представления при преобразовании текста в 3D-генерацию, также известная как проблема Януса, возникает из-за внутренней предвзятости 2D-моделей диффузии, что приводит к нереалистичному созданию 3D-объектов. В этой работе мы исследуем преобразование текста в 3D с помощью партитуры и определяем основные причины проблемы Януса. Основываясь на этих выводах, мы предлагаем два подхода к устранению предвзятости сред оценки и дистилляции для надежного преобразования текста в 3D. Наш первый подход, называемый устранением смещения оценки, включает в себя постепенное увеличение значения усечения для оценки, оцениваемой с помощью 2D-моделей диффузии, на протяжении всего процесса оптимизации. Наш второй подход, называемый устранением смещения подсказок, идентифицирует конфликтующие слова между подсказками пользователя и подсказками просмотра, используя языковую модель, и регулирует несоответствие между подсказками просмотра и позами камеры в объектном пространстве. Наши экспериментальные результаты показывают, что наши методы улучшают реалистичность за счет значительного уменьшения артефактов и достижения хорошего компромисса между точностью 2D-моделей диффузии и согласованностью 3D с небольшими накладными расходами.