
В фильме 1975 года Томми «глухой, немой и слепой» главный герой преодолевает существенные сенсорные ограничения, чтобы запечатлеть чемпионат по пинболу. Хотя трудно представить, что вы играете в видеоигру, не имея возможности видеть экран, эту задачу взяли на себя исследователи искусственного интеллекта из INESC-ID и Instituto Superior Técnico в Лиссабоне и Университета Карнеги-Меллона в Питтсбурге. Используя методы кросс-модального переноса и обучения с подкреплением (RL), исследователи создали агента, который может играть в видеоигры, руководствуясь только игровым звуком.
В некоторых отношениях политика RL, усвоенная через ввод изображения и звука, успешная, когда доступны только звуковые вводы, имитирует доступный процесс использования сенсорных данных, который является второй натурой для людей - мы используем осязание и слух, например, для навигации по темной комнате.
Новый подход RL с кросс-модальностью передачи исследует, как скрытые представления, построенные с помощью методов усовершенствованного вариационного автокодировщика (VAE), могут позволить агентам RL изучать и передавать политики по различным входным модальностям.
Исследователи объединили различные способы ввода в скрытом пространстве, что позволило агенту RL устанавливать сопоставления между ними. Затем обученный агент RL был направлен на выполнение задач, доступ к которым был ограничен определенным подмножеством доступных модальностей (например, изображением). Наконец, агенту RL был предоставлен доступ к другому подмножеству модальностей (например, звук), и он снова выполнил задачу. Исследователи сравнивают этот «трехступенчатый конвейер» с изучением модели восприятия мира, обучением политикам действовать в этом мире и передачей политик. Они использовали конвейер для создания агента RL «AVAEs DQN».

Исследователи разработали эксперименты со сценарием гипервыстрела, вдохновленные видеоигрой Atari Space Invaders, чтобы проверить свою модель. Как и в классической игре, агент RL должен стрелять волнами спускающихся атакующих, уклоняясь от их ответного огня.

Исследователи установили, что наблюдения включают как изображения, так и звуковые компоненты. Агент RL научился играть в игру (действовать в мире) на основе наблюдения за изображениями и разработал политики, которые отображали скрытое пространство на действия. Затем производительность агента RL оценивалась только с помощью звукового наблюдения, но с использованием политик, разработанных на последнем этапе, где скрытое пространство действует как механизм для создания сопоставления между различными входными модальностями.

Подход кросс-модальности передачи AVAE + DQN повысил эффективность алгоритма и обеспечил эффективную передачу политики между различными модальностями. Этот метод значительно превосходит неподготовленного агента (RANDOM), достигая производительности, сравнимой с производительностью Sound DQN, который представляет агента RL, обученного и испытанного на звуковой модальности.
Image DQN, обученный и протестированный на модальности изображения, показал наиболее информативный подход к восприятию, хотя в нем отсутствует возможность передачи политики.
Статья Игры в темноте: подход к передаче кросс-модальности в обучении с подкреплением находится на arXiv.
Автор: Линьян Ю | Редактор: Майкл Саразен
NeurIPS 2019 WeBank AI Night »приглашает ученых и лидеров отрасли из ведущих организаций обсудить будущее FL и AI, а также анонсирует последние партнерские отношения крупнейшего цифрового банка с Tencent и Монреальским институтом. для алгоритма обучения (MILA).

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!
Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.
