Обзор От описаний изображений к визуальным обозначениям: новые метрики подобия для семантического вывода по описаниям событий

Семантическая интерпретация или вывод о значении текста является фундаментальным шагом в понимании языка. Опираясь на нашу человеческую способность создавать воображаемые образы по запросу описания, в этой статье представлен новый подход к автоматическому выявлению сходства между описаниями повседневных ситуаций с помощью наборов изображений и надписей, подробно описанных ниже. Существующие подходы включают стандартные дистрибутивные подходы к лексическому сходству, заключающиеся в том, что «лингвистические выражения, встречающиеся в схожих контекстах, имеют сходное значение». Это было выполнено с использованием дистрибутивных сходств на основе векторов, которые рассчитываются путем представления каждого слова в виде вектора на основе подсчета появления слова с другими словами.

В то время как стандартные дистрибутивные подходы успешно определяют, какие слова связаны с более широкими темами, и предлагают полезные функции для семантической интерпретации, такие подходы терпят неудачу, когда им нужно уловить точное следствие между сложными выражениями.

В данной статье представлен денотативный подход. Интуитивно статья следует условной точке зрения истинности, так что мы можем создать «обозначение» повествовательного предложения как множество всех возможных миров, в которых предложение истинно.

Чтобы зафиксировать это, статья устанавливает денотацию некоторого предложения как набор описываемых им образов. То есть определите функцию интерпретации[·] как функцию, которая отображает предложения или подписи к их визуальным обозначениям (наборам изображений, которые заголовок может правдиво описать). Формально, если s — предложение, а i — образ, то

[s] ={i∈U|является правдивым описанием i}

Затем в документе строится граф обозначений, чтобы упорядочить более конкретные и менее конкретные подписи. Это так называемые иерархии подчинения.

Работа опирается на базу данных изображений повседневной деятельности, где каждое изображение описывается несколькими подписями. Их корпус содержит 158 439 уникальных подписей и 31 783 изображения, граф денотации содержит 1 749 097 подписей, из которых 230 811 описывают более одного изображения. Существуют также различные методы очистки подписей, такие как нормализация времен и очистка формата.

Еще один метод заметки - построение гипернимной лексики. Для каждого заглавного существительного, определение которого неясно, просмотрите каждую цепочку кореферентности, в которой оно появляется, а затем сократите его наборы до тех, которые находятся в отношениях гипероним-гипоним хотя бы с одним другим заглавным существительным в цепочке. Затем используйте жадный алгоритм голосования большинством, чтобы сократить до одного синсета. Алгоритм жадного мажоритарного голосования гарантирует, что выбранный синсет совместим с наибольшим количеством цепочек кореферентности. Алгоритм построения графа денотатов использует «чисто синтаксические и лексические правила для создания более простых подписей». Обратите внимание, что, поскольку каждое изображение связано с несколькими подписями (а каждая подпись — с несколькими изображениями), граф может отображать более тонкие отношения, такие как сходство между синтаксическими и лексически не связанными описаниями (поскольку отношение графа может охватывать обе части информации).

В статье оценивается полезность графа денотатов для двух разных задач, обе из которых требуют семантического вывода текстовой информации. Одной из них является приближенная задача распознавания следствий, направленная на определение того, описывает ли подпись к изображению то же самое изображение, что и другой набор из четырех подписей. Метрикой оценки для этой задачи является стандартная разница между встраиванием двух слов в слово tovec. Вторая задача — это задача на семантическое сходство текста, которая представляет собой расширенную версию обнаружения перефразирования.

Эта статья очень полезна, потому что в ней представлен новый метод изучения отношения между различными предложениями, включая иерархию того, что является родовым и конкретным утверждением. Кроме того, успех в результатах указывает на то, что граф денотатов, который фиксирует денотативные сходства, по крайней мере так же эффективен, как и стандартные подходы к текстовому сходству, показывая, что в этом направлении есть перспективы.

Тем не менее, я думаю, что следует больше обсуждать данные, которые предоставляют подписи. Например, в статье используются только позитивные подписи (наличие элементов вместо отсутствия элементов). Было бы интересно посмотреть, что произойдет с субъективными подписями, которые, вероятно, чаще встречаются в тексте. Кроме того, в документе отсутствует анализ распределения изображений и подписей, которые они используют. Думаю, не сразу понятно, что распределения изображений, которые содержит корпус, совпадают с распределениями подписей во всем тексте. Наконец, я думаю, что оценка через сходство слова с вектором немного сбивает с толку, поскольку оптимизация с использованием этой структуры должна быть наиболее оптимальной.