1. Контролируемое контрастное обучение с гетерогенным сходством для сдвигов распределения (arXiv)

Автор : Такуро Куцуна

Аннотация: Сдвиги распределения — это проблемы, связанные с изменением распределения данных между обучением и тестированием, что может значительно ухудшить производительность модели, развернутой в реальном мире. Недавние исследования показывают, что одной из причин деградации является тип переоснащения и что правильная регуляризация может смягчить деградацию, особенно при использовании высокорепрезентативных моделей, таких как нейронные сети. В этой статье мы предлагаем новую регуляризацию с использованием контролируемого контрастного обучения, чтобы предотвратить такое переобучение и обучить модели, которые не ухудшают свою производительность при сдвигах распределения. Мы расширяем косинусное сходство при контрастной потере до более общей меры сходства и предлагаем использовать разные параметры в этой мере при сравнении выборки с положительным или отрицательным примером, что, как аналитически показано, действует как своего рода предел при контрастной потере. Эксперименты с эталонными наборами данных, которые имитируют сдвиги распределения, включая сдвиг субпопуляций и генерализацию области, демонстрируют преимущество предлагаемого метода перед существующими методами регуляризации.

2. Сравнительный анализ устойчивости к естественным сдвигам распределения (arXiv)

Автор: Аадитья Сингх, Картик Сарангматх, Притхвиджит Чаттопадхьяй, Джуди Хоффман.

Аннотация: Устойчивость к естественным изменениям распределения достигла значительного прогресса благодаря недавним стратегиям предварительного обучения в сочетании с более совершенными методами точной настройки. Однако такая тонкая настройка предполагает доступ к большим объемам помеченных данных, и степень, в которой наблюдения сохраняются, когда объем обучающих данных не так велик, остается неизвестным. Мы устраняем этот пробел, проводя первое углубленное исследование устойчивости к различным естественным сдвигам распределения в различных режимах с низким уровнем выбросов: охватывая наборы данных, архитектуры, предварительно обученные инициализации и современные меры по обеспечению устойчивости. Самое главное, мы обнаружили, что не существует какой-то одной модели, которая часто была бы более надежной, чем другие, и существующие меры могут не улучшить надежность некоторых наборов данных, даже если они делают это в полномасштабном режиме. Мы надеемся, что наша работа побудит сообщество сосредоточиться на этой проблеме практического значения.