Все GPT-2: 5. Тонкая настройка

Специализируйте GPT-2 для повышения производительности с любым текстом

Эта статья является частью серии статей о GPT-2. Лучше всего начать с самого начала. Ссылки расположены внизу страницы.

Что такое точная настройка?
GPT-2 был обучен на 40 гигабайтах текста по разным предметам. Он очень хорошо генерирует текст, но его можно улучшить, обучив его тексту, специфичному для его приложения. Этот процесс называется трансферным обучением.

Перед запуском любого учебника см. Эту статью для настройки. Лучше всего читать эту статью в интерактивном режиме:

  1. Finetune с GPT-2 Simple - мы будем использовать это для обучения варианта 774M, потому что этот пакет немного более эффективен с памятью.
  2. Тонкая настройка с помощью утилиты Transformers’ Trainer - учебное пособие предоставляется, потому что это лучший способ обучить GPT-2, если вы можете получить доступ к достаточному объему памяти. Утилита Trainer работает быстрее, и модель уже преобразована в Pytorch 1.x. Я попытался запустить вариант 774M с 16 гигабайтами памяти, но память все равно закончилась. Таким образом, учебное пособие выполняется с вариантом 355M.

Статьи из серии:
Все GPT-2: 0. Введение
Все GPT-2: 1. Обзор архитектуры
Все GPT-2: 2. Подробно об архитектуре
Все GPT-2: 3. Инструменты
Все GPT-2: 4. Подготовка данных
Все GPT-2: 5. Тонкая настройка
Все GPT-2: 6. Оптимизация
Все GPT-2: 7. Производство

Все ресурсы для статей этой серии централизованы в этой папке на Google Диске.

(В сторону) Параметр 355 миллионов и уменьшенные версии GPT-2 - это круто, но не впечатляет. Как только вы дойдете до версии с 774 миллионами параметров, результаты станут достаточно надежными, чтобы быть полезными, но вам понадобится тонна памяти для их точной настройки. По сути, вы вынуждены использовать распределенное обучение с использованием нескольких графических процессоров. Если у вас есть опыт или идеи, напишите мне. Узкое место в памяти очень расстраивает, поскольку, как вы увидите в разделе оптимизации, вы можете запускать даже большие модели со временем генерации текста менее 1 секунды.

Вы нашли это ценным?
Если нет, напишите в Твиттере мне и оставьте отзыв.
Если да, то пришлите мне пенсы за мои мысли.