Конвейер НЛП

Конвейер NLP (обработка естественного языка) — это, по сути, набор шагов, которые необходимы, когда вы создаете комплексное приложение NLP в реальном мире.

шаги, как показано ниже:

Data Aquisition (сбор данных)
Подготовка текста
Разработка функций
Моделирование
Развертывание

Давайте обсудим все шаги один за другим ;)

Сбор данных:

Если у вас есть готовый набор текстовых данных в виде файла .csv, вы можете продолжить следующие шаги.

Или если у вас нет готового набора данных, но его можно получить из базы данных компании. Затем вы обращаетесь за помощью к команде Data Engineering для набора данных или можете сделать это самостоятельно.

Теперь, что, если вы делаете несколько совершенно новых проектов. Итак, очевидно, что набор данных по вашему требованию нигде не будет доступен. Затем вам нужно выполнить некоторые задачи по сбору данных, такие как удаление веб-страниц, очистка данных, предварительная обработка данных и т. д.

Подготовка текста:

Хорошо, теперь вы подготовили набор данных. Ваши данные в основном тексты. Вы не можете передать текстовые данные напрямую в свою модель. Данные должны быть предварительно обработаны в первую очередь. Например, удаление знаков препинания, нормализация текста (преобразование всего в нижний или верхний регистр), выделение корней, лемматизация и т. д.

Существует 3 типа обработки текста:

Очистка текста (тег HTML, эмодзи, проверка орфографии)
Базовая предварительная обработка (токенизация)
Расширенная предварительная обработка (удаление стоп-слов, выделение корней, лемматизация, определение языка)

Разработка функций:

Создание данных в требуемом формате, например, в файле .csv. После применения предварительной обработки к текстам мы должны привести тексты к желаемой структуре.

Моделирование:

Построение модели: создание архитектуры модели, рисование блок-схем и, наконец, кодирование модели.
Оценка: тестирование Модели, отслеживание ее характеристик и сравнение с моделями других конкурентов. А также улучшить производительность модели.

Развертывание:

И, наконец, развертывание окончательной обученной модели на рабочем сервере. После развертывания вы будете отслеживать производительность вашего продукта, обновлять модель в соответствии с текущей ситуацией и технологией.