Обработка естественного языка (NLP) - это отрасль науки о данных, которая занимается текстовыми данными. Помимо числовых данных, в значительной степени доступны текстовые данные, которые используются для анализа и решения бизнес-задач. Но прежде чем использовать данные для анализа или прогнозирования, важна их обработка.

Предварительная обработка текста традиционно является важным этапом в задачах обработки естественного языка (NLP). Он преобразует текст в более удобоваримую форму, чтобы алгоритмы машинного обучения могли работать лучше.

Чтобы подготовить текстовые данные для построения модели, мы выполняем предварительную обработку текста. Это самый первый шаг проектов НЛП. Некоторые из этапов предварительной обработки:

  • Удаление знаков препинания вроде. ,! $ () *% @
  • Удаление URL-адресов
  • Удаление стоп-слов
  • Нижний кожух
  • Токенизация
  • Стемминг
  • Лемматизация и тд.

Итак, мы придумали библиотеку автоматической предварительной обработки данных для приложений НЛП, названную «Очиститель данных». Он может выполнять все задачи предварительной обработки автоматически.

Очиститель данных

Библиотека Python для автоматизированного исследовательского анализа данных, автоматической очистки данных и автоматической предварительной обработки данных для приложений машинного обучения и обработки естественного языка в Python.

Установка

Для использования Data-Purifier рекомендуется создать новую среду:

conda create -n <your_env_name> python=3.6 anaconda
conda activate <your_env_name> # ON WINDOWS

Установите необходимые зависимости:

pip install data-purifier
python -m spacy download en_core_web_sm

Выполнение автоматической предварительной обработки НЛП с использованием библиотеки Очиститель данных

Пример фрагмента кода

Ознакомьтесь с примером записной книжки Colab, чтобы узнать о примерах и деталях реализации.