Две минуты НЛП — Краткое введение в стог сена

Ответы на вопросы, семантический поиск и конвейер Retriever-Reader

Здравствуйте, любители НЛП! Я всегда нахожу увлекательным экспериментировать с встраиванием слов и выполнять с ними семантический поиск или рекомендательные системы. Именно поэтому мне приятно рассказать о готовом к работе фреймворке, позволяющем масштабировать эти задачи с огромным количеством документов. Наслаждаться! 😄

Стог сена, созданный deepset, представляет собой среду NLP с открытым исходным кодом, которая использует модели Transformer, призванную стать мостом между исследованиями и промышленностью в области нейронного поиска, ответов на вопросы, семантического поиска документов и обобщение. Это модульная структура, которая интегрируется с другими проектами с открытым исходным кодом, такими как Huggingface’s Transformers, Elasticsearch или Milvus.

Варианты использования стога сена

Основные варианты использования Haystack:

Ответы на вопросы: задавайте вопросы на естественном языке и находите детальные ответы в своих документах.
Семантический поиск: поиск документов по смыслу запроса, а не по его ключевым словам.
Резюме: задайте общий вопрос и получите сводку наиболее релевантных найденных документов.
Генерация вопросов: принимает документ в качестве входных данных и возвращает сгенерированные вопросы, на которые документ может ответить.

Например, ответы на вопросы и семантический поиск можно использовать для лучшей обработки длинного хвоста запросов, которые получают чат-боты, или для автоматизации процессов путем автоматического применения списка вопросов к новым документам и использования извлеченных ответов.

Кроме того, с Haystack можно:

Используйте предварительно обученные модели (например, BERT, RoBERTa, MiniLM) или настройте их для конкретных областей.
Собирайте отзывы пользователей, чтобы оценивать, сравнивать и постоянно улучшать модели.
Масштабируйте до миллионов документов с помощью ретриверов, готовых серверных частей, таких как Elasticsearch или FAISS, и REST API fastAPI.

Как это работает

Haystack работает, используя конвейеры Retriever-Reader. Конвейер Retriever-Reader использует возможности чтения Reader и применяет их к большим базам документов с помощью Retriever.

Но что такое ридеры и ретриверы?

Читателиявляются системами ответов на вопросы с закрытым доменом: мощные модели, которые анализируют документы и выполняют в них задачу ответа на вопрос. Они основаны на новейших языковых моделях на основе преобразователя и используют ускорение графического процессора. Однако неэффективно использовать Reader непосредственно для большой коллекции документов.
Retriever помогает читателю, действуя как фильтр, уменьшающий количество документов, которые должен обработать читатель. Для этого он просматривает все документы в базе данных, идентифицирует релевантные (обычно небольшое подмножество) и передает их считывателю.

Вот схема, которая обобщает конвейер Retriever-Reader.

Создать хранилище документов, заполнить его и задать запросы можно с помощью нескольких строк кода Python.

Доступна онлайн-демонстрация, которая работает на избранных страницах Википедии по теме страны и столицы. Вы можете задать любой вопрос по этой теме и посмотреть, сможет ли Haystack найти правильный ответ в своей базе знаний.

Спасибо за чтение! Если вы хотите узнать больше о НЛП, не забудьте подписаться на NLPlanet в Medium, LinkedIn и Twitter!

Сообщения, связанные с NLPlanet

Две минуты NLP — шпаргалка SpaCy
Тегирование POS, анализ зависимостей, NER и сходство предложенийmedium.com

НЛП за две минуты — таксономия методов токенизации
на уровне слов, на уровне символов, BPE, WordPiece и SentencePiecemedium.com

Потрясающий НЛП — 21 популярная библиотека НЛП 2022 года
Ландшафт библиотек НЛПmedium.com

Две минуты НЛП — Краткое введение в стог сена

Ответы на вопросы, семантический поиск и конвейер Retriever-Reader

Варианты использования стога сена

Как это работает

Похожие вопросы