Использование Lucene ShingleFilter для извлечения частот биграмм в Lucene

Если Lucene ShingleFilter можно использовать для токенизации строки в шинглы или энграммы разных размеров, например:

"please divide this sentence into shingles"

Становится:

shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"

Кто-нибудь знает, можно ли это использовать в сочетании с другими анализаторами для возврата частот найденных биграмм или триграмм, например:

"please divide this please divide sentence into shingles"

Вернул бы 2 для «пожалуйста, разделите»?

Я должен добавить, что мои строки создаются из базы данных, а затем индексируются Lucene в памяти и не сохраняются. Использование других продуктов, таких как Solr, не предусмотрено.

filtering lucene n-gram

Mr Morgan 03.09.2012 источник

Ответы (1)

arrow_upward
0
arrow_downward

В итоге я передал свой snowballAnalyzer и standardAnalyzers в качестве параметров в ShingleFilterWrappers и обработал выходные данные с помощью TermVectorMapper.

Mr Morgan 06.09.2012

Использование Lucene ShingleFilter для извлечения частот биграмм в Lucene

Ответы (1)

Похожие вопросы