Использование Lucene ShingleFilter для извлечения частот биграмм в Lucene

Если Lucene ShingleFilter можно использовать для токенизации строки в шинглы или энграммы разных размеров, например:

"please divide this sentence into shingles"

Становится:

shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"

Кто-нибудь знает, можно ли это использовать в сочетании с другими анализаторами для возврата частот найденных биграмм или триграмм, например:

"please divide this please divide sentence into shingles"

Вернул бы 2 для «пожалуйста, разделите»?

Я должен добавить, что мои строки создаются из базы данных, а затем индексируются Lucene в памяти и не сохраняются. Использование других продуктов, таких как Solr, не предусмотрено.


person Mr Morgan    schedule 03.09.2012    source источник


Ответы (1)


В итоге я передал свой snowballAnalyzer и standardAnalyzers в качестве параметров в ShingleFilterWrappers и обработал выходные данные с помощью TermVectorMapper.

person Mr Morgan    schedule 06.09.2012