Если Lucene ShingleFilter можно использовать для токенизации строки в шинглы или энграммы разных размеров, например:
"please divide this sentence into shingles"
Становится:
shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"
Кто-нибудь знает, можно ли это использовать в сочетании с другими анализаторами для возврата частот найденных биграмм или триграмм, например:
"please divide this please divide sentence into shingles"
Вернул бы 2 для «пожалуйста, разделите»?
Я должен добавить, что мои строки создаются из базы данных, а затем индексируются Lucene в памяти и не сохраняются. Использование других продуктов, таких как Solr, не предусмотрено.