refactor: change unicode tokenizer logic #34

silver-ymz · 2025-02-05T13:41:00Z

bench

NDCG@10:

Signed-off-by: Mingzhuo Yin <[email protected]>

VoVAllen · 2025-02-06T00:38:43Z

LGTM. Can you make NLTK stopword as default?

Signed-off-by: Mingzhuo Yin <[email protected]>

silver-ymz · 2025-02-06T05:00:48Z

updated.

Should we move fordked rust-stemmers repo from silver-ymz/rust-stemmers to tensorchord/rust-stemmers? I don't have permission.

VoVAllen · 2025-02-06T07:06:44Z

change unicode tokenizer logic

5976751

Signed-off-by: Mingzhuo Yin <[email protected]>

silver-ymz requested a review from VoVAllen February 5, 2025 13:42

set nltk stopwords as default

88270a8

Signed-off-by: Mingzhuo Yin <[email protected]>

VoVAllen merged commit ea9849b into main Feb 6, 2025
5 checks passed