README.md

opus-2020-10-04.zip

dataset: opus
model: transformer
source language(s): eng hoc hoc_Latn kha khm khm_Latn mnw vie vie_Hani
target language(s): eng hoc hoc_Latn kha khm khm_Latn mnw vie vie_Hani
model: transformer
pre-processing: normalization + SentencePiece (spm32k,spm32k)
a sentence initial language token is required in the form of >>id<< (id = valid target language ID)
download: opus-2020-10-04.zip
test set translations: opus-2020-10-04.test.txt
test set scores: opus-2020-10-04.eval.txt

dataset: opus4m+btTCv20210807
model: transformer
source language(s): eng hoc kha khm mnw ngt sat vie
target language(s): eng hoc kha khm mnw ngt sat vie
model: transformer
pre-processing: normalization + SentencePiece (spm32k,spm32k)
a sentence initial language token is required in the form of >>id<< (id = valid target language ID)
valid language labels: >>eng<< >>vie<< >>khm<< >>khm_Latn<<
download: opus4m+btTCv20210807-2021-09-30.zip
test set translations: opus4m+btTCv20210807-2021-09-30.test.txt
test set scores: opus4m+btTCv20210807-2021-09-30.eval.txt

testset	BLEU	chr-F	#sent	#words	BP
Tatoeba-test-v2021-08-07.kha-vie	2.1	0.078	4	39	0.947
Tatoeba-test-v2021-08-07.khm-vie	37.8	0.581	18	101	1.000
Tatoeba-test-v2021-08-07.multi-multi	28.1	0.412	10000	73768	0.984
Tatoeba-test-v2021-08-07.vie-kha	2.2	0.097	4	37	0.973
Tatoeba-test-v2021-08-07.vie-khm	2.3	0.367	18	37	1.000
Tatoeba-test-v2021-08-07.vie-vie	61.8	0.738	542	6349	0.962
tico19-test.eng-khm	11.0	0.574	2100	20941	0.685
tico19-test.khm-eng	31.1	0.582	2100	56848	1.000