Skip to content

Commit

Permalink
updated dev and test data (v2023-09-26)
Browse files Browse the repository at this point in the history
  • Loading branch information
jorgtied committed Oct 18, 2023
1 parent b2f9ce4 commit 6faf2da
Show file tree
Hide file tree
Showing 1,772 changed files with 334,510 additions and 334,420 deletions.
24 changes: 11 additions & 13 deletions Makefile
Original file line number Diff line number Diff line change
Expand Up @@ -334,11 +334,17 @@ all: opus-langpairs3.txt
${MAKE} released-remove-empty
${MAKE} dev-tsv test-tsv test-release dev-release
${MAKE} ${DATADIR}/README.md
${MAKE} subsets
${MAKE} langids subsets
${MAKE} extra-statistics
${MAKE} released-data-counts
${MAKE} release-tag

fix-release-2023:
${MAKE} dev-tsv test-tsv test-release dev-release
${MAKE} ${DATADIR}/README.md
${MAKE} langids subsets



## TODO: there is some kind of memory-leak somewhere that causes jobs to crahs
## some dataset seems to require a lot of memory (langid or shuffling?)
Expand Down Expand Up @@ -1144,12 +1150,8 @@ ${RELEASEDIR}/%/test.id:
mkdir -p ${dir $@}
cat ${patsubst ${RELEASEDIR}/%/test.id,${DEVTESTDIR}/%,$@}/test-*.txt |\
sed "s/ *\t/\t/g;s/ *$$//" | sort -u > $@.merged
cut -f3 $@.merged | langscript -3 -r -D \
-l $(firstword $(subst -, , $(patsubst ${RELEASEDIR}/%/test.id,%,$@))) \
${FIXLANGIDS} > $@.srcid
cut -f4 $@.merged | langscript -3 -r -D \
-l $(lastword $(subst -, , $(patsubst ${RELEASEDIR}/%/test.id,%,$@))) \
${FIXLANGIDS} > $@.trgid
cut -f1,3 $@.merged | langscript -3 -r -D -L ${FIXLANGIDS} > $@.srcid
cut -f2,4 $@.merged | langscript -3 -r -D -L ${FIXLANGIDS} > $@.trgid
paste $@.srcid $@.trgid > $@
# cut -f1,2 [email protected] > $@
cut -f3 [email protected] > ${dir $@}test.src
Expand All @@ -1164,12 +1166,8 @@ ${RELEASEDIR}/%/dev.id:
-cat ${patsubst ${RELEASEDIR}/%/dev.id,${DEVTESTDIR}/%,$@}/dev-*.txt |\
sed "s/ *\t/\t/g;s/ *$$//" | sort -u > $@.merged
if [ -s $@.merged ]; then \
cut -f3 $@.merged | langscript -3 -r -D \
-l $(firstword $(subst -, , $(patsubst ${RELEASEDIR}/%/dev.id,%,$@))) \
${FIXLANGIDS} > $@.srcid; \
cut -f4 $@.merged | langscript -3 -r -D \
-l $(lastword $(subst -, , $(patsubst ${RELEASEDIR}/%/dev.id,%,$@))) \
${FIXLANGIDS} > $@.trgid; \
cut -f1,3 $@.merged | langscript -3 -r -D -L ${FIXLANGIDS} > $@.srcid; \
cut -f2,4 $@.merged | langscript -3 -r -D -L ${FIXLANGIDS} > $@.trgid; \
paste $@.srcid $@.trgid > $@; \
cut -f3 $@.merged > ${dir $@}dev.src; \
cut -f4 $@.merged > ${dir $@}dev.trg; \
Expand Down
7 changes: 7 additions & 0 deletions data/Releases.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,3 +23,10 @@
* [Bilingual training data](README-v2023-09-26.md) (v2023-09-26), language-pair specific downloads
* [Extra bilingual training data](subsets/NoTestData-v2023-09-26.md) (v2023-09-26), language-pair specific downloads

# Release v2023-09-26

* [Test data](https://object.pouta.csc.fi/Tatoeba-Challenge-devtest/test-v2023-09-26.tar) (v2023-09-26)
* [Development data](https://object.pouta.csc.fi/Tatoeba-Challenge-devtest/dev-v2023-09-26.tar) (v2023-09-26)
* [Bilingual training data](README-v2023-09-26.md) (v2023-09-26), language-pair specific downloads
* [Extra bilingual training data](subsets/NoTestData-v2023-09-26.md) (v2023-09-26), language-pair specific downloads

2 changes: 1 addition & 1 deletion data/dev/ara-ara/dev.txt
Original file line number Diff line number Diff line change
@@ -1 +1 @@
ara ara اليهودية جميلة. اليهوديه حلوة.
ara arz اليهودية جميلة. اليهوديه حلوة.
16 changes: 8 additions & 8 deletions data/dev/ara-ber/dev.txt
Original file line number Diff line number Diff line change
Expand Up @@ -1048,11 +1048,11 @@ ara ber_Latn يوسف، يعقوب، إسحاق، إسماعيل و إبراهي
ara ber_Tfng الكرة الآن في ملعبك! ⵜⴰⵡⵊⵊⴰ ⵖⵉⵍⴰ ⴷⵉ ⵓⴱⴰⵔⴰⵣ ⵏⵏⴽ
ara ber_Tfng ذهبت أمي إلى السوق. ⵜⴷⴷⴰ ⵢⵎⵎⴰ ⵖⵔ ⵓⴳⴰⴷⴰⵣ.
ara ber_Tfng ذهبت اليوم إلى الطبيب ⴷⴷⵉⵖ ⴰⵙⵙ ⵖⵔ ⵓⵎⵙⴰⵙⴼⴰⵔ
ara ber_Latn .Cefna dak lfilm mɛabaɛḍ Nwala asaru-nni akken.
ara ber_Latn .Creb qahwet-u ntaɛ ssbaḥ Yeswa lqahwa-s n tnezzayt.
ara ber_Latn .Ma crebtec lma Ur swiɣ ara aman.
ara ber_Latn .Ma gal la, ma gal ih Ur yugi, ur yebɣi.
ara ber_Latn أنا ماشي أمير. Nekk maci d ageldun.
ara ber_Latn الفلسطينيين ماشي إرهاب. Ifalesṭiniyen maci d iremmaɣen.
ara ber_Latn دزاير ماشي بْلاد رأسمالية. Lezzayer maci d tamurt tameẓrihrit.
ara ber_Latn ماشي الفكرة تاعهم. Tin mačči d takti-nsen.
arq ber_Latn .Cefna dak lfilm mɛabaɛḍ Nwala asaru-nni akken.
arq ber_Latn .Creb qahwet-u ntaɛ ssbaḥ Yeswa lqahwa-s n tnezzayt.
arq ber_Latn .Ma crebtec lma Ur swiɣ ara aman.
arq ber_Latn .Ma gal la, ma gal ih Ur yugi, ur yebɣi.
arq ber_Latn أنا ماشي أمير. Nekk maci d ageldun.
arq ber_Latn الفلسطينيين ماشي إرهاب. Ifalesṭiniyen maci d iremmaɣen.
arq ber_Latn دزاير ماشي بْلاد رأسمالية. Lezzayer maci d tamurt tameẓrihrit.
arq ber_Latn ماشي الفكرة تاعهم. Tin mačči d takti-nsen.
42 changes: 21 additions & 21 deletions data/dev/ara-deu/dev.txt
Original file line number Diff line number Diff line change
@@ -1,13 +1,13 @@
ara deu أود ان اهرب من هنا. Ich möchte von hier entfliehen.
ara deu الأمريكيون أصدقائنا. Die Amis sind unsere Freunde.
ara deu الراديو لايعمل. Das Radio funktioniert nicht.
ara deu انا لا احب ان افاجئ. Ich werde nicht gerne überrascht.
ara deu توم التقى ماريا صدفة مرة اخرى في السوبرماركت. Tom hat Mary neulich zufällig im Supermarkt getroffen.
ara deu لقد حذرته من الخطر. Ich habe ihn vor der Gefahr gewarnt.
ara deu متى ستذهب؟ Wann gehst du weg?
ara deu متى ستغادر؟ Wann gehst du weg?
ara deu مرحبا شباب! كيف حالكم؟ Hallo, Leute! Was geht ab?
ara deu Kifak? Wie geht’s dir?
afb deu أود ان اهرب من هنا. Ich möchte von hier entfliehen.
afb deu الأمريكيون أصدقائنا. Die Amis sind unsere Freunde.
afb deu الراديو لايعمل. Das Radio funktioniert nicht.
afb deu انا لا احب ان افاجئ. Ich werde nicht gerne überrascht.
afb deu توم التقى ماريا صدفة مرة اخرى في السوبرماركت. Tom hat Mary neulich zufällig im Supermarkt getroffen.
afb deu لقد حذرته من الخطر. Ich habe ihn vor der Gefahr gewarnt.
afb deu متى ستذهب؟ Wann gehst du weg?
afb deu متى ستغادر؟ Wann gehst du weg?
afb deu مرحبا شباب! كيف حالكم؟ Hallo, Leute! Was geht ab?
apc deu Kifak? Wie geht’s dir?
ara deu آمل أن هذا قد أعجبكم, وأنكم تعودون قريباً. Ich hoffe, dass es euch gefallen hat und dass ihr bald wiederkommt.
ara deu أأنت مؤلف هذا الكتاب؟ Bist du der Schriftsteller dieses Buches?
ara deu أبي ساكن في منزل محتلّ. Mein Vater wohnt in einem besetzen Haus.
Expand Down Expand Up @@ -1044,14 +1044,14 @@ ara deu يوجد جفاف. Es herrscht Dürre.
ara deu يوجد دماء على يدك Du hast Blut an deiner Hand.
ara deu يوجد في العالم القليل من الأخصائيين الذين يمكنهم معالجة هذا المرض. Es gibt nur einige wenige Spezialisten auf der Welt, die diese Krankheit behandeln können.
ara deu يوجد قرب النهر قلعة قديمة. In der Nähe vom Fluss steht ein altes Schloss.
ara deu استنّاوها Wartet auf sie!
ara deu الرايس أوباما زاد في هاواي. Präsident Obama wurde auf Hawaii geboren.
ara deu كان يحبهم ڨاع Er liebte sie alle.
ara deu يبان في عمرو ستين سنة Er sieht wie ein Sechzigjähriger aus.
ara deu احنا اتولدنا بعد الحرب. Wir wurden nach dem Krieg geboren.
ara deu اليهوديه جميلة. Das Judentum ist schön.
ara deu اليهوديه حلوة. Das Judentum ist schön.
ara deu توم مش مترجم. Tom ist kein Übersetzer.
ara deu طبعا بحبها. Natürlich liebe ich sie.
ara deu كل الدول مزيفة. Alle Länder sind gefälscht.
ara deu هيتلر كره اليهود. Hitler hasste die Juden.
arq deu استنّاوها Wartet auf sie!
arq deu الرايس أوباما زاد في هاواي. Präsident Obama wurde auf Hawaii geboren.
arq deu كان يحبهم ڨاع Er liebte sie alle.
arq deu يبان في عمرو ستين سنة Er sieht wie ein Sechzigjähriger aus.
arz deu احنا اتولدنا بعد الحرب. Wir wurden nach dem Krieg geboren.
arz deu اليهوديه جميلة. Das Judentum ist schön.
arz deu اليهوديه حلوة. Das Judentum ist schön.
arz deu توم مش مترجم. Tom ist kein Übersetzer.
arz deu طبعا بحبها. Natürlich liebe ich sie.
arz deu كل الدول مزيفة. Alle Länder sind gefälscht.
arz deu هيتلر كره اليهود. Hitler hasste die Juden.
Loading

0 comments on commit 6faf2da

Please sign in to comment.