AraPunc dataset:

it is based on the pre-processing of the Tashkeela “Arabic diacritization corpus”. We keep six classes: space ‘0’, full-stop ‘.’, comma ‘,’, the colon‘:’, semicolon ‘;’, and the question mark ‘?’.

In the following table, you can find the distribution of punctuation classes in AraPunc dataset:

Label	Train	Dev	Test
,	1756058	309118	514741
.	638133	112409	187367
?	51798	9193	15448
0	33639104	5923672	9888211
:	939876	165549	275918
;	233479	40846	67756

You can download the dataset from HERE

Name		Name	Last commit message	Last commit date
Latest commit History 62 Commits
other_languages		other_languages
transformer		transformer
LICENSE		LICENSE
augmentation.py		augmentation.py
baseline_bert.py		baseline_bert.py
baseline_bert_layer_prune.py		baseline_bert_layer_prune.py
baseline_bert_task2.py		baseline_bert_task2.py
baseline_electra.py		baseline_electra.py
baseline_electra_task2.py		baseline_electra_task2.py
baseline_longformer.py		baseline_longformer.py
baseline_multilingual_bert.py		baseline_multilingual_bert.py
baseline_pos_bert.py		baseline_pos_bert.py
baseline_roberta-large.py		baseline_roberta-large.py
baseline_spacy_sepp_nlg_2021_subtask1.py		baseline_spacy_sepp_nlg_2021_subtask1.py
baseline_xlm-roberta.py		baseline_xlm-roberta.py
dataset.py		dataset.py
download-dataset.sh		download-dataset.sh
enable-deterministic-run.sh		enable-deterministic-run.sh
evaluate_sepp_nlg_2021_subtask1.py		evaluate_sepp_nlg_2021_subtask1.py
evaluate_sepp_nlg_2021_subtask2.py		evaluate_sepp_nlg_2021_subtask2.py
hyperparameter-bert.py		hyperparameter-bert.py
hyperparameter-electra.py		hyperparameter-electra.py
hyperparameter-search.sh		hyperparameter-search.sh
model_final_suite_results_task1.json		model_final_suite_results_task1.json
model_final_suite_results_task2.json		model_final_suite_results_task2.json
model_final_suite_task1.json		model_final_suite_task1.json
model_final_suite_task2.json		model_final_suite_task2.json
model_test_report.py		model_test_report.py
model_test_suite.py		model_test_suite.py
model_trainer.py		model_trainer.py
predict_all_task_1_models.sh		predict_all_task_1_models.sh
predict_all_task_2_models.sh		predict_all_task_2_models.sh
predict_roberta_large.sh		predict_roberta_large.sh
predict_transformer.py		predict_transformer.py
predict_xlm_roberta.sh		predict_xlm_roberta.sh
readme.md		readme.md
requirements.txt		requirements.txt
run_baseline.sh		run_baseline.sh
run_language_model_finetuneing.sh		run_language_model_finetuneing.sh
run_mlm.py		run_mlm.py
tools.py		tools.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AraPunc dataset:

About

Releases

Packages

Languages

License

Body123/Arabic-Punctuation-Prediction

Folders and files

Latest commit

History

Repository files navigation

AraPunc dataset:

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages