Skip to content

language-ml/dataset_yazdi_luri

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 

Repository files navigation

مجموعه دادگان گویش‌های لری و یزدی

مقدمه و هدف پژوهش

با وجود تلاش‌های گسترده رایانشی بر روی گویش معیار فارسی، سایر لهجه‌ها و گویش‌ها و زبان‌های ایرانی کمتر مورد توجه محققین حوزه‌ی زبان‌شناسی رایانشی قرار گرفته‌اند. یکی از مهم‌ترین چالش‌های کار رایانشی بر روی این تمایز‌های زبانی، نبود یک مجموعه داده دیجیتال و استاندارد است. در این پژوهش اولین مجموعه داده تک‌زبانه و نیز داده موازی بر روی گویش‌های لری و یزدی که گویش‌هایی با منابع محدود محسوب می‌شوند، در مقابل فارسی معیار ارائه شده‌ است. در ادامه مدل‌های یادگیری ژرف ترجمه ماشینی کدگذار-کدگشا در دو نوع مدل شبکه عصبی بازگشتی و مدل ژرف ترنسفورمر برای این گویش‌ها به فارسی معیار توسعه یافته و ارزیابی گردیده است. در این پژوهش که اولین تلاش محاسباتی روی این دو گویش محسوب می‌شود، برای ترجمه لری به فارسی و فارسی به لری به امتیاز BLEU به ترتیب ۷/۳۹ و ۳/۲۹ رسیدیم. این امتیاز برای گویش یزدی به فارسی معیار و برعکس به ۰/۷۳ و ۰/۷۷ رسید. که نشان می‌دهند پژوهش‌های فراتری برای توسعه منابع زبانی برای این زبان نیاز است.

ارجاع به مقاله

{
title = { ترجمه ماشینی مبتنی بر مدل ترنسفورمر برای گویش‌های لری بویراحمدی و یزدی به فارسی معیار و گسترش منابع زبانی رایانشی مرتبط
 },
	journal ={ زبان و زبان شناسی },
	number = { to be determined },
	year = { 1401 },
author = {زهرا بهمنی+، محدثه میربیگی+، نگین هاشمی دیجوجین+، مرضیه نوری+، مهسا امانی+، احسان‌الدین عسگری*، مهدیه سلیمانی باغشاه، حمید بیگی، علی موقر
},
pages = { X },
url = { X }
}

شرح دادگان

به طور کلی تعداد منابعی که بتوان از آن‌ها جهت تهیه‌ی مجموعه داده‌ی استاندارد برای هر یک از دو گویش استفاده کرد بسیار محدود هستند. با این حال منابع مورد استفاده برای استخراج دادگان در این پژوهش به تفکیک گویش در زیر آمده‌اند.

مجموعه داده‌ی لری-فارسی

  • یکی از غنی‌ترین منابع موجود، فرهنگ واژه‌های لری بویراحمدی، به تالیف آقای افضل مقیمی است که شامل هزاران کلمه، عبارت، ضرب‌المثل، و جمله با گویش لری بویراحمدی به همراه تلفظ و ترجمه‌ی آن‌ها به فارسی معیار است. از مهم‌ترین ویژگی‌های این مجموعه داده یک‌دستی آنست؛ زیرا همه‌ی جملات از یک منبع تهیه شده‌اند و از یک ساختار نوشتاری استاندارد و لهجه‌ی واحدی پیروی می‌کنند.

city

مجموعه داده‌ی یزدی-فارسی

  • اولین منبع، از دیالوگ‌های کتاب یزدی استخراج شده است که شامل ۵۶۱ داده‌ی موازی می‌باشد.
  • ۲۶۳ داده نیز از میان اصصلاحات کوتاه از بلاگ خش‌ترین شهر کویر برگرفته شده است.

آمار اولیه‌ای در خصوص دادگان

در جدول زیر تعداد دادگان موازی برای هر دو گویش به همراه تعداد کل واحدهای زبانی و واحدهای زبانی یکتا، آمده است:


تعداد واحدهای زبانی یکتا تعداد کل واحدهای زبانی تعداد دادگان گویش
۴۰۱۴ ۱۰۹۳۰ ۸۲۰۵ لری
۳۶۱۱ ۷۲۴۶ ۸۲۴ یزدی

تقدیر و تشکر

بدین‌وسیله از جناب آقای افضل مقیمی و همکارانشان در تالیف لغت‌نامه لُری بویراحمدی که حاصل کار ارزشمند خود را در اختیار این پژوهش قرار دادند، صمیمانه تشکر می‌کنیم. همچنین از آقایان سید یاسین موسوی، امیرعلی ابراهیم‌زاده، و محمدجواد هزاره جهت همکاری در استخراج خودکار دادگان از لغت‌نامه تقدیر و تشکر به عمل می‌آوریم.

About

Yazdi-Farsi and Luri-Farsi Dataset

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •