با وجود تلاشهای گسترده رایانشی بر روی گویش معیار فارسی، سایر لهجهها و گویشها و زبانهای ایرانی کمتر مورد توجه محققین حوزهی زبانشناسی رایانشی قرار گرفتهاند. یکی از مهمترین چالشهای کار رایانشی بر روی این تمایزهای زبانی، نبود یک مجموعه داده دیجیتال و استاندارد است. در این پژوهش اولین مجموعه داده تکزبانه و نیز داده موازی بر روی گویشهای لری و یزدی که گویشهایی با منابع محدود محسوب میشوند، در مقابل فارسی معیار ارائه شده است. در ادامه مدلهای یادگیری ژرف ترجمه ماشینی کدگذار-کدگشا در دو نوع مدل شبکه عصبی بازگشتی و مدل ژرف ترنسفورمر برای این گویشها به فارسی معیار توسعه یافته و ارزیابی گردیده است. در این پژوهش که اولین تلاش محاسباتی روی این دو گویش محسوب میشود، برای ترجمه لری به فارسی و فارسی به لری به امتیاز BLEU به ترتیب ۷/۳۹ و ۳/۲۹ رسیدیم. این امتیاز برای گویش یزدی به فارسی معیار و برعکس به ۰/۷۳ و ۰/۷۷ رسید. که نشان میدهند پژوهشهای فراتری برای توسعه منابع زبانی برای این زبان نیاز است.
{
title = { ترجمه ماشینی مبتنی بر مدل ترنسفورمر برای گویشهای لری بویراحمدی و یزدی به فارسی معیار و گسترش منابع زبانی رایانشی مرتبط
},
journal ={ زبان و زبان شناسی },
number = { to be determined },
year = { 1401 },
author = {زهرا بهمنی+، محدثه میربیگی+، نگین هاشمی دیجوجین+، مرضیه نوری+، مهسا امانی+، احسانالدین عسگری*، مهدیه سلیمانی باغشاه، حمید بیگی، علی موقر
},
pages = { X },
url = { X }
}
به طور کلی تعداد منابعی که بتوان از آنها جهت تهیهی مجموعه دادهی استاندارد برای هر یک از دو گویش استفاده کرد بسیار محدود هستند. با این حال منابع مورد استفاده برای استخراج دادگان در این پژوهش به تفکیک گویش در زیر آمدهاند.
- یکی از غنیترین منابع موجود، فرهنگ واژههای لری بویراحمدی، به تالیف آقای افضل مقیمی است که شامل هزاران کلمه، عبارت، ضربالمثل، و جمله با گویش لری بویراحمدی به همراه تلفظ و ترجمهی آنها به فارسی معیار است. از مهمترین ویژگیهای این مجموعه داده یکدستی آنست؛ زیرا همهی جملات از یک منبع تهیه شدهاند و از یک ساختار نوشتاری استاندارد و لهجهی واحدی پیروی میکنند.
- اولین منبع، از دیالوگهای کتاب یزدی استخراج شده است که شامل ۵۶۱ دادهی موازی میباشد.
- ۲۶۳ داده نیز از میان اصصلاحات کوتاه از بلاگ خشترین شهر کویر برگرفته شده است.
در جدول زیر تعداد دادگان موازی برای هر دو گویش به همراه تعداد کل واحدهای زبانی و واحدهای زبانی یکتا، آمده است:
تعداد واحدهای زبانی یکتا | تعداد کل واحدهای زبانی | تعداد دادگان | گویش |
---|---|---|---|
۴۰۱۴ | ۱۰۹۳۰ | ۸۲۰۵ | لری |
۳۶۱۱ | ۷۲۴۶ | ۸۲۴ | یزدی |
بدینوسیله از جناب آقای افضل مقیمی و همکارانشان در تالیف لغتنامه لُری بویراحمدی که حاصل کار ارزشمند خود را در اختیار این پژوهش قرار دادند، صمیمانه تشکر میکنیم. همچنین از آقایان سید یاسین موسوی، امیرعلی ابراهیمزاده، و محمدجواد هزاره جهت همکاری در استخراج خودکار دادگان از لغتنامه تقدیر و تشکر به عمل میآوریم.