تحلیلگر هوشمند صرفی نور

پنج شنبه, 28 اسفند 1393 ساعت 15:37
    نویسنده: سید محمد دانش
این مورد را ارزیابی کنید
(1 رای)

چکیده

در این مقاله قصد داریم به بررسی «تحلیلگر صرفی نور» که برنامه هوشمند پردازش صرفی زبان عربی است، بپردازیم. این سامانه، کلمات عربی را حتی الامکان با استفاده از قواعد معتبر زبان عربی تجزیه و تحلیل می کند و در صورت نیاز با حداقل استفاده از بانک های اطلاعاتی تعبیه شده در داخل سامانه، نتایج حاصل را به عنوان حالات معتبر مختلف صرفی برای هر کلمه ارائه می نماید.

ورودی این برنامه، یک فایل متنی زبان عربی و خروجی آن نیز یک فایل از نوع ایکس. ام. ال می باشد. از جمله قابلیت های مهم این سامانه، توانایی تحلیل متون، اعم از با اِعراب یا بدون اعراب است. قابلیت مهم دیگر، تحلیل و تجزیه یک کلمه به حالات مختلف پیشوندی، میانوندی و پسوندی معتبر است که هر کدام از این حالت ها، شامل مقادیر ممکن به ازای فیلدهای صرفی مختلف مثل: وزن، ریشه و سرواژه می باشد. به دلیل مبتنی بودن بر قواعد صرفی، برنامه می تواند انواع مختلف متون عربی با موضوعات گوناگون قرآنی، فقهی، سیاسی یا اجتماعی را با دقت بالایی تحلیل کند. به طور دقیق تر، این سامانه زیربنای پردازش های مورد نیاز، اعم از: تحلیل نحوی، معنایی، خلاصه سازی و ترجمه ماشینی روی متون عربی را فراهم می نماید.

کلیدواژگان: تحلیلگر صرفی (Morphological Analyzer) ، پیکره (Corpus) ، تفکیک (Tokenization) و بازسازی (Generation ) وندها، تجزیه ساخت واژی، ریخت شناسی کلمات، زبان عربی.

مقدمه

زبان عربی، از فصاحت و بلاغت بالایی برخوردار است و یکی از زبان های پیچیده و زنده دنیا محسوب می شود. به همین دلیل، در حال حاضر کتاب ها، مقاله ها، پایگاه های اینترنتی و به طور کلی، اسناد بسیاری به زبان عربی وجود دارد. دلیل دیگری که به اهمیت این زبان می افزاید، بنا نهاده شدن آخرین و مهم ترین دین الهی، یعنی دین مقدس اسلام، بر پایه زبان عربی است که شاهد دیگری بر این مدعاست. قرآن، روایات و سایر منابع اصلی دین اسلام به این زبان بیان شده اند و در صورت محقق شدن پردازش های هوشمند متون روی این منابع، تحولی شگرف در بهره گیری از این منابع روی خواهد داد.

در میان تحلیل های متنی موجود، دو تحلیل صرفی و نحوی (Grammatical)، از اهمیت بالایی برخوردار می باشند. یکی از دلایل این اهمیت، این است که این دو تحلیل به عنوان زیربنا و پایه به شمار می روند. همان گونه که یک ساختمان از اجزای کوچک تری مانند آجر با نظم و چینش خاصی ساخته شده، کلمات متن نیز به مثابه آجرهایی هستند که درون آن متن با نظم خاصی کنار هم قرار گرفته و آن متن را ساخته اند. این نظام چینش، مبتنی بر انتقال مفاهیم و معناست که هدف اصلی از نوشتن متن نیز این انتقال معنا از نویسنده به خواننده (متکلم به مخاطب) می باشد. پس، تا این اجزا تحلیل نشوند، روند تحلیل جملات، پاراگراف ها و در نهایت کل متن، ممکن نخواهد بود.

صرف یا کلمه شناسی، شاخه ای از علم گسترده زبان شناسی است که وظیفه تحلیل ساختار درونی کلمات را بر اساس قواعد تولید کلمه در هر زبان، بر عهده دارد. هر کلمه، خود به اجزای بسیط دیگری تقسیم می شود که «حرف» نامیده می شوند. بحث حروف و نحوه شکل گیری آنها، موضوعی عمیق و دقیق بوده که در مراحل قبل از تحلیل صرفی، مورد واکاوی و کنکاش قرار می گیرد.

با توجه به تولیدشدن کلمات هر زبان بر طبق قواعد موجود در آن زبان، اگر بتوان این قواعد را شناسایی و به زبان سیستم پیاده سازی نمود، در حقیقت، تحلیل صرفی آن زبان به صورت هوشمند پیاده سازی شده است. پس از دستیابی به چنین دستاوردهای پایه ای مثل تحلیل صرفی و نحوی است که می توان به پردازش های بعدی، اعم از: ترجمه ماشینی (Translation)، سیستم های پرسش و پاسخ (خبره (Expert System)) و استخراج اطلاعات دست یافت.

ساختار کلمه در زبان عربی

کلمه، در زبان عربی به سه دسته: اسم (Noun) ، فعل (Verb) و حرف (Article) تقسیم می شود. طیف گسترده ای از کلمات هستند که فرآیند شکل گیری ساختار و تولید آنها، به طور کامل از قواعد موجود در زبان پیروی می کند که اصطلاحاً به آنها «قیاسی» گفته می شود و به جهت وجود این ویژگی، عملیات شناسایی آنها کاملاً مقدور می باشد؛ اما بعضی دیگر از کلمات برای ساخته شدن از هیچ قاعده مشخصی تبعیت نمی کنند که به اصطلاح به آنها «سماعی» گفته می شود. به دلیل نبود قواعد مشخص در این کلمات، تحلیل ساختاری دقیقی برای آنها مقدور نمی باشد؛ ولی با کمک بانک های جانبی برنامه، آنها را به خوبی مدیریت و شناسایی می کنیم.

عبارات مختلف در زبان عربی می توانند پیشوند (Prefix) یا پسوند (Suffix) داشته و یا نداشته باشند. یک عبارت حداکثر می تواند تا سه پیشوند و دو پسوند بپذیرد؛ هر چند که این ساختار، مخصوص به یک دسته از اقسام کلمه باشد؛ برای مثال، اسم می تواند تا سه پیشوند بپذیرد؛ در صورتی که فعل حداکثر می تواند دو پیشوند داشته باشد و یا اینکه اسم و فعل حداکثر می توانند تا پنج پسوند را بپذیرند. نکته مهم اینکه وجود هسته (Affix) برای هر عبارت، ضروری است؛ چرا که جزء اصلی و ستون عبارت محسوب می گردد. مثال ذیل را ببینید:

پیشوند اول + پیشوند دوم + هسته + پسوند اول + پسوند دوم: فَسَیَکفِیکَهُم، فَبِعِبَادَتِکُمُوهُ

جدول ذیل، این مطلب را به خوبی بیان می نماید:

با تفکیک ضمایر متصل مرفوعی در افعال، قابلیت دسترسی به ضمایر متصل منصوبی و مجروری، نون های تأکید و پسوندهای دیگر فعل محقق می شود. تفکیک این پسوندها نیز ارزش کاربردی بسیاری برای ما در لایه های نحو و معنا دارند. نمونه ای از افعال تفکیک شده در ذیل برای درک بهتر ارائه می شود:

  • ضمیر متصل مرفوعی: شَهِدَا= شَهِد+َا
  • نون تأکید ثقیله: یَشْهَدَنَّ = یَشْهَد+َنَّ
  • نون وقایه: یَنْصُرُنِی = یَنْصُرُ+نِ+ی
  • واو اشباع: أَسْقَیْنَاکُمُوهُ = أَسْقَیْ+نَا+کُم+ُو+هُ

هسته اسمی می تواند به وندهای دیگری همچون: «تاء مربوطه (ة)»، «الف ممدوده (اء)»، «الف مقصوره (ی)»، «نون عوض از تنوین»، «یاء نسبت»، «یاء تصغیر یا تحبیب»، «واو اشباع»، «الف پایه تنوین نصب»، «علائم تثنیه و جمع (یاء، واو و الف)» شکسته شود. کلمه «أفهم» را در نظر بگیرید؛ این کلمه می تواند به صورت های «أَفْهَم» (به معنای داناتر و خوش فهم تر)، «أَ + فَهْم» و یا «أَ + فَ + هُم» در نظر گرفته شود.

در عملیات تفکیک ممکن است که یک کلمه از لحاظ ساختار و نوشتار دستخوش تغییراتی شود. به همین دلیل، لازم است تا این تغییرات نیز درون برنامه مدیریت شوند. این تغییرات ممکن است هر کدام از دو حوزه «صامت» و «مصوت» را تحت تأثیر خود قرار دهند. در حوزه صامت می توان به موارد زیر اشاره نمود:

فَلِلْقَلَمِ: فَ+لِ+لْ+قَلَمِ (که پیشوند سوم «لْ» در حقیقت «ال» بوده و الف آن بایستی بازسازی شود)، مُنَاجَاتِهِم: مُنَاجَاةِ+هِم (تبدیل ت به ة)، حُسْنَاهُم: حُسْنَی+هُم (تبدیل الف [ممدوده] به یاء [مقصوره])، دُعَائِهِم: دُعَاءِ+هِم (تبدیلات همزه)، لِمَ: لِ+مَا، عَمَّ: عَمَّا= عَنْ+مَا، یَوْمَئِذٍ: یَوْمَ+إِذْ، عَلِمُوهُ: عَلِمُو+ا+هُ (حذف الف فارقه)، ظَلْتَ: ظَلِلْتَ (حذف فاء الفعل)، أَمْلَیْتَ: أَمْلَلْتَ (تبدیل لام به یاء در دو حرف مجانس) و خُذْ: اُؤْخُذ (حذف همزه).

در حوزه مصوت هم موارد زیر قابل تأمل می باشند:

مَدَّ: مَدَدَ (ادغام در دو حرف یکسان)، الشَّمْس: ال+شَمْس (ادغام در دو حرف هم مخرج)، قُلِ الْکَلَامُ: قُلْ+الْکَلَامُ (التقای ساکنین و تبدیل سکون به کسره)، مِنَ الْمُؤْمِنِین: مِنْ+الْمُؤْمِنِین (التقای ساکنین و تبدیل سکون به فتحه)، مِنِ احتِفَاظُکَ: مِنْ+احتِفَاظُکَ (التقای ساکنین و تبدیل سکون به کسره) و فَلْیَنْظُرُوا: فَلِیَنْظُرُوا (تبدیل کسره لام امر به سکون).

تحلیلگر صرفی نور

ورودی برنامه، یک فایل متنی (Txt) زبان عربی با مشخصه می باشدArabic Windows Encoding (cp1256) و خروجی نیز یک فایل Xml حاوی مشخصات صرفی هر کلمه است. به دلیل وجود تودرتویی در تشکیل عبارات زبان عربی توسط پیشوندها، پسوندها و هسته اصلی، فرمت Xml برای خروجی انتخاب شده است؛ چرا که این الگوی خروجی، قابلیت بالایی برای ارائه تودرتویی اطلاعات برای هر عبارت را دارد. برای آشنایی بیشتر با ساختار خروجی، نمونه ای از پاسخ «تحلیلگر صرفی نور» برای کلمه «فَسَأَلْتُمُونِیهَا» در زیر ارائه شده است:

<Phrase Entry="فَسَأَلْتُمُونِیهَا">
<Ans number="1">
<word Slice="فَ" Entry="فَ" Affix="پیشوند" Pos="حرف" Case="مبنی بر فتح" Decl="مبنی" Kol="عاطفه" Opr="تهی" />
<word Slice="فَ" Entry="فَ" Affix="پیشوند" Pos="حرف" Case="مبنی بر فتح" Decl="مبنی" Kol="جواب شرط" Opr="تهی" />
<word Slice="فَ" Entry="فَ" Affix="پیشوند" Pos="حرف" Case="مبنی بر فتح" Decl="مبنی" Kol="استینافیه" Opr="تهی" />
<word Slice="سَأَل" Entry="سَأَل" Affix="هسته" Pos="فعل" Case="مبنی بر سکون" Categ="ثلاثی مجرد" Decl="مبنی" Gend="مذکر" Genr="متصرف" Num="جمع"
Lemma="السُّؤَال/السَّآلَة/السَّأَلَة/التَّسْآل/المَسْئَلَة" Prsn="مخاطب" Root="سءل" RootT="مهموز العین" Temp="فَعَلْتُمُونِ" Time="ماضی" TOV="9" Trans="لازم،متعدی" Voic="معلوم" />
<word Slice=تُمْ" Entry=تُمْ" Affix="پسوند" Pos="اسم" Case="مبنی بر سکون" Categ="تهی" Decl="مبنی" Def="معرفه" Derv="جامد" DervT="ضمیر متصل مرفوعی" Gend="مذکر" Genr="غیر متصرف" Num="جمع" Root="تهی" RootT="تهی" Temp="تهی" Varied="تهی" />
<word Slice=و" Entry=و" Affix="پسوند" Pos="حرف" Case="مبنی بر سکون" Decl="مبنی" Kol="واو اشباع" Opr="تهی" Spc="فعل" />
<word Slice="نِ" Entry="نِ" Affix="پسوند" Pos="حرف" Case="مبنی بر کسر" Decl="مبنی" Kol="نون وقایه" Opr="تهی" Spc="فعل" />
<word Slice="ی" Entry="ی" Affix="پسوند" Pos="اسم" Case="مبنی بر کسر" Categ="تهی" Categories="تهی" Decl="مبنی" Def="معرفه" Derv="جامد" DervT="ضمیر متصل متکلم منصوبی مجروری" Gend="مشترک" Genr="غیر متصرف" Num="مفرد" Root="تهی" RootT="تهی" Temp="تهی" Varied="تهی" />
<word Slice="هَا" Entry="هَا" Affix="پسوند" Pos="اسم" Case="مبنی بر سکون" Categ="تهی" Categories="تهی" Decl="مبنی" Def="معرفه" Derv="جامد" " DervT="ضمیر متصل غائب منصوبی مجروری" Gend="مؤنث" Genr="غیر متصرف" Num="مفرد" Root="تهی" RootT="تهی" Temp="تهی" Varied="تهی" />
</Ans>
</Phrase>

مراحل مختلف برنامه

هدف از قراردادن هر مرحله، مدیریت چالشی از چالش های موجود بر سر راه تحلیل کلمات در زبان عربی است. این مراحل به گونه ای طراحی شده اند که حتی الامکان، کوتاه تر بوده، قابلیت هماهنگی بالایی با یکدیگر داشته باشند. بعضی از این مراحل، بین تمامی اقسام کلمه مشترک هستند و به عبارتی دیگر، آنها با تمام ورودی های خود با شیوه یکسان رفتار می کنند؛ به طوری که نوع کلمه ورودی، در تحلیل آنها تأثیری نداشته باشد. در ادامه، به مهم ترین این مراحل اشاره می کنیم:

1. شناسایی کلمات مهموز

شناسایی مهموز، یکی از قسمت های قابل توجه برنامه است. دلیل این امر نیز وجود رسم الخط های مختلف همزه در زبان عربی است؛ زیرا ممکن است برای یک کلمه چندین رسم الخط معتبر و پذیرفته شده وجود داشته باشد. به همین جهت، لازم بود که احتمالات مختلف مدیریت شوند؛ به عنوان نمونه، کلمه «امارة» می تواند به یکی از 16 صورت موقت «امارة، امءرة، امأرة، امإرة، أمارة، أمءرة، أمأرة، أمإرة، إمارة، إمءرة، إمأرة، إمإرة، ءمارة، ءمءرة، ءمأرة و ءمإرة» تبدیل شود که یکایک این احتمال ها به طور جداگانه مورد تحلیل قرار گرفته و احتمال های معتبر ارائه می شوند؛ ولی اگر کلمه به صورت «أمارة» باشد، فقط یکی از 4 صورت «أمارة، أمءرة، أمأرة و أمإرة» مورد تحلیل قرار می گیرد.

شکل نوشتاری همزه، با اعراب قبل و بعد همزه ارتباط مستقیم دارد؛ برای نمونه، کلمات «بَأْس»، «بُؤْس» و «بِئْس» این گونه اند. یکی دیگر از موارد، وقتی است که یک کلمه دارای انواع نوشتاری متفاوت باشد؛ مانند «قِرَاءَة» و «قِرَائَة».

2. شناسایی پیشوندها و پسوندها

یکی دیگر از این مراحل، شناسایی پیشوندها و پسوندها است. ممکن است پیشوند یا پسوندی باشند که با حروف اصلی هسته یکسان باشند و به همین دلیل، لازم است تا هم کل هسته و هم کلمه تفکیک شده را به همراه هم به عنوان حالات احتمالی معتبر نگهداری و تحلیل نماییم و به محض جداشدن پیشوند یا پسوندی از یک هسته، نباید که از اصل کلمه غافل شد؛ برای مثال، کلمه «أفهم» که پیش تر شقوق مختلف تفکیکی آن بیان شد، می تواند این موضوع را به خوبی بیان کند.

3. شناسایی حروف اصلی

پس از اینکه پیشوندها و پسوندهای کلمه شناسایی شدند و به اصل کلمه دسترسی پیدا نمودیم، نوبت به شناسایی حروف اصلی کلمه می رسد. اهمیت این مرحله به قدری زیاد است که تا این شناسایی صورت نگیرد، نمی توانیم سایر شناسایی های مورد نیاز برای کلمه را ادامه دهیم. این شناسایی ها عبارت اند از: تشخیص: حروف زاید، وزن، باب، صیغه، زمان، قواعد اعلال، ادغام، تخفیف و... .

از پیچیدگی های این قسمت آن است که یک کلمه ممکن است دچار تغییرات عمده ای گردیده، در نتیجه، ساختار آن دگرگون شده باشد. گاهی به جهت قواعد اعلال (قلب) مانند «قَالَ» که می تواند از هر دو ریشه «قول» و «قیل» باشد که حرف «الف» نماینده هر کدام از «واو» و «یاء» می تواند باشد. حالت دیگر، تغییرات حاصل از قواعد ابدال است؛ مانند «اِتَّخَذَ» که «ء» فاء الفعل به "تاء" تبدیل شده است. در بعضی از موارد، ممکن است به جهت قواعد ادغام باشد؛ مانند کلمه «ظَانّ» که از ریشه «ظنن» بوده؛ ولی فقط یک «ن» مشدد به جای هر دوی آنها آمده است. مورد دیگر نیز می تواند به دلیل قواعد تخفیف باشد؛ مانند «إِیثَار» که «ء» فاء الفعل تخفیف شده است.

گاهی هم به طور کلی، کلمه دچار تغییراتی گردیده و حرف متناظر آن حذف شده است. قواعد اعلال حذف، می تواند یکی از این دلایل باشد؛ برای مثال، فعل های امری «فِ» و «قِ» که به ترتیب از ریشه های «وفی» و «وقی» هستند، از این دسته اند. به همین دلیل، لازم است تا قبل از ورود کلمه به این مرحله، ساختار اصلی آنها که به صورت «اِوْفِی» و «اِوْقِی» می باشند، ترمیم شده و بعد، این مرحله صورت گیرد.

4. قواعد اعلال

ممکن است کلمه ای پس از اجرای یکی از قواعد اعلال، مستعد اجرای یک قاعده دیگر نیز بشود که پیش تر، امکان اجرای آن وجود نداشت و یا ممکن است یک کلمه در آنِ واحد مستعد اجرای بیش از یک قاعده باشد که لازم است تقدم و تأخر این قواعد به درستی مدیریت شوند؛ به عنوان مثال، همیشه اعلال قلبی بر اعلال سکونی مقدم است؛ مثلاً کلمه «خَوِفَ» تبدیل به «خَافَ» می شود؛ نه اینکه «خِوْفَ» بشود.

نکته مهم دیگری که در برنامه به خوبی مدیریت می شود، این است که پس از اعمال قواعد قلبی و سکونی، ممکن است که کلمه دوباره مستعد اجرای اعلال قلبی شود و به همین دلیل، دوباره این اعلال به روی کلمه اعلال یافته اعمال می گردد. مطلب دیگر اینکه در خصوص قواعد اعلال، برخی استثنائات وجود دارد که نباید روی آنها اعلال صورت پذیرد؛ مثلاً فعل «اِسْتَحْوَذَ» نباید به «اِسْتَحَاذَ» اعلال شود. نمونه دیگر، این است که هر دو حالت اعلال و بدون اعلال برای کلمه ای جایز باشد.

5. قواعد ادغام

در زبان عربی کلماتی وجود دارند که در آنها دو حرف یکسان و یا دو حرف غیریکسان، ولی هم مخرج با شرایط خاصی در کنار یکدیگر قرار گرفته اند. در این گونه کلمات، برای ادای روان تر، مجموعه قواعدی روی کلمه اعمال می شود که در اصطلاح، «قواعد ادغام» نامیده می شوند. این قواعد، به دو دسته کلی جوازی و وجوبی تقسیم می گردند و به همین دلیل، لازم بود همانند قواعد اعلال، این قواعد مهم نیز پیاده سازی گردند.

همان طور که اشاره کردیم، ممکن است کلمه ای در هر دو صورت ادغام و عدم ادغام صحیح بوده و استعمال هم داشته باشد؛ برای مثال، فعل «یُضلِلُ» و «یُضِلُّ» هر دو صورت استعمال شده است که این حالت، در افعال امری و مجزوم از مضاعف بارها مشاهده می شود؛ به عنوان نمونه، اگر فعل مضارع آن بر وزن «یَفعُلُ» باشد، برای بعضی از صیغه ها تا 4 حالت متصور است. حالات: «اُمدُدْ، مُدَّ، مُدِّ، مُدُّ» برای امر مخاطب، و حالات: «لِیَمدُدْ، لِیَمُدَّ، لِیَمُدِّ، لِیَمُدُّ» برای امر غائب، همه استعمال شده اند.

مورد دیگری که بارها ادغام اتفاق می افتد و البته از نوع دو حرف متقارب و به شکل وجوبی می باشد، در کلماتی است که با حروف شمسی شروع شده و «ال» می گیرند؛ مثل «الرَّجُل» و «الصُّبح» که چون حرف لام با دو حرف «راء» و یا «صاد» متقارب می باشد، باعث شده است تا ادغام صورت پذیرد.

6. قواعد ابدال

کلماتی مثل «اِزدِوَاج» و «اِضطِرَاب» را در نظر بگیرید که در اصل به صورت «اِزتِوَاج» و «اِضتِرَاب» بوده اند. ریشه آنها، یعنی «زوج» و «ضرب»، صحیح و حتی سالم می باشند (معتل و مهموز نیستند). «زوج» وقتی به باب «اِفتِعَال» می رود، «تاء» باب به حرف «دال» تبدیل شده است و برای «ضرب» هم «تاء» به حرف «طاء» تبدیل شده است. باب «اِفتِعَال»، یکی از ابوابی است که قواعد ابدال بسیاری در آن صورت می گیرد. مطلب دیگر اینکه بعضی از موارد نیز هستند که کلمه قبل و بعد از ابدال، به صورت صحیح بوده و یا حتی به چندین صورت معتبر دیگر استعمال شده است؛ مثل "اِذَّکَرَ، اِدَّکَرَ" و یا "اِظطَلَمَ، اِظَّلَمَ و اِطَّلَمَ" که هر سه حالت آن درست می باشد.

7. شناسایی مصادر

مصادر در زبان عربی، به دو دسته کلی سماعی و قیاسی تقسیم می گردند. مصادر ثلاثی مجرد، همگی سماعی بوده و پس از استقرایی کلی که صورت گرفت، بیش از 50 وزن برای آنها شناسایی شد.

دسته دوم، مصادر قیاسی می باشند که اوزان آنها محدودتر است. البته در بعضی از ابواب ثلاثی مزید، بیش از یک وزن تعریف شده که اوزان فرعی آن باب به شمار می روند. این برنامه، تمام این مصادر را شناسایی می کند. جداول ذیل، مصادر مختلف را با مثال نمایش می دهند.

معرفی ویژگی های خروجی

ویژگی سرواژه برای اسم و فعل، از اهمیت بالایی برخوردار است. نحوه ارائه برای فعل، مصدر بابی است که ریشه فعل در آن باب استعمال شده است؛ برای مثال، اگر فعل «سَأَلَهُم» باشد، تمام مصادر ثلاثی مجرد از ریشه «سءل» برای آن ارائه می شود که عبارت اند از: «مَسأَلَة، تَسآل، سَألَة، سآلَة و سُؤَال» و اگر فعل «تَسَاءَلَکُمَا» باشد، مصدر «تَسَاءُل» برای آن ارائه می گردد. اگر کلمه اسم باشد، سرواژه آن به صورت مفرد مذکر از آن اسم ارائه می شود؛ برای مثال، سرواژه «مُعَلّمُوهُم»، «بِمُعَلِّمٍ» و «المُعَلِّمَتَینِ» همگی به صورت «مُعَلِّم» می باشد. همان طور که ملاحظه می کنید، این عملکرد، قدرت شناسایی کلمات مشابه را بالا برده و ارائه کلماتی را که دارای شباهت های معنایی قابل توجهی به یکدیگر هستند، آسان تر می کند. جدول ذیل، برچسب های برنامه را نمایش می دهد.

بانک های جانبی

برنامه برای تحلیل کلماتی که سماعی هستند، از تعدادی بانک جانبی که در کنار آن تعبیه شده اند، استفاده می کند. از جمله این بانک های اطلاعاتی عبارت اند از: مجموعه افعال غیرمتصرف (در حدود 70 رکورد)، حروف (در حدود 130 رکورد)، جوامد (در حدود 15000 رکورد)، جمع های مکسر ( با بیش از 18000 رکورد)، صفات مشبهه (با بیش از 7500 رکورد) و مصادر ثلاثی مجرد. این بانک های غنی و ارزشمند، حاصل زحمات شبانه روزی تیم تحقیقاتی پژوهشی این پروژه است که کار تحلیل کلمات را برای تحلیلگر آسان و دقیق تر می نماید.

کارهای پیش رو

از برنامه تحلیلگر صرفی نور، جهت تکمیل پیکره های رفع ابهام شده از کلمات مختلف استفاده می شود. این برنامه، جواب های معتبر را برای هر کلمه ارائه می نماید. در اوایل کار، تیم خبره زبان شناس از میان آنها یکی را به عنوان جواب مورد نظر انتخاب می کرد. پس از گذشت مدتی و با توسعه این پیکره، زمینه برای طراحی برنامه رفع ابهام (Disambiguation) فراهم گردید. این برنامه جواب های معتبر ارائه شده از برنامه تحلیلگر صرفی دریافت نموده و از میان آنها با توجه به سیستم یادگیری و آموزشی که دارد، جواب ها را بر اساس امتیازشان، رتبه بندی نموده و به صورت مرتب شده نمایش می دهد.

هدفی که برنامه رفع ابهام دنبال می کند، این است که تا حد امکان اولین جواب رتبه بندی شده، همان جوابی باشد که کاربر انتخاب می کند. گفتنی است که این برنامه ارزشمند، توضیحات بیشتر و دقیق تری می طلبد و نیازمند این است که در مقاله ای جداگانه درباره آن تحقیق گسترده تری صورت پذیرد.

سخن آخر

«تحلیلگر صرفی نور» به محققان پردازش زبان عربی، کمک ارزشمندی ارائه می نماید. از این سامانه، در تولید پیکره های نشان گذاری شده برای پردازش های هوشمند بعدی استفاده می گردد. با تولید این سامانه، مرکز تحقیقات کامپیوتری علوم اسلامی موفق شد تا به یکی از قدرتمندترین تحلیلگرهای صرفی زبان عربی دست پیدا نماید؛ ضمن اینکه خروجی برنامه متناسب با چشم اندازهای بعدی طراحی گردید. در کنار یادگیری و آموزش صرف زبان عربی، تهیه پیکره های ارزشمند و استحصال بانک های اطلاعاتی غنی این برنامه، توانست ارتباط قابل توجهی میان تحلیل صرفی و تحلیل معنایی را با کمک تگ سرواژه ایجاد نماید.

با توجه به این مطلب که دستاوردهایی همچون: تبدیل متن به صوت و صوت به متن، ترجمه ماشینی، شناسایی الگو، شناسایی نویسنده، جست وجوی معنایی، اعراب گذاری خودکار، خلاصه سازی، شناسایی متون مشابه و مانند اینها در متون عربی وابستگی بالایی به تحلیل های دقیق صرفی و نحوی دارند، با تهیه این برنامه و استفاده ای که از آن برای تولید پیکره های نشان گذاری شده صورت گرفت، گام بلندی برای رسیدن به تحلیل های فوق برداشته شد. از طرفی دیگر، روند تولید این پیکره های ارزشمند، سرعت گرفت. بیان تحلیل های بسیار دقیق و عمیق صرفی با ارائه تمام حالت های معتبر، یکی دیگر از نتایج به دست آمده از این پروژه می باشد. از جمله موارد دیگر می توان به آسان سازی در امر اصلاح املایی کلمات متن (اعم از حرف یا حرکت) و شناسایی کلمات اصیل از غیراصیل (مانند: منبطل و توصیف) اشاره نمود؛ نمونه ای از خروجی برنامه که در برنامه نحو مورد استفاده قرار گرفته است. شکل زیر، نمایشی از برنامه نحو را نشان می دهد.

سپاسگزاری

«تحلیلگر صرفی نور»، با همکاری و تلاش گروهی از محققان مرکز تحقیقات کامپیوتری علوم اسلامی نور تهیه گردیده که پشتیبانی و حمایت این مرکز برای این مهم قابل تقدیر می باشد. همچنین از زحمات و همکاری تیم خبره زبان شناسی زبان عربی در تکمیل و توسعه بانک های ارزشمند جانبی برنامه و نیز بانک کلمات رفع ابهام شده و نیز تیم تحقیقاتی پروژه رفع ابهام، کمال سپاسگزاری را داریم.

گفتنی است که متن مقاله حاضر، در پایگاه اینترنتی متن کاوی نور، به نشانی: http://textmining.noorsoft.org/FA/ArticleAlphabet.html قابل دسترسی می باشد. نسخه آزمایشی برنامه نیز روی صفحه اینترنتی textmining.noorsoft.org/FA/Sarf.html قرار داده شده است. همچنین برنامه نحو از طریق نشانی: http://textmining.noorsoft.org/FA/QuranAnalyze.html قابل دستیابی است.

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: یکشنبه, 24 اسفند 1393
  • صفحه در فصلنامه: صفحه 15
  • شماره فصلنامه: فصلنامه شماره 49
بازدید 19548 بار
شما اينجا هستيد:خانه