ره آورد نور

Skip to content

شبکه واژگانی زبان عربی با استفاده از فرآیند نیمه خودکار در داده های علوم اسلامی

پنج شنبه, 26 اسفند 1395 ساعت 15:26

نویسنده:

حبیب سریانی؛ مدرّس ادبیات عرب و پژوهشگر مرکز تحقیقات کامپیوتری علوم اسلام(نور) این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

چکیده

غنی سازی محتواهای علوم انسانی و اسلامی، از اهمیت ویژه ای برخوردار است. استفاده از شبکه واژگانی، از مهم ترین راهبردهای تحقیقاتی در رشته های مرتبط با علوم انسانی است. شبکه واژگانی، مجموعه ای از کلمات است که به واسطه ارتباطات معنایی به یکدیگر متصل شده و در سطحی جامع تر از یک لغت نامه در یادگیری یا استخراج اطلاعات مورد نیاز محققان کاربرد دارد. روند فعالیت در دستیابی خودکار به یک شبکه واژگانی منسجم، در گرو پردازش لفظی و پردازش معنایی بر اساس متن کاوی داده های عربی در منابع زبانی دقیق و مناسب است. استفاده از فرآیند ماشینی در هر یک از این مراحل پردازش و یافتن منابع عربی دقیق علوم اسلامی، با چالش های مختلفی رو به رو بوده که در این مقاله، به بررسی برخی جزئیات این طرح، به ویژه بر اساس دادگان موجود در مرکز تحقیقات کامپیوتری علوم اسلامی و روش مقابله با چالش ها پرداخته شده است.

کلیدواژگان: شبکه واژگانی، وردنت عربی، داده کاوی، متن کاوی، پردازش زبان های طبیعی.

درآمد

وقتی کارگروه های اختصاصی در کشف دانش و داده کاوی (1)، در همایشی در سیاتل آمریکا سال 2004 گرد هم آمده و بحث هایی را در مورد چگونگی ارتباط و پیوندهای متن کاوی (2) و پردازش زبان های طبیعی (3) مورد بررسی قرار دادند، نتایج در خور توجهی را در مباحث مختلف و بهره گیری از نقاط قوت یکدیگر دربرداشت.[1] اگر چه طرح مباحث شبکه واژگانی (4) از سالیان قبل در دانشگاه پرینستون نظر اندیشمندان این عرصه را به خود جلب کرده بود، اما ورود محققانِ متن کاوی و پردازش هوشمند زبان به این حوزه و استفاده از توانمندی های آنان، تلاش های قابل توجهی نظیر ارائه کتاب و مقاله و بهره برداری در زبان های مختلف را به این عرصه معطوف داشت.

داده کاوی، در حقیقت، تجزیه و تحلیل داده های مشاهده ای در جهت یافتن ارتباط های پنهان و ارائه خلاصه ای از آن داده ها در شیوه های جدیدی است که هر دو قابل فهم و کاربرد برای مالکان آن داده ها باشد. این ارتباط و خلاصه حاصل از داده کاوی، غالباً با یک الگو استخراج می گردد؛ مانند استفاده از معادلات خطی، قوانین، خوشه بندی، گراف، ساختار درختی و دیگر الگوها.[2] نه تنها در عرصه علوم اسلامی، بلکه حلّ مشکلات ناشی از تحلیل مقادیر بسیاری از داده های علوم دیگر و حتی شرکت ها و سازمان ها، در گرو استفاده بهینه از علوم داده کاوی است. این در حالی است که تنها درصد کمی از داده های جمع آوری شده در سازمان ها و شرکت ها مورد تحلیل و تجزیه قرار گرفته اند و این درصد در مقابل رشد حجم داده ها، تصمیم گیری و تحلیل نهایی را در مورد محتوای پایگاه داده ها غیرممکن ساخته است.[3] از این رو، ضروری است که در علوم اسلامی بیش از تمرکز بر تولید داده های جدید، با استفاده از کتاب ها و میان رشته های نوظهور، بر داده کاوی دقیق و تحلیل و تجزیه داده های علوم اسلامی که غالباً ثابت بوده و مهم ترین آنها را قرآن، روایات و کتب تاریخی تشکیل می دهند، همت گمارد.

ورود اطلاعات

بی تردید، یک گام مهم در استفاده از پایگاه داده ها و استنتاج متون جهت استخراج ارتباطات و اطلاعات، بهره گیری از شبکه واژگانی (وردنت) است.[4] استفاده از شبکه واژگانی، نه تنها در متن کاوی و تحلیل داده ها، بلکه در یادگیری و آموزش نیز کاربرد فراوان دارد. در واقع، استفاده از دانش واژگان (5) در یادگیری و خواندن متون زبان های خارجی ضروری است.[5] به طور کلی، معلمان زبان از دو مهارت جهت درک معنای کلمات ناآشنا برای آموزش شاگردان خود استفاده می کنند: 1. مهارت حدس زدن (به عنوان مثال، توانایی استفاده از قراین متنی و ساختاری برای تحصیل معنای صحیح کلمه، همچون هم خانواده ها)؛ 2. توانایی استفاده مناسب از فرهنگ لغات (به عنوان مثال، ارجاع سریع به صفحه ای که شامل کلمه مورد نظر بوده و خواندن توضیحات مربوط).[6]

با پیشرفت و گسترش فرهنگ لغات الکترونیکی و نرم افزارهای مبتنی بر داده، زبان آموزان نیز با کاهش زمان جستجو دسترسی کاملی به دانش واژگان پیدا کرده اند. فراتر از فرهنگ لغت، با استفاده از فرآیند ماشینی، اطلاعات زبانی بیشتری امکان پذیر شده است؛ مانند ترجمه ماشینی که در گذشته مهم ترین انگیزه طراحی این شبکه واژگانی بوده است، ابهام زدایی واژگان (6)، طبقه بندی اسناد، طراحی هستان شناسی در وب و همچنین غنی سازی محتوای لغت نامه ها مانند تعداد تکرار کلمات، تنوع استعمال و چگونگی ساختارهای گرامری[7] و بسیاری دیگر از فواید مرتبط با متن کاوی به ویژه در علوم اسلامی.[8]

در دانش واژگان، هر کلمه به واسطه ویژگی هایی که دارد، توصیف می گردد؛ ویژگی هایی شامل شیوه خواندن و نوشتار، معنا و مفهوم، دستور زبان، استعمال، پیوستگی، هم نشینی، فراوانی و کاربرد.[9] این ویژگی ها در لغات عربی با پیچیدگی بیشتری همراه بوده که مباحث عمیق و گسترده صرفی و نحوی و تداخل آن با مباحث فقه اللغه، گویای آن است. از این رو، استفاده از فرآیند ماشینی جهت یادگیری از داده های نامتوازن، به عنوان یک چالش جدید در مجموعه های یادگیری ماشینی (7)، داده کاوی و متن کاوی در زبان عربی بوده است. البته همان گونه که زبان مادری همواره تأثیری منفی در روند یادگیری واژگان زبان خارجی دارد، اما این نقیصه از زبان فارسی به عربی به سبب نزدیکی این دو زبان و وجود منابع دینی عربی به یک فرصت تبدیل شده و می تواند روند یادگیری زبان عربی و دسترسی به متون قرآنی و روایی را برای کاربران سرعت بخشد.

ایزوتسو، زبان شناس معاصر، فهم درست و دقیق مفاد و معانی واژه ها، به ویژه متون دینی همچون قرآن کریم را منوط به قرار گرفتن این کلمات در یک نظام مرتبط معنایی می داند. در حقیقت، قرآن کریم یک مجموعه اتفاقی و تصادفی از کلمات بدون نظم و قاعده نبوده؛ بلکه واژه های آن با قرارگرفتن در نظام و شبکه خاص قرآنی در ارتباط با سایر کلمات کلیدی، رنگ معناشناختی خاصی به خود می گیرند که اگر خارج از این نظام و بدون لحاظ بافت و سیاق آیات در نظر گرفته شوند، هرگز آن معنا را در بر نمی گیرند.[10]

در این نوشتار، بر آنیم تا فارغ از مدل های ارائه شبکه واژگانی که مرتبط با علوم رایانه ای است، این مبحث را تنها از بُعد تحقیقات زبان شناسی در زبان عربی و بر اساس پایگاه داده علوم اسلامی که بستر آن در مرکز تحقیقات کامپیوتری علوم اسلامی فراهم آمده است، بررسی نماییم و روند اجرایی طرح برای دستیابی به یک شبکه واژگانی جامع را مورد تحقیق و مطالعه قرار دهیم.

شبکه واژگانی (8)

شبکه واژگانی که بر مبنای یافته های روان شناسی زبان ساخته شده است[11]، تلاشی در جهت بازنمایی چیزی است که در ذهن انسان ها از واژه ها و روابط آنها وجود دارد. در حقیقت، یک مدل طراحی شده از روابط معنایی بین واژگان است تا حداکثر واژه های موجود در یک زبان را به صورت شبکه ای از روابط در خود قرار دهند.[12] این مبحث در سال های اخیر در مباحث پردازش هوشمند زبان های طبیعی (NLP) نیز کاملاً پذیرفته شده است. علم وجود یا هستان شناسی شبکه واژگان (9)، اوّلین بار در زبان انگلیسی توسط دانشگاه پرینستون (10) و در چهار مقوله: اسم، فعل، صفت و قید برای هر واژه ساخته شد[13] و سپس، با مقوله پنجم تکمیل شد. معنا و مفهوم لغوی، رابطه بین این واژگان قرار گرفت و مجموعه کلماتی را که دارای معنای مشابه بودند، هم معنا (11) نامیده شد. بنابراین، در تعریفی کوتاه «وردنت» یا شبکه واژگانی، مجموعه ای از واژگان است که به واسطه ارتباطات معنایی به یکدیگر متصل شده اند. این شبکه به مانند یک لغت نامه یا اصطلاح نامه وسیع و جامع با ساختاری نموداری و گراف مانند است.[14] از آنجا که هر زبانی دارای ویژگی های منحصر به فرد خود است، از این رو، نمی توان روابط جامعی را برای تمامی زبان ها در نظر گرفت. زبان عربی نیز با توجه به قواعد پیچیده صرف و نحو و مباحث عمیقی که در بحث فقه اللغه مطرح می گردد، دارای خصوصیاتی در شبکه واژگانی خود است که الگوبرداری کامل از دیگر شبکه های زبانی را ناممکن می سازد. نوع ساختار صرفی فعل و اسم، تغییر کامل کلمات در حالت های اعلالی، وجود جمع های مکسر، تغییر ساختار کلمه در ساختن اسم مصغر و منسوب، انصراف و عدم انصراف در برخی اسماء و قواعد دیگر، همگی از مواردی هستند که لغات عربی و قواعد مربوط بدان ها را از باقی زبان ها متمایز می سازد. از این رو، استفاده از رویکرد ساخت بالا به پایین (Top Down Approach) و ایجاد یک شبکه واژگانی مستقل نیازمند است تا خصوصیات زبان عربی به خوبی حفظ شده و سپس، با دیگر زبان ها مانند وردنت پرینستون یا فارس نت توانایی تلفیق داشته باشد.[15]

اگر چه از سال 2006 برخی از زبان شناسان عرب زبان قدم های مؤثری را در ایجاد یک شبکه واژگانی عربی برداشتند (AWN : Arabic WordNet ا[16] )، ولی ضرورت طرح مبحث در داده های علوم اسلامی، این ضرورت را ایجاب نمود تا بر اساس سیستم های هوشمندی که در مرکز نور به کار گرفته شده و نسبتاً به موارد مشابه از امتیازات قابل توجهی برخوردار است، به طراحی یک شبکه واژگان منسجم و دقیق در این زمینه اقدام نموده و آن را مقدمه ای برای ورود به ایجاد یک پیکره دادگان جامع قرار دهیم.

مرتب کردن بر اساس ریشه کلمه در زبان عربی ارتباطات شبکه ای

شبکه واژگانی که با استفاده از یک نوع ارتباط معانی بین واژگان فراهم آمده است، بر پایه مختصات زبانی بوده و چه بسا در هر زبان دارای ویژگی های مخصوص خود باشد. با این حال، دسته ای از روابط در مفاهیم عمومی زبان شناسی ثابت بوده و در زبان عربی نیز قابل ساخت است. برخی از این ارتباطات بین لغات و شیوه پیشبرد آن ها را با توجه به منابع زبانی موجود در پایگاه داده علوم اسلامی مرکز نور بررسی خواهیم نمود.

- ترادف (12): رابطه بین دو مفهوم معادل یا نزدیک که یکی قابلیت جانشینی دیگری را داشته باشد. از این رو، رابطه ترادف، رابطه ای دو سویه و متقارن است؛ مانند سه واژه: فهم، درک و علم.

- تضاد (13): رابطه بین دو مفهوم مخالف است. با توجه به گستره وسیع مفهوم متضاد که شامل هر سه نوع ارتباط تلازم (مانند مفهوم بدهکار و طلبکار) تتمیم و تکمیل (تناقض) و تضاد منطقی است، باید امکان ایجاد شبکه ای برای بیان تمامی متضادها مناسب با زبان عربی آماده شود.

- شمول/ رابطه کلی (14) و جزئی (15): رابطه بین دو مفهوم که یکی اعم از دیگری باشد؛ مانند «الحیوان» و «الفرس» (حیوان و اسب)، «الزهرة» و «الخزامی» (گل و گل لاله). این ارتباط در بازیابی اطلاعات در زمینه های دسته بندی متون و خوشه بندی آنها بسیار مفید خواهد بود؛ به طور مثال، اگر در متنی از کلمات «السیارات» و «الدراجات الناریة» (اتومبیل و موتور سیکلت) استفاده شده است، می توان آن را در دسته المَرکبات (وسایل نقلیه) قرار داد.

- جزء واژگی/ رابطه جزء (16) و کل (17): رابطه بین دو مفهوم که یکی جزئی از دیگری باشد؛ مانند «الزهرة» و «البتلة» (گل و گلبرگ) یا عضوی از دیگری باشد؛ مانند «الغابات» و «الشجرة» (جنگل و درخت) و یا یک ماده ساخته شده از آن باشد؛ همچون «الزجاج» و «النافذة» (شیشه و پنجره). این رابطه، در تشکیل شبکه واژگانی هسته اصلی علم هستان شناسی و مرتبط به آن بوده و می تواند در علوم انسانی نقش مهمی ایفا کند.

- سببیت (18): رابطه یک مفهوم با سبب پدیدآورنده آن؛ مانند «الموت» (مرگ) که مسبب «القتل» (کشتن) است.

- نتیجه (19): رابطه بین دو مفهوم که یکی حاصل دیگری باشد؛ مانند آنچه در زبان عربی به عنوان مصدر و حاصل مصدر بین دو مفهوم «الغَسل» و «الغُسل» (شستن و شست و شو) برقرار است.

روابط متعدد دیگری نیز در وردنت پرینستون و دیگر شبکه های واژگانی مطرح شده است؛ مانند رابطه تضمین (20)، اعتباریت (21)، شِبهیت (22) و نوعیت (23).[17] امّا آنچه مورد نظر این نگاشته است، تکیه بر مواردی است که در منابع زبانی عربی به راحتی قابل دسترس بوده و بتوان به صورت ماشینی یا نیمه خودکار آنها را استخراج نمود.

داده کاوی

منابع زبانی

در ساخت یک شبکه واژگانی دقیق که مبتنی بر ارتباطات صحیح باشد، به منابع معتبری نیازمند هستیم که در خود توضیحات روشن و دقیقی از معانی و یا برخی ارتباطات در اختیار مخاطبان خود بگذارد. از این رو، آنچه به عنوان پایه اطلاعات در مباحث وردنت مطرح است، لغت نامه ها هستند. تمامی اطلاعات موجود در لغت نامه ها از اولویت اوّل در پردازش لفظی و معنایی برای هر واژه و عبارت برخوردارند. بیش از 60 عنوان لغت نامه در مرکز تحقیقات علوم اسلامی نور تایپ و فرمت گذاری شده که با استفاده از فرآیندهای ماشینی متن کاوی، استخراج اطلاعات مورد نیاز از آنها با سختی کمتری میسر است.

با توجه به تحقیقات صورت گرفته در کتاب هایی که به بیان کلمات مترادفات پرداخته اند، به نظر می رسد، کتاب «المَکنز العربی المعاصر» (1993) به عنوان نمونه کار اوّلیه، گزینه مناسبی است. ترتیب الفبایی و چینش روان کلمات و تقسیم معانی مختلف یک کلمه، از نقاط قوت آن است. چنانچه یک فعل یا اسم در استعمال با حرف خاصی همراه شده باشد، آن حرف را به شکل مجزا بیان کرده است. نکته اصلی در این کتاب، تأخر آن از باقی منابع اصیل و قدیمی است که نگارندگان با دقت در منابع معتبر سعی داشته اند نمونه ای مناسب را در اختیار دانش پژوهان بگذارند.

کتاب دیگری که در حوزه مترادفات لغات عربی نوشته شده و بسیار جامع تر از «المکنز» است، «المعجم المفصل فی المترادفات»(2009) است که از مجموعه، کتاب های ارزشمند «الخزانة اللغویة» است. از همین مجموعه کتاب هایی در کلمات متضاد، کلمات اضداد (کلماتی که دارای دو معنای متضاد هستند) و نکات ظریف لغات عربی نگاشته شده است که می تواند در استخراج ماشینی ارتباطات راهگشا باشد.

در زمینه ارتباطات شمول یا جزء واژگی و حتی سببیت، کتاب هایی همچون «المخصص» نوشته ابن سیده (قرن پنجم) موجود است. المخصص، لغت نامه ای 17 جلدی است که ترتیب واژه های آن برحسب موضوعات و معانی است. کتاب از گسترده ترین معاجمی است که بر اساس معنای کلمات و به صورت موضوعی تدوین شده است. مؤلف، اوّلین موضوعی که در کتاب خود بعد از مقدمه اش ذکر می کند، انسان است و سعی کرده در ترتیب موضوعات و به تبع آن ترتیب باب ها، یک سیر منطقی را رعایت کند. مؤلف، در ذیل هر موضوع، چند باب ذکر می کند؛ مثلاً در ذیل موضوع «خلق انسان» بابی به نام «الحمل و الولادة» است که کلمات آن را بر اساس اوّلین روزهای انعقاد نطفه تا ایام بزرگسالی مرتب کرده و شرح داده است.[18] تلخیص دو جلدی از کتاب المخصص نیز با نام «الإفصاح فی فقه اللغة» (1348ه.ق) منتشر گردیده که می تواند جهت پرهیز از تطویل کتاب اصلی در استخراج اطلاعات مفید باشد.

نکته اساسی در مورد زبان عربی و گستره ارتباطات، این است که آیا به طور مثال، در مترادفات، «ترادف در ریشه» ملاک است یا «ترادف در آخرین سلسله از مشتقات» و یا «گزینه ای میانی در سلسله مراتب اشتقاق تصریفی» (باب، نوع فعل و...)؟ باید در نظر داشت که در کلمات گوناگون، گستره ترادف متفاوت است. شاید به ندرت، دو ریشه را بتوان یافت که با وجود ترادفشان، تمام مشتقات آن دو نیز با هم مترادف باشند؛ مثلاً اگر «جَاهَدَ» را مترادف با «قَاتَلَ» بدانیم، هیچ گاه، «اجتهد» مترادف با باب افتعال ریشه «قتل» و یا هر مشتق دیگری از آن نخواهد بود. همچنین است، موارد مشابه آن. گاه یک کلمه، با یک عبارت مترادف است که در آن عبارت، مشتقی از ریشه همان کلمه و یا ریشه ای دیگر وجود دارد؛ مثلاً «انتحر» مترادف با «نحر نفسه» و «قتل نفسه» است و به هیچ وجه با خود «نحر» و «قتل» مترادف نیست. گاه نیز یک کلمه دارای چندین معنا بوده (24) و تنها برخی از آن معانی دارای مترادف با کلمات دسته دیگر هستند. تنها راه تفکیک دقیق ریشه از مشتقات، استفاده از «پردازش لفظی» هوشمند و دقیق است.

اگر با نگاهی عمیق تر شبکه واژگانی دریچه ای به سوی دست یافتن به یک پیکره دادگان جامع و وسیع باشد، می توان شبکه واژگانی را از حوزه ارتباطات بین معانی گسترش داد و در حوزه اعلام و شخصیت ها، اماکن و شهرها، کتاب ها و نویسندگان و موارد مشابه ترسیم نمود. استفاده از داده های نرم افزار «درایة النور» و «تراجم 2» که حاوی کتاب های همچون «اعیان الشیعة» نوشته علامه امین و «الذریعة الی تصانیف الشیعة» نوشته علامه طهرانی در حوزه اعلام و شخصیت هاست و یا بهره از کتاب «معجم البلدان» در 7 جلد نوشته حموی (قرن هفتم) در مورد اماکن و شهرها بوده و در نهایت، استفاده از فرمت هایی که توسط گروه های مختلف پژوهشی در مرکز نور از کتاب ها به دست آمده، مانند نمایه و کلیدواژه های موجود در معاجم موضوعی همچون بحار الأنوار، می تواند از دیگر منابع زبانی موجود برای ایجاد یک شبکه واژگانی باشد.

تجزیه و ترکیب آیه یک سوره کوثر

چالش های پیش رو در این حوزه نیز عبارت اند از:

1. استانداردسازی اطلاعات دادگان: بسیار ضروری است که در جمع آوری منابع و دادگان در هر مقطع و موضوعی، به یک استاندارد مطلوب دست یافته و بر اساس نیازها آیین نامه ای مدوَّن تهیه گردد؛ به طور مثال، در جمع آوری دادگان مربوط به اعلام باید از استاندارد مشخصی مانند: سال ولادت، محل و شغل استفاده کرد. سپس، بر اساس این استاندارد، رابط کاربر مناسبی جهت ورود اطلاعات تهیه گردد و در اختیار پژوهشگران قرار گیرد. عدم توجه به این ضرورت، موجب ناهمگونی دادگان و فعالیت های پژوهشگران می گردد و در نهایت، به عدم ارزش کافی اطلاعات استخراجی می انجامد.

2. استناد به منابع: مهم ترین چالش در این بخش، استناددهی به منابعی است که دادگان از آنها جمع آوری شده[19] و باید در طول زمان نیز با وجود احتمال تغییرات در منابع، لینک ارتباط بین این دادگان با منابع به شکلی صحیح و کامل برقرار باشد. اینکه فرمت ها، اطلاعات اعلام و یا نمایه و موضوعات از کدام کتاب و نرم افزار و با کدام نسخه و ویرایش استخراج شده، از جمله این موارد است. علاوه بر دقت پژوهشگران در مستندسازی دادگان، به نظر می رسد که حجم اصلی فعالیت، به بخش فنی کار معطوف باشد.

پردازش خودکار

بین الفاظ، دو نوع ارتباط برقرار است: یکی ارتباط لفظی و دیگری ارتباط معنایی.[20] برقراری ارتباط لفظی بین واژگانی که در یک حوزه معنایی قرار دارند، با توجه به پیچیدگی صرفی کلمات در زبان عربی، اهمیتی مضاعف می یابد. توجه به پردازش لفظی، فعالیت متن کاوی در وردنت عربی را متمایز از زبان ها خواهد کرد. در بین تمام اقدام های انجام شده در حوزه وردنت عربی، فعالیتی را که با دقت در پردازش ماشینی و لفظیِ در پی ایجاد ارتباطات لفظی و نظام اشتقاق تصریفی باشد، نیافتیم. از این رو، پیشبرد فعالیت های این حوزه در عین نوگرایی، نیازمند تجربه و خطاست که خود چالشی در دستیابی به اهداف مورد نظر است.

در مرکز نور جهت پردازش لفظی و تجزیه و تحلیل ماشینی لغات عربی، از دو سیستم هوشمند «موتور صرف» و «موتور استم ساز» استفاده می شود. موتور صرف، وظیفه تجزیه صرفی کلمات بر اساس قواعد دستوری زبان عربی را بر عهده دارد.[21] این سیستم هوشمند برچسب گذار، بر اساس ریشه کلمات عربی، قابلیت برچسب گذاری بسیاری از ویژگی های کلمات مانند: نوع کلمه (25)، نوع اشتقاق، تذکیر و تأنیث، افراد و جمع را داراست. در کنار این سیستم، از یک برنامه کمکی دیگر، به ویژه در کلماتی که فاقد ریشه هستند، با عنوان موتور «استم ساز» استفاده می شود. استم در یک کلمه، به منزله بن مایه و ساقه آن کلمه است که فارغ از تغییرات لفظی و اعلالی آن کلمه لحاظ می گردد؛[22] به طور مثال، کلمات «فالتحوّلات» و «بالتحویل»، هر دو از ریشه «حول» هستند؛ ولی دارای استم مشترک نیستند؛ زیرا استم یکی «تحول»، و دیگری «تحویل» است.

چک لیست بی تردید، نقطه قوت بخش متن کاوی مرکز تحقیقات نور، بهره گیری از این دو سیستم هوشمند شناسایی لغات عربی است که تا حدودی بسیاری نیل به یک شبکه واژگانی منسجم را فراهم آورده است.

پس از گذر از پالایش های عمومی، مانند تصحیح فونت و اغلاط متنی، نوبت به پردازش لفظی با استفاده از موتور صرف و استم ساز در این حوزه می رسد. فعالیت های این بخش عبارت اند از:

تعیین ریشه استعمالی برای تمامی کلمات، به عنوان مقدمه اتصال به لغت نامه ها و واژگان دیگر: موتور صرف با تحلیل کلمه بر اساس قواعد زبان عربی، ممکن است چندین ریشه منطقی را اعلام کند؛ به طور مثال، کلمه «یستعد» بر اساس منطق صرفی می تواند هم از ریشه «ع د د» و هم ریشه «ع د و» باشد؛ درحالی که این کلمه بر استعمال در داده های علوم اسلامی، تنها در موارد معدودی از ریشه «عدو» به کار رفته است. همچنین، کلمه «المدح» که منطقاً از دو ریشه «م د ح» و «د ح ح» امکان پذیر است.
استفاده از موتور صرف جهت شناسایی کلمات دارای ریشه و استفاده از موتور استم ساز و پیراسته ساز جهت شناسایی کلمات فاقد ریشه و مطابقت آن با مداخل استاندارد.
استفاده از نظام اشتقاق و تصریف در ایجاد حلقه های ارتباط لفظی بین واژگان: در حقیقت، می توان به واسطه این نظام، افعال، اسماء و دیگر مشتقات از یک ریشه را با یک نظام ترتیبی به یکدیگر متصل نمود.

نظر به اقدام های انجام شده در مطالعات ریشه و مشتق و توانایی حال حاضرِ گروه متن کاوی، به نظر می رسد تعیین مداخل استاندارد[23]، از بیشترین اولویت برخوردار است. ضرورت ایجاد این مداخل به همراه تمامی مراحل پردازش و استخراج آنها، نیازمند نگاشته ای مجزاست. مداخل استاندارد در زبان عربی را این گونه می توان تعریف نمود: کلماتی هستند که ساختار صرفی آن، دارای موضوعیت معنایی در لغت نامه های عربی است. این مداخل، آن دسته از کلماتی هستند که در معاجم لغت برای آنها در ذیل یک ریشه یا یک موضوع، توصیف و یا توضیحی بیان شده است؛ به طور مثال، کلمه «ضارب» معنایی متفاوت از فعل خود «ضرب» نداشته و در شبکه واژگانی، یک مفهومی مستقل از ضرب نیست؛ اما کلمه «مجتهد» که در مورد افراد خاصی در یک سطح علمی به یک اصطلاح تبدیل شده است، کاملاً مفهومی متفاوت از فعل ماضی «اجتهد» که تنها به معنای تلاش و کوشش است، داراست.

اما پردازش معنایی کلمات، در حقیقت، فرایندی جهت اتصال کلمات و ایجاد یک پیکره از دادگان مختلف است. استفاده از برچسب های مختلف در شناسایی معنای یک کلمه، می تواند آن را در حلقه های ارتباطی مختلف از کلمات قرار دهد. در مباحث وردنت، اوّلین و اصلی ترین ارتباط معنایی کلمات، بین مترادفات است[24]. کلمه ای را که محور قرار گرفته و باقی مترادفات و کلمات با آن حلقه ارتباطی تشکیل می دهند، به عنوان Lemma یاد می شود و حلقه های ارتباطی پیرامون یک کلمه را هم معنا یا synset می نامند.

المعجم العربی اوّلین پردازش معنایی نیز توسط موتور صرف صورت می پذیرد که با اِعلام نوع کلمات مانند انواع اسماء یا افعال و همچنین ارائه برخی تگ ها، اطلاعاتی همچون تأنیث و تذکیر، افراد و جمع، تعریف و تنکیر و نوع باب را ارائه می دهد. تگ های اِعلامی در ابزار ریشه و مشتق (ابزاری که جهت تفکیک ریشه منطقی و استعمالی تهیه شده است)، مانند تگ اَعلام و تگ معرب و دخیل نیز از دیگر مواردی است که قابل استفاده است. حال با توانایی های موجود و اولویت های متن کاوی، می توان فعالیت های ذیل را برشمرد:

1. اضافه کردن مترادفات و متضادات به مداخل استاندارد: با توجه به وجود دو کتاب «المعجم المفصل فی المترادفات» و «المعجم المفصل فی المتضادات» و تایپ و نشانه گذاری آن دو، بهترین شروع در حوزه پردازش معنایی، مرتبط کردن اطلاعات این دو کتاب به مداخل استاندارد است. این دو کتاب، به مانند «فرهنگ ابجدی» علاوه بر صیغه 1 ماضی، مواردی از اسماء را که دارای وجه تمایزی در معنا نسبت به افعال خود بوده اند، به شکل مجزا آورده اند. از این رو، ابتداء با استفاده از موتور صرف باید در ذیل یک ریشه قرار بگیرند و سپس، با استفاده از نظام اشتقاق، حلقه های ارتباطی تشکیل دهند و در نهایت، به مداخل استاندارد اضافه شوند. پیش فرض این است که مواردی از مداخل این دو کتاب که در مداخل استاندارد موجود نیستند، باید به مداخل استاندارد اضافه شوند؛ مگر آنکه توسط محقق به عنوان مدخل شناسایی نشوند و به افعال خود ملحق شوند.

2. روش دیگر استفاده از دادگان، معاجم موضوعی مانند نمایه و موضوعات است. در معاجم موضوعی، هر یک از نمایه و موضوعات به یک یا چند کلیدواژه متصل شده اند. چالش اصلی کار در این پروژه، تفاوت بین کلیدواژه ها و مداخل استاندارد است. از این رو، همان فرایند پردازش لفظی، یعنی استفاده از موتور صرف و موتور استم ساز (در کلماتی که موتور صرف پاسخی ندارد) و استفاده از نظام اشتقاق در کلیدواژه ها ضروری است. ساماندهی و یکسان سازی کلیدواژه ها، از اوّلین اولویت های این پروژه در این حوزه است.

شبکه واژگانی بر اساس تحلیل ماشینی حروف

در مباحث دستوری زبان عربی، مبحثی به عنوان «اشتقاق» مطرح است که برخی از اندیشمندان این عرصه آن را به سه نوع: صغیر، کبیر و اکبر تقسیم نموده اند.[25] نوع اوّل، مانند اشتقاق ضارب و مضروب از مصدر «الضرب» که در آن، ترتیب حروف اصلی و ریشه کاملاً رعایت شده است. نوع دوم، مانند کلماتی که دارای همان حروف هستند؛ ولی ترتیب رعایت نشده است؛ مانند «کلم» (به معنای جرح) و «لکم» (به معنای ضربت با دست) که دارای معنایی نزدیک به یکدیگرند و همچنین است کلماتی مانند «کمل» و «ملک». نوع سوم، اشتقاقی است که برخی حروف اصلی تغییر نموده و با حروف هجایی مشابه جایگزین شده است؛ مانند دو کلمه «فصم» و «قصم» که جامع معنای آن دو، شکستن و قطع کردن است و همچنین، کلمات «ثلب و ثلم» و «فطر و فطم».

با نظر به امکانات نرم افزاری و ورود به عرصه الکترونیک، بررسی کلمات عربی بر اساس تحلیل ماشینی حروف، چندان دور از دسترس نخواهد بود. اگر شبکه واژگانی به گونه ای ترسیم شود که کلماتی که دارای اشتقاق کبیر و اکبر هستند، رابطه شبکه ای و معنایی با دیگر کلمات داشته باشند، چه بسا بتوان چنین نتیجه گرفت که در زبان عربی، نه تنها کلمات، بلکه حروف نیز دارای ماهیتی استقلالی بوده و هر حرف در بارِ معنایی کلمات و هم معناها دخیل است؛ مطلبی که در هیچ یک از دیگر زبان ها به آن اشاره ای نشده است. به هر حال، این امر به عنوان یک موضوع پیشنهادی جهت ارائه مقالات و پایان نامه به دانش پژوهان عرصه زبان شناسی و پردازش طبیعی زبان پیشنهاد می گردد.

پی نوشت ها:

منابع:

1. Anne Kao, Stephen R.potee, "Natural Language Processing and Text Mining", Springer-Verlag London Limited 2007, Library of Congress Control Number: 2006927721, P IV.
2. David Hand, Heikki Mannila and Padhraic Smyth, 2001, "Principles of Data Mining", A Bradford Book The MIT Press, Cambridge, Massachusetts London England, P6.
3. M. Rajman, R. Besancon, 1998. "Text Mining: Natural Language techniques and Text Mining applications", Artificial Intelligence Laboratory, Computer Science Department, Swiss Federal Institute of Technology, Switzerland, Published by Chapman & Hall, P 3.
4. Anne Kao, P148.
5. Chen, C.M. & Hsu, S.H. (2008). Personalized intelligent mobile learning system for supporting effective English learning. Educational Technology & Society, 11(3), 153-180.
6. Sun, K.T. Huang, Y.M. & Liu, M.C. (2011). A WordNet-Based Near-Synonyms and Similar-Looking Word Learning System. Educational Technology & Society, 14 (1), 121–134.

22. Sun, K.T. Huang, Y.M. & Liu, M.C. (2011). A WordNet-Based Near-Synonyms and Similar-Looking Word Learning System. Educational Technology & Society, 14 (1), PP 121–134.
23. An IndexWord is a single word and part of speech. An IndexWord can be used to lookup a Synset object. Once you have an IndexWord, you can lookup all the Synset objects associated with that word.
24. The main relation among words in WordNet is synonymy, as between the words shut and close or car and automobile. Synonyms-words that denote the same concept and are interchangeable in many contexts-are grouped into unordered sets (synsets): https://wordnet.princeton.edu