روش های استخراج خودکار دانش از متون حدیثی

    مروری بر پژوهش‏های صورت گرفته

چهارشنبه, 29 آذر 1396 ساعت 15:34
    نویسنده: مصطفی علیمرادی* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اشاره

حدیث، از منابع متنی مهم در استنباط آموزه های شرعی، عقیدتی و اخلاقی در اسلام است. فزونی منابع حدیثی و ضرورت استفاده از آن در شناخت احکام اسلام، استفاده از فنون خودکار استخراج دانش از متون حدیثی را ضرورت می‏ بخشد. خصوصیات زبانی ویژه متون حدیثی (زبان عربی قدیم و متون روایت‏گونه)، مستلزم گردآوری و بهره گیری از شیوه های خاص پردازش زبان طبیعی شده است که در متون و زبان‏های دیگر استفاده از چنین پردازش‏های خاص نبوده است. در این مقاله، نخست استخراج خودکار دانش بر پایه فنون متن‏ کاوی بیان، و پژوهش‏های انجام شده برای استفاده از این شیوه ها در استخراج دانش از متون حدیثی، بررسی می‏ شود.

کلیدواژگان: متن‏ کاوی، استخراج خودکار دانش، متون حدیثی، الگوریتم‏ های متن‏ کاوی، کشف دانش.

مقدمه

عصر اطلاعات، استفاده و ذخیره‏ سازی مقدار عظیم اطلاعات متنی و چندرسانه‏ ای را آسان کرده است. فراوانی اسناد رقمی در وب و دیگر پایگاه های دادگان محلی، در حال فزونی است. در حالی که میزان اطلاعات در دسترس برای استفاده پیوسته افزایشی است، توانایی برای جذب و پردازش اطلاعات متوازن با آن پیشرفت ندارد.

حوزه های بازیابی اطلاعات و استخراج دانش، امروزه مورد توجه پژوهشگران هوش مصنوعی و متن‏ کاوی است. با ظهور پیکره های متنی در سال‏های اخیر، نیاز به ماژول‏ های یکپارچه برای استخراج دانش در نظام‏ های بازیابی اطلاعات حس می‏ شود. پردازش پیکره های متنی بزرگ، نیازهایی را که در محدوده استخراج دانش و حوزه‏ های بازیابی اطلاعات می‏ گنجند، راهبری می‏ کند. استخراج دانش، شاید برجسته‏ ترین فنی است که اخیراً در عملیات پیش‏پردازش متن‏ کاوی استفاده شده است.

استخراج دانش، عبارت از ایجاد دانش از منابع ساختاریافته (مانند پایگاه دادگان روابطی، با زبان ایکس.ام.ال) و منابع ساختارنیافته مانند: متون، اسناد و تصاویر است. دانشِ به دست آمده از نظام استخراج دانش، لازم است در یک قالب ماشین‏ خوان و قابل تفسیر با ماشین باشد و نیز باید دانش را در حالتی که استنتاج را آسان می‏ کند، عرضه شود. استخراج دانش از متن، عبارتی کلیدی در فناوری مفهومی است و در وب مفهومی نیز از فنون کلیدی به شمار می‏رود. (wikipedia 2017)

استخراج دانش، فرایندی پیچیده است که تشخیص ساختارهای از پیش ناشناخته و احتمالاً اطلاعات اصلی سودمند را از دادگان عظیم ممکن می‏ کند. این فن، زیرمجموعه هوش مصنوعی نیز به شمار می‏ رود که در آن، پژوهش‏ هایی درباره زبان و متن انجام می شود. این پژوهش ها، عموماً بر پایه پیکره های زبانی، مجموعه های دادگان متنی ماشین‏ خوان که با استفاده از فراداده و برچسب‏ گذاری یا حاشیه‏ نویسی غنی شده‏ اند، نشان‏ دادن تحلیل‏ های ریخت‏ شناختی و مانند آن، صورت می‏ گیرد.

استخراج دانش، فرایندی است که در آن اطلاعات پوشیده، بالقوه سودمند، یا از پیش ناشناخته، از دادگان استخراج می‏ شود. در استخراج دانش، دادگانِ فراهم آمده از منابع گوناگون، در مخزن دادگان واحد گردآوری می‏ شوند. این دادگانِ ذخیره شده در انبار دادگان، دادگان هدف خوانده می‏ شوند. استخراج دانش، فرایندی از داده‏ کاوی شمرده شده است. (Canarelli 1996, 1)

داده‏ کاوی در نگاه کلی، فرایندی از استخراج دانش سودمند و الگودهی به دادگان عظیم است. این کار همچنین، فرایند کشف دانش، کاوش دانش از دادگان، استخراج دانش یا داده یا تحلیل الگو خوانده شده است. داده‏ کاوی، تحلیل مجموعه هایی از دادگان مشاهداتی برای یافتن روابط پوشیده و خلاصه‏ سازی دادگان به شیوه‏ ای ناب است که هم فهم‏ پذیرتر و هم برای مالکان داده سودمند است. افزون بر آن، فنون داده‏ کاوی، استخراج دانش از دادگان در الگوهای آماری برای مشاهده چگونگی ارتباط‏ های گوناگون به یکدیگر و برای فهم بهتر پدیده های موجود در آنهاست. شیوه های متن‏ کاوی، عبارت اند از: شبکه های عصبی، درخت تصمیم، تحلیل خوشه، تحلیل سبد فروشگاه و تحلیل پس‏رفت.

الگوسازی ساختاریافته درخت، فنون داده‏ کاوی است که برای بخش‏ بندی مجموعه دادگان در گروه هایی همگن به هم مرتبط به شکل مکرّر به کار می‏ رود، تا پیش‏ بینی‏ ها درباره نمونه های آتی را دقیق‏تر کند.

از مزیت‏های الگوریتم درخت تصمیم، توانایی در کار با ارزش‏ها و مقادیری است که در متن پیدا نیست؛ اما تلاشی بسیار که برای دستیابی به آن لازم است، به مثابه مانع و اشکال این الگوریتم شمرده می‏ شود. در جدول شماره 1، به برخی از الگوریتم‏ های متن‏ کاوی اشاره شده است.

الگوریتم های متن کاوی

جدول شماره 1: الگوریتم ‏های متن‏ کاوی

کارکردهای متن‏ کاوی

متن‏ کاوی، کارکردهای گوناگونی دارد و در حوزه های مختلف دانش مورد استفاده قرار می‏‌گیرد. در اینجا برخی از کارکردهای متن‏ کاوی در حوزه دانش اطلاعات به گونه خلاصه بیان می‏ شود.

- شناخت خودکار اصطلاح‏ها: بر پایه این کار، اصطلاح‏ های خاص علوم به شکل خودکار از متون استخراج می‏ شوند و می‏ توان از این فن در نمایه‏ سازی، ساخت اصطلاح‏نامه و هستی‏ شناسی استفاده کرد. روش‏های گوناگونی برای این کار وجود دارد که عبارت اند از: آماری، هم‏‌رخدادی و یادگیری ماشینی.

- خوشه‏ بندی مدرک: خوشه‏‌بندی، روشی برای گروه‏ بندی موجودیت‏های مشابه است که در آن، مدارک مشابه در گروه هایی به نام خوشه جای می گیرند. خوشه‏ بندی‏ ها بیشتر بر پایه موضوع انجام می‏ شوند و در یک نگاه، می‏توان آن را به خوشه‏‌بندی سلسله‏‌مراتبی و مسطح (خطی) دسته‏‌بندی کرد.

- طبقه‏ بندی خودکار مدرک: در طبقه‏‌بندی خودکار مدرک، اسناد ذیل مقوله های از پیش‏ تعیین شده جای می‏ گیرند تا بازیابی شان آسان‏ تر شود. طبقه‏ بندی متن، عبارت از تخصیص خودکار یک یا چند سند به یکی از دسته های موضوعی است که از پیش تعریف شده است.

- خلاصه‏ سازی مدارک: خلاصه‏ سازی مدارک، به معنای استخراج جمله های پُرمفهوم از اسناد است. در این روش، فرض گرفته شده که خوانندگان، متن را در مجموعه‏ ای از اطلاعات خُردشده ملاحظه می‏ کنند و این اطلاعات دارای هویتی مستقل اند. از این رو، در شیوه خلاصه‏ سازی، متون به گزاره ها، اصطلاح‏ ها و عبارت‏ های معنادار شکسته می‏ شوند و از آن میان، با استفاده از فنون رتبه‏ دهی و وزن‏ دهی ، مهم‏ترین بخش متون استخراج و به منزله خلاصه عرضه می‏ شود.

روش های استخراج خودکار دانش از متون حدیثی

در باور مسلمانان، سنّت پیامبر(ص) پس از قرآن، از منابع معتبر در استنتاج مفاهیم دینی و احکام شرعی است و از این رو، متون حدیثی برای مسلمانان بسیار با اهمیت و از منابع بنیادین شمرده می‏ شود. با توجه به حجم بالای متون حدیثی از یک سو، و اهمیت استخراج همه مفاهیم مندرج در آن برای استنباط احکام صحیح از سوی دیگر، به کارگیری روش‏ هایی برای آسان سازی و سرعت دادن به استخراج مفاهیم و دقت در یافتن آن، ضروری می‏‌نماید.نرم افزار جامع الاحادیث

مرور پژوهش‏‌های انجام گرفته درباره استخراج دانش از متون حدیثی

مقالات گوناگونی در حوزه کشف خودکار دانش از متون حدیثی به زبان انگلیسی و فارسی موجود است و هر یک بر پایه شیوه‏ ای از فنون متن‏ کاوی در پی تبیین این کار بوده‏‌اند. این پژوهش‏ ها را می‏توان بر پایه الگوریتم‏های به کاررفته در آن، به شکل های ذیل دسته‏ بندی‏ کرد:

1. الگوریتم طبقه‏ بندی متن

ختام جبارا در مقاله‏ ای با عنوان «کشف دانش در حدیث با استفاده از الگوریتم طبقه‏‌بندی متون» که در سال 2010م تدوین کرده، کوشیده است الگوریتمی برای کشف دانش از متون حدیثی ارائه دهد تا بر پایه آن بتواند احادیث را در طبقات از پیش تعریف شده دسته‏ بندی کند. او در این مقاله، الگوریتم طبقه‏ بندی متون را برگزیده است. این الگوریتم، متشکل از دو مرحله عمده است: یادگیری و طبقه‏ بندی. مشاهده ها، بر پایه مجموعه های برگزیده از کتاب صحیح بخاری هدایت شده است که در آن، سیزده کتاب به منزله طبقاتی که این آزمایش را انجام دهند، برگزیده شده بود. در نتیجه، شیوه طبقه‏ بندی که بسط ریشه خوانده می‏ شد، در این پژوهش به کار برده شد تا کشف دانش از کتاب حدیث صحیح بخاری با تخصیص هر حدیث به یک طبقه از طبقاتِ از پیش تعریف شده صورت گیرد.

در این تحقیق، پیکره ها دربردارنده 1321 حدیث بودند. نتایج این الگوریتم، با نتایج دو شیوه مطرح شده الکابی و فن طبقه‏ بندی مبتنی بر واژه مقایسه شد و در نتیجه، مشخص شد که الگوریتم طبقه‏ بندی بسط ریشه، از دید فراخوانی برای همه طبقه ها بهتر از فن طبقه‏ بندی مبتنی بر واژه و الگوریتم الکابی است؛ درحالی که طبقه‏ بندی مبتنی بر وب و الکابی، از دید دقت برای دو طبقه از سیزده طبقه نتایج بهتری داشت.

فناوری استخراج موجودیت نام، برای شناسایی موجودیت‏ های سودمند از مجموعه احادیث به کار می‏ رود. کتب حدیثی به گونه معمول بر پایه موضوعات به ابواب گوناگون تقسیم شده و هر یک از این ابواب نیز در موضوعات جزئی‏ تر عرضه می‏ شوند. هر حدیث نیز دارای شماره های خاص‏ اند. به اذعان حراج و همکاران در سال 2011 و 2014م برای تبدیل متون ساختارنیافته به یک متن نیمه ساختاریافته، فرایندی تعریف شده است تا موجودیت‏ های مطلوب را از این متون استخراج کند؛ مانند شماره باب، عنوان باب، شماره بخش، عنوان بخش، شماره حدیث اسناد، متن، عبارت آغازین (طرف) و تاریخ. آن ها الگویی به کار بردند که از مبدل حالت در شکل خودکار استفاده می‏ کرد. این خودکارسازی، با مجموعه‏ ای از حالت‏ها و انتقال میان این حالت‏ ها نمایش داده می‏ شود؛ درحالی که متن به یکدیگر پیوند داده شده است. این امر خودکار، تناوبی از بردارها (یعنی واژگان) را به تناوبی از الگوها (یعنی موجودات) تبدیل می‏ کند. این الگو، دقت 71%، بازخوانی 39% و امتیاز 52% را به دست آورد. این نظام در تشخیص شمار موجودیت‏ ها مانند شمار: باب‏ها، بخش‏ها و حدیث خوب عمل کرده است؛ اما در تشخیص تاریخ موجودیت، به سبب اینکه در شکل البفایی نگارش یافته بود، ضعیف عمل نموده است.

در پژوهشی دیگر، Kawther A.Aldhaln و همکارانش که در قالب مقاله‏‌ای با عنوان «داده‏‌کاوی و استخراج دانش اسلامی؛ حدیث به منزله منابع دانش» که در سال 2010م انجام داده‏ اند، با شیوه‏ ای مبتنی بر طبقه‏‌بندی یادگیری نظارت‏‌نشده و طبقه‏ بندی یادگیری نظارت‏ شده، به طبقه‏ بندی حدیث پرداختند.

کابی و همکاران در سال 2005م در پژوهشی اثبات کرده‏ اند که طبقه‏‌بندی حدیث باید از طریق شیوه‏‌ای ساده با دقت قابل اطمینان انجام شود. ایشان احادیث عربی را بر پایه محاسبه بسامد اصطلاح‏‌ها، به هشت باب از ابواب کتاب صحیح بخاری تقسیم کرده‏ اند. آن ها در این پژوهش، از اسناد و واژگان خنثا چشم پوشی نموده‏ و با استفاده از نظام ریشه‏ ساز، واژگان را به ریشه خود ارجاع داده‏ اند. در کتاب صحیح بخاری، احادیث مشابه ممکن است در بیش از یک فصل آمده باشد، از این رو، در نظامی که کابی و همکاران تهیه کرده‏ اند، دو موضوع با بیشترین رتبه نشان داده شده است. به منظور انجام وزن‏ دهی به واژگان، از شیوه تی.اف ـ ای.دی.اف استفاده شده و با 120 حدیث یادگیری انجام شده است. آزمون نظام طراحی شده نیز با 80 حدیث، 83.2% دقت نشان داده است.

حراج در سال 2011م مطالعاتی درباره ارزیابی شیوه های ریشه‏‌سازی برای طبقه‏ بندی متون حدیثی انجام داد. این مطالعه، ریشه‏ سازی بر پایه لغت‏نامه، ریشه‏ سازی مبتنی بر ریشه و ریشه‏ سازی سبک به مثابه مرحله کاهنده خصوصیات بررسی کرده است. ریشه‏ ساز بر پایه لغت نامه، بالاترین دقت را در شیوه طبقه‏ بندی کننده شبکه عصبی مصنوعی، در قیاس دیگر شیوه ها به دست آورد. ریشه‌ساز سبک، بالاترین دقت را در شیوه طبقه‏ بندی کننده ماشین پشتیبان در قیاس با دیگر شیوه ها به دست آورد.

نرم افزر جامع الاحادیث - نرم افزار معجم موضوعی وسائل الشیعه - نرم افزار کتابخانه احادیث فریقین

Kawther A.Aldhaln و همکاران در سال 2012م احادیث را به چهار دسته صحیح، حسن، ضعیف و مردود تقسیم کردند. به منظور ساخت مجموعه دادگان یادگیری و آزمون، 999 حدیث از سه کتاب صحیح بخاری، جامع الترمزی و سلسله الاحاديث الضعيفة والموضوعة واثرها السيئ في الأمة انتخاب شد. از آنجا که مجموعه دادگان متشکل از کتب گوناگون بود، پیش‏ پردازش دادگان برای کاستن از حشویات و ایجاد سبک اسناد حدیث همگن انجام شد. خصوصیات احادیث بر پایه پنج اصل در علم حدیث تعیین شد: راوایان گوناگون برای خلوصشان، راویان گوناگون برای راستی شان، نبود وفقه در اسناد، نبود عبارت‏ های ناهنجار در متن حدیث و نبود نقص در متن حدیث. در طبقه‏ بندی ایشان، دو شیوه گوناگون به کار برده شد: درخت تصمیم و بیز ساده؛ هر چند طبقه‏ بندی کننده بیز ساده با 97.6% فراخوانی و 97.597% دقت، نتایج بهتری در پی داشت.

نجیب در سال 2014م رهیافت طبقه‏ بندی جدید مطرح کرد که میان احادیث صحیح و ضغیف تمایز ایجاد می‏ کرد. آن ها طبقه‏ بندی کننده وابسته که قوانین طبقه‏ بندی و وابستگی را به هم الحاق می‏ کرد، به کار بردند. طبقه‏ بندی مبتنی بر وابستگی، به هدف کشف روابط میان خصوصیات برای تعیین مجموعه از قوانین طبقه‏ بندی ساخته می‏ شود. کارکرد این شیوه در حوزه حدیث آزموده شده؛ اما میزان روشنی از دقت در این شیوه گزارش نشده است.

حراج و همکاران در سال 2009م دو تجربه مختلف را درباره مجموعه دادگان یکسان توصیف کردند: بازیابی اطلاعات با استفاده از بخش‏بندی و بدون بخش‏بندی. برای بازیابی اطلاعات بدون بخش‏بندی، ریشه ها از متن پرس و جوی انجام شده استخراج شد تا وزنشان بر پایه تی.اف ـ ای.دی.اف به دست آید. پس از آن، نمایه‏‌سازی اصطلاح‏‌های مرتبط حدیثی و شمارش وزن‏‌های مرتبط با معدلات خاصشان تعیین گردید. سرانجام، نظام مجموعه از حدیث را عرضه کرد: مجموعه مرتبط و مجموعه نامرتبط. در مرحله مشاهده، میانگین فراخوانی 54% و میانگین دقت 41% بود.

بلال و محسن، در سال 2012م نظام خبره مبتنی بر قوانین توزیع شده را معرفی کردند که از آن برای طبقه‏ بندی احادیث به حدیث صحیح و غیرصحیح استفاده کردند. این نظام خبره، «پرس و جوی محدث» نام‏گذاری شد که پنج ماژول اصلی آن عبارت اند از:

  1. موتور اسنتباط: مجموعه‏ ای از گزاره های «اگر، آنگاه، وگرنه» که قوانین را می‏ سازند؛
  2. پایگاه دانش: جدول تصمیم دوگانه برای نمایش دانش؛
  3. تجزیه کننده و استخراج‎کننده رخداد: که برای تجزیه و پرس و جوی کاربران و برای استخراج دانش مرتبط با در نظرگرفتن پرس و جو عرضه شده است؛
  4. امکانات توضیح و تبیین: برای به دست دادن جزئیات درباره چگونگی و چرایی استخراج نتایج به کاربران؛
  5. پایگاه دادگان. نظام محدث، به مثابه معماری سرویس‏‌گرا مبتنی بر نظام خبره ابری از طریق وب در دسترس است. نتایج نظام خبره، در مقاله عرضه شده از سوی ایشان، بررسی نشده است.

نرم افزار منهج النور - دانشنامه علوی

جبارا در سال 2010م نظام متن‏ کاوی برای بازیابی طبقه حدیث در پاسخ به پرس و جو ها عرضه کرد. در این نظام، 1321 حدیث از کتاب صحیح بخاری که در سیزده گروه (ایمان، دانش، عبادت، دعوت به نماز، کسوف، صدقات، حالات خوب، روزه، طب، تغذیه، حج، شکایت و فضایل پیامبر) تقسیم شده بود، برای یادگیری و آزمودن انتخاب شد. این آزمایش‏‌ها، شامل سه مرحله بود: مرحله پیش‏‌پردازش که متشکل از حذف اسناد، رمزگذاری، حذف نشانه‏‌گذاری و علائم تفکیک کننده، حذف واژگان خنثا و ریشه‏‌سازی بود. در مرحله دوم یادگیری که در آن خصوصیات ماتریکس با استفاده از روش تی.اف ـ آی.دی.اف ساخته شده است، اعمال شد. مرحله سوم که در آن نتایح یادگیری که از مرحله پیش به دست آمده بود، برای طبقه‏ بندی به کار برده شد. همچنین، خصوصیات پرس و‌جو، محاسبات و توسعه پرس و‌جوی انجام شده در مرحله سوم را وزن دهی کرد. نتیجه آزمایش‏‌ها، 45% دقت و 49 درصد فراخوانی بود.

در پژوهشی دیگر که از سوی خمسین و همکاران در سال 2014م انجام شده، بر اهمیت نظام تصدیق خودکار برای قرآن و حدیث به منظور مبارزه با شکل های جعلی قرآن و احادیث‏ دروغین در فضای مجازی، تأکید گردیده است.

2. الگوریتم درخت تصمیم

حراج و همکاران در سال 2009م با استفاده از شیوه درخت تصمیم، طبقه‏ بندی کننده‏ای طراحی کرده‏‌اند که با به‌کارگیری453 حدیث گروه‏‌بندی شده در 14 مقوله از کتاب دائرة المعارف نبوی احادیث را طبقه‏‌بندی می‏‌کرد. مرحله پیش‏‌پردازش در پژوهش آنها، از تبدیل اسناد به متون اصلی، حذف واژگان خنثا و ریشه‏‌سازی تشکیل می‏‌شد. پس از پیش‏ پردازش، برداری متشکل از همه اصطلاح‏ های موجود در متون حدیثی ساخته شد. پس از آن، ابعاد بردار بر پایه معیارهای خاص و وزنی که برای هر بعد با استفاده از بسامد در نظر گرفته شده بود، به 1938 بعد کاهش یافت. در مرحله آزمون، 38 درصد فراخوانی و 47 درصد دقت و 40 درصد نمره منفی به دست آورد. این نتایج و دسته‏ بندی های نادرست، به دلیل ماهیت و خصوصیات اسناد حدیثی دانسته شده است.

3. الگوریتم فازی

قاضی‏‌زاده و همکارانش در سال 2005م با استفاده از مجموعه قوانین و دیدگاه های متخصصان، نظام خبره فازی را طراحی کرده‏ اند. در این پژوهش، به منظور استنتاج نتایج، دو ماشین استنتاج طراحی شد. نخستین ماشین، رتبه هر یک از راویان را تولید می‏ کند و نتیجه استنتاجش را به ماشین استنتاج دوم منتقل می‏ کند. محصول ماشین استنتاج دوم، ارزیابی اعتبار حدیث است. نظام طراحی شده قاضی زاده و همکاران، با استفاده از مجموعه احادیث کتاب کافی آزموده شد تا احادیث را در چهار دسته ناشناخته، ضعیف، خوب و قابل اطمینان، جای دهد. نتیجه آزمون، 94% دقت را نشان داد.

4. الگوریتم شبکه عصبی مصنوعی

شبکه های عصبی مصنوعی هم از شیوه های به کار گرفته شده برای طبقه‏ بندی احادیث است. حراج و قواسمه در سال 2009م از این شیوه برای طبقه‏ بندی حدیث استفاده کردند. در رهیافت ایشان، افزون بر پیش پردازش متن ، در گام نخست از شیوه تجزیه ارزش منحصر به فرد استفاده شده است که فرایندی مؤثر در پاکسازی داده به شمار می‏ رود. در این پژوهش، 739 واژه منحصر به فرد وجود دارد که هر ویژگی، به یک واژه ارجاع شده است. آن ها از دائرة ‏العمارف نبوی که شامل 453 سند بوده و به 14 دسته (ایمان، قرآن، دانش، جرائم، جهاد، رفتار خوب، نسل‏‌های گذشته، زندگی‏نامه، قضاوت، عبادت، رفتار، غذا، لباس و حالت‏ های شخصی) تقسیم شده است، استفاده کردند. فراخوانی و دقت به دست آمده برای پیش‏ بینی دسته‏ بندی حدیث، حدود 88% بود.

نرم افزار معجم موضوعی بحار الانوار - نرم افزار منهج النور دانشنامه علوی - نرم افزار کتابخانه احادیث تفسیری

5. چندالگوریتمی

الکابی در سال 2010م، چهار الگوریتم را برای دسته‏ بندی احادیث آزمود که عبارت بودند از: بیز ساده، الگوریتم راچیو، ک ـ نزدیک ترین همسایه و ماشین بردار پشتیبان. برای ارزیابی بسامد نسبی هر واژه در اسناد، از شیوه تی.اف ـ آی.دی.اف استفاده شد. برای یادگیری ماشینی، 1350 حدیث استفاده شد و 150 حدیث برای آزمودن دقت شیوه های طبقه‏ بندی به کار گرفته شد. میانگین فراخوانی همه این روش‏ ها، 100% بود؛ اما دقت الگوریتم راچیو 67.11 %، بیز ساده 66.55 %، ک ـ نزدیک ترین همسایه 66.55 % و ماشین بردار پشتیبان 63.36% بود. از این رو، الگوریتم راچیو، احادیث را با بیشترین فراخوانی و بالاترین دقت طبقه‏ بندی کرده است.

6. الگوریتم فضای بردار

حراج و حمدی شریف در سال 2007م فهرستی از احادیث مرتبط که بر پایه مشابهت ذخیره شده بودند، عرضه کردند. این فهرست، بر پایه الگوی فضای بردار عمل می‏ کرد. گام نخست ریشه‏ سازی ریخت‏ شناختی حدیث، بر پایه یک لغت نامه ریشه بود. پس از پیش‏ پردازش، وزن‏دهی و نمایه‏ سازی با استفاده از روش تی.اف ـ آی.دی.آل انجام شد. سپس، مشابهت میان پرس و جوی انجام گردید و حدیث با کمک فن اندازه‏‌گیری کسینوس انجام شد. حدیث بازیابی شده در دو نوبت انجام شد: همه اصطلاح‏ ها از پنج سند مرتبط نخست با استفاده از وزن ارتباط به پرس وجوی نخستین منظم شدند؛ ده اصطلاح برگزیده نخست از اسناد بازیابی شده با پرس و جوی اصلی مرتبط شدند تا یک پرس‌وجوی قوی‏‌تر ساخته شود؛ درحالی که اصطلاح جدید، وزن کمتری از اصطلاح‏های پرس و جو شده اوّلیه دارد. این پژوهش با 60 حدیث، 66 درصد دقت و 80 درصد فراخوانی به دست آورده است.

7. پژوهش‏‌های دیگر

پژوهشگرانی نیز به بررسی احادیث موجود در فضای وب پرداختند. کریم و حزمی، در سال 2005م تحلیل کمی داده با استفاده از مصاحبه با دانشجویان کارشناسی ارشد مالزیایی به منظور ارزیابی اطلاعات درباره حدیث را در اینترنت انجام دادند. نتیجه تحلیل آنها، این بود که تقریباً همه شرکت‏‌کنندگان، اینترنت را به مثابه منبع حدیثی مناسب ملاحظه کردند؛ هر چند خطر استفاده از احادیث نادرست نیز وجود دارد.

شنطاوی و همکاران در سال 2012م مشاهداتی را تبیین کردند که دربردارنده دو گام عمده بود: بازیابی احادیث از صفحات وب و تشخیص درستی احادیث بازیابی شده. آن ها از پایگاه دادگانی که شیخ الألبانی ساخته بود و متشکل از 17 هزار متن حدیثی و درجه صحیح بودن آنها بود، استفاده کردند. آن ها پایگاه دادگان را رمزگذاری نموده و واژگان خنثا و علائم واکه را حذف کردند. همچنین، نمایه های موضعی که شامل بیش از 56000 اصطلاح بود، ساخته شد. به منظور استخراج متون حدیثی از صفحات وب، یک برنامه پاک کننده رمزهای آج.تی.ام.آل به زبان جاوا طراحی شد تا همه رمزگذاری‏ های مبتنی بر اچ.تی.ام.آل را حذف کند. سپس، چهار واژه مجاور از صفحه وب با نمایه های موضوعی حدیثی مقایسه شد تا متن حدیثی تشخیص داده شود. هنگامی که همه متون حدیثی استخراج شد، هر یک در پایگاه دادگان یافته شد تا درجه صحّتش تعیین شود. در این پژوهش، از پنج صفحه وب که دربردارنده متون حدیث بودند، به شکل تصادفی انتخاب شدند که 76.1% دقت و 42.1% فراخوانی به دست آمد.

نرم افزار کتابخانه احادیث تفسیری

استخراج دانش از متون حدیثی در مرکز تحقیقات کامپیوتری علوم اسلامی (نور)

فعالیت‏‌های متن‏ کاوی در مرکز نور ابعاد گوناگونی داشته است و متخصصان این مرکز، در این حوزه نظام‏ های مختلف متبنی بر متن‏ کاوی را طراحی کرده‏ اند. این فعالیت‏ ها در حوزه حدیث، شامل نمونه هایی همچون نظام کشف روایات مشابه است.

شناسایی میزان شباهت یک متن با حجم انبوهی از متون دیگر در متون حدیث، با استفاده از این نظام انجام می‏ شود. این سامانه، به شکل مبتنی بر وب ارائه شده است و در نشانی اینترنتی: http://textmining.noorsoft.org/FA/SimilarHadith در دسترس است. از جمله کاربردهای «سامانه تشخیص ماشینی روایات مشابه» عبارت اند از: تشخیص زیرمجموعه بودن احادیث، پیدا کردن متن و ترجمه، شناسایی احادیث غیرتکراری، شناسایی تعابیر مختلف اسناد، شناسایی کتب مفقوده، موضوعات مشابه، میزان احادیث مشابه بین معصومین(ع)، شناسایی معصوم به عنوان راوی حدیث.

البته فعالیت‏ های مرکز در این حوزه، به همین سامانه خلاصه نمی‏ شود و زمینه های لازم برای استفاده از فنون متن‏ کاوی در متون حدیثی ایجاد شده است. فعالیت‏های دیگری نیز در مرکز در حال انجام است که هنوز به شکل محصول مستقل آماده ارائه نشده و یا ضمن محصولات دیگر، در حال عرضه است.

پی نوشت:

* پژوهشگر مرکز تحقیقات کامپیوتری علوم اسلامی(نور)

منابع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: دوشنبه, 27 آذر 1396
  • صفحه در فصلنامه: صفحه 36
  • شماره فصلنامه: فصلنامه شماره 60
بازدید 155 بار
شما اينجا هستيد:خانه آرشیو فصلنامه شماره 60 روش های استخراج خودکار دانش از متون حدیثی