ره آورد نور

Skip to content

کاربرد هوش مصنوعی در پژوهش‌های علوم اسلامی

چهارشنبه, 31 شهریور 1400 ساعت 15:20

نویسنده:

مهندس احمد ربیعی‌‌زاده* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

اشاره

آنچه در این مقاله از نظر شما خوانندگان محترم می‌گذرد، گزیده‌ای از متن وبینار مهندس احمد ربیعی‌زاده، مدیر محترم اداره پردازش هوشمند مرکز تحقیقات کامپیوتری علوم اسلامی است که در 24 آذرماه 1399 مصادف با هفته پژوهش ارائه شده بود. از آنجا که این وبینار، مشتمل بر نکات مفید در خصوص کاربرد هوش مصنوعی در پژوهش‌های علوم اسلامی است، مناسب دیده شد در فصلنامه ره آورد نور انعکاس یابد. طی این وبینار، با مقوله هوش مصنوعی و کاربردهای آن در پژوهش‌های علوم اسلامی و نمونه‌هایی از این دستاوردها در تولیدات وبی و نرم‌افزارهای ویندوزی مرکز نور آشنا می‌شوید.

درآمد

از مجموعه وبینارهای هفته پژوهش، امروز با وبیناری با موضوع «کاربرد هوش مصنوعی در پژوهش‌های علوم اسلامی» در خدمت شما هستیم. ابتداء در مرحله اول، تعریف و تاریخچه‌ای از هوش مصنوعی را خدمت شما ارائه می‌دهم و سطوح مختلفی از هوش مصنوعی که می‌شود از آنها استفاده کرد را بیان می‌نمایم. در مرحله دوم، مراحل تولید محصول‌های هوشمند داده‌محور را به طور خلاصه تبیین می‌کنم و مروری نیز بر ملاحظات اجرائی که در عمل با آنها روبه‌رو هستیم، خواهیم داشت. در مرحله سوم وبینار، سیر تکامل نرم‌افزارهای نور و سطوح مختلف کاربست هوش مصنوعی را در محصولات مرکز نور خدمت شما ارائه می‌دهم و به اهداف به‌کارگیری فنّاوری هوش مصنوعی اشاره می‌نماییم و در مرحله بعد، نمونه‌هایی از دستاوردهای متعدّد مرکز را در این زمینه که طیّ هشت دسته مرتّب شده است، معرّفی می‌کنیم.

تاریخچه و تعریف پردازش هوشمند متن

قریب به ده سال است که در مرکز تحقیقات کامپیوتری اسلامی و معاونت فنّی، بخشی تحت عنوان هوش مصنوعی و پردازش هوشمند تشکیل شده است. به طور دقیق‌تر، ابتداء بیشتر تمرّکز ما روی مباحث متنی بود که از آن به عنوان «متن‌کاوی» یاد می‌کنیم؛ ولی کم‌کم به فراخور نیازهایی که پیش رو داشتیم، به سوی پردازش تصویر و صوت نیز حرکت کردیم و اسم و عنوان این بخش، به بخش پردازش هوشمند تغییر پیدا کرد.

هوش مصنوعی، عبارت است از توانایی ماشین برای اینکه بتواند رفتاری معادل با رفتار انسان را در مسائل خاصّ از خودش نشان بدهد. از سال 1950م شخصی به نام «تورینگ» این اصطلاح را بر سر زبان‌ها انداخت. هوش مصنوعی موفّق، کاربست تکنیک‌هایی است که شخص ناظر متوجّه نشود که این خروجی را از سوی انسان دریافت می‌کند یا از جانب ماشین. اگر چنین چیزی محقّق شود، می‌توانیم بگوییم هوش مصنوعی، کار خودش را به‌درستی انجام داده است.

یکی بودن نتیجه ارزیابی خروجی انسان و رایانه

سطوح مختلف هوش مصنوعی

هوش مصنوعی، لایه‌های مختلفی دارد و در سطوح گوناگونی از پیچیدگی قابل به‌کارگیری است. به طور کلّی، مسائل هوش مصنوعی را به دو دسته اصلی تقسیم می‌کنند:

یکی، مسائل قاعده‌مند و قانون‌محور است؛ یعنی مسائلی که قوانین حلّ آن مسئله از قبل توسط خبره شناسایی شده، به ماشین داده می‌شود و برنامه نیز طبق همان عمل می‌کند؛ به بیان دیگر، قوانینی در این برنامه‌های پیاده‌سازی می‌شوند و سیستم طبق این قوانین از پیش تعریف‌شده، به نتیجه مورد نظر می‌رسد.

دوم، سیستم‌های هوش مصنوعی مبتنی بر یادگیری ماشین است. در این نوع، ماشین باید طبق ویژگی‌ها و پارامترهای خاصّ فضای مسئله، تصمیم بگیرد؛ یعنی مثلاً یکسری ویژگی‌های مشخّص را در اختیار سیستم قرار می‌دهیم و سیستم مبتنی بر تحلیل این ویژگی‌ها و کشف رابطه آنها با خروجی مورد نظر، دانش خود را به نمونه‌های جدید تعمیم می‌دهد؛ به بیان دیگر، به جای اینکه ما بیاییم قوانین خاصّی را برای سیستم تعریف کنیم، خود سیستم از طریق پارامترهایی که از لابه‌لای دیتای آموزشی در اختیارش قرار گرفته، قوانین لازم را استخراج ‌کند و جواب دهد. در واقع، ماشین در اینجا نوعی فرایند یادگیری را طیّ می‌کند و به‌اصطلاح، هوشمند عمل می‌نماید.

برای دسته اوّل، به عنوان مثال، در پروژه‌های خودمان مانند پروژه تحلیل ساختواژی و صرفی کلمات که مبتنی بر یکسری قوانین زبان‌شناسی تعریف‌شده است، اطّلاعاتی را به سیستم آموزش دادیم که خودش یک کلمه را از جنبه‌های مختلف زبانی تحلیل کند و خروجی مناسب ارائه دهد.

در قسمت یادگیری ماشین، یک نسل پیشرفته‌تری نیز هست تحت عنوان یادگیری عمیق یا Deep Learning. در این مبحث، ما حتّی آن ویژگی‌ها را نیز به سیستم نمی‌دهیم؛ بلکه خود سیستم باید با تحلیل حجم انبوه نمونه‌ها، ویژگی‌های اثرگذار در خروجی را شناسایی کند. معمولاً تعیین این ویژگی‌های اثرگذار، در بسیاری از مسائل، کار دشوار و پیچیده‌ای است؛ به‌خصوص در مسائلی که با متن، محتوا، مباحث طبیعی و انسانی مواجه هستیم. با وجود این پیچیدگی‌ها، ابزارهای فنّاورانه ما به حدّی پیشرفت داشته که می‌توانیم بدون ارائه پارامترهای از پیش‌تعریف‌شده به سیستم، به نتیجه مطلوب خود برسیم. در واقع، یک داده حجیم به سیستم می‌دهیم و در آن داده تعیین می‌کنیم که مثلاً موضوع این حدیث، خمس است و موضوع فلان حدیث، صلات است؛ یعنی با ارائه نمونه‌هایی چند، خودِ سیستم پشت صحنه آنها را تحلیل می‌کند و متوجّه می‌شود که مثلاً چه ویژگی‌هایی از متن می‌تواند در مورد یک خروجی خاصّ، اثرگذار باشد.

مراحل تولیدنرم‌افزار هوشمند داده‌محور

به‌طور کلّی، اگر بخواهیم یک محصول هوشمند داده‌محور داشته باشیم، لازم است ابتداء مرحله داده‌سازی را برای مسئله خودمان پیاده کنیم. یکی از مهم‌ترین قسمت‌ها در تولید نرم‌افزار و حلّ یک مسئله هوشمند که مبتنی بر محتواست، همین مرحله است.

بعد از آنکه وضعیت مسئله و داده‌های لازم را از نظر حجم و کیفیت مورد نظر آماده کردیم، نوبت بررسی الگوریتم‌های مختلف و انتخاب الگوریتم مناسب است. آنگاه باید الگوریتم مناسب را روی دیتای اصلی به دفعات متعدّد اجراء کرد. پس از این، نوبت به ارزیابی نتایج می‌رسد که مبحث خیلی مهمّی است. به منظور محک زدن خروجی کار، لازم است از پیش، دیتای شاهد داشته باشیم تا بتوان خروجی را از نظر دقّت یا جامعیت و مانعیت بررسی نمود.

در کنار این، مباحث مربوط به بسترسازی زیرساختِ پردازشی نیز می‌تواند به ما کمک کند که با پردازش خیلی سریع‌تر، الگوریتم بهتری را برگزینیم و کیفیت نتایج خودمان را اثبات کنیم. در نهایت، بعد از اینکه به یک خروجی مناسب دست یافتیم و ارزیابی‌های قابل قبولی هم روی آنها انجام دادیم، آنگاه مرحله تولید محصول را خواهیم داشت.

مسائل هوش مصنوعی

برخی نکات در زمینه مفاهیم و مسائل مربوط به هوش مصنوعی وجود دارند که نتیجه تجربه چندین‌ساله ما در مرکز نورند و خیلی مهم هستند. در اینجا به بخشی از آنها اشاره می‌کنیم. برای تولید محصولات تخصّصی مثل علوم اسلامی، با دو گروه از متخصّصان مواجه هستیم. یکی، متخصّصان توسعه‌ فنّی و پردازش هوشمند و دوم، متخصّصان یک دانش خاصّ، همچون: قرآن، حدیث، فقه، تاریخ و... . به طور کلّی، پروژه‌هایی موفّق هستند که در مراحل مختلف کار، ارتباط خیلی نزدیک و تنگاتنگی بین هر دو گروه از متخصّصان وجود داشته باشد و این مهمّ، در مسائل هوشمند که با حلّ مسئله محتوامحور روبه‌رو هستیم، به شدّت خودش را نشان می‌دهد و چه بسیار پروژه‌هایی که به جهت فقدان این موضوع، به شکست انجامیده‌اند.

ممکن است تولید یک پایگاه یا نرم‌افزارهای موبایلی با رعایت یکسری چهارچوب‌ها و ویژگی‌ها و داشتن حدّاقل ارتباط اهل خبره با یکدیگر، امکان‌پذیر باشد؛ امّا تحقّق پروژه‌های هوشمند در زمینه تحلیل محتوا و تهیه محصولاتی در این راستا، نیازمند ارتباط قویّ و نزدیک بین متخصّصان فنّی و علمی است.

نکته مهمّ دیگر اینکه هدف‌گذاری ما باید واقع‌گرایانه باشد. در سال‌های اخیر، با توجّه به موفّقیّت‌هایی که در هوش مصنوعی با آن روبه‌رو بودیم، یک فضای تبلیغاتی شکل گرفت که باعث ‌شد انتظارات دیگران از متخصّصان این حوزه، فراتر از حدّ متعارف بالا برود و ما از واقع‌گرایی فاصله بگیریم و در عمل، نتوانیم به نتیجه دلخواه برسیم و همین موجب شود در این حوزه، گاهی روح ناامیدی حاکم شود و به همین دلیل، با تصمیماتی هیجانی، خود و جامعه را از کاربردهای هوش مصنوعی محروم کنیم و حتّی جلوی پیشرفت‌های بعدی را بگیریم. بنابراین، در مسیر توسعه هوش مصنوعی باید معقول و واقع‌گرایانه هدف‌گذاری کرد.

ابتداء باید دید هوش مصنوعی با توجّه به سرعتی که شاهد آنیم، چه آورده و دستاوردهایی را می‌تواند برای ما به ارمغان بیاورد. بعد از آن، به طراحی پروژه خودمان بپردازیم تا بتوانیم به صورت حدّاکثری از این وضعیت‌ها استفاده کنیم و نیاز کاربران را به شکل مطلوبی پاسخ دهیم. بنابراین، در همان دو طراحی یک پروژه باید به مقوله هوش مصنوعی توجّه ویژه داشت.

سیر تکاملی نرم‌افزارهای نور

مرکز تحقیقات کامپیوتری علوم اسلامی، از سال 1368ش تأسیس شد و از آن سال‌ها تاکنون، یکی از دستاوردهایی نور این بوده است که توانسته فنّاوری اطّلاعات و محتوای علوم اسلامی را با هم گره بزند و از تلفیق این دو دانش با همدیگر، محصولات نرم‌افزاری منحصربه‌فردی را در حوزه علوم اسلامی تولید کند.

این روند، ادامه پیدا کرد تا حدود ده سال پیش که ما با یک موضوع جدید و سومی روبه‌رو شدیم و آن، حوزه به‌کارگیری تکنیک‌های محاسبات ریاضی و محاسبات آماری و پردازش‌های زبانی در کنار آن دو حوزه قبلی بود. با استفاده از این حوزه سوم، توانستیم مباحث مربوط به دستاوردهایی در زمینه Text Mining یا داده‌کاوی و متن‌کاوی و پردازش زبان‌های طبیعی یا Natural Language Processing و به طور کلّی هوشمندسازی فرایندها، قابلیت‌هایی را برای کاربران و محقّقان به ارمغان بیاوریم که قبل از آن وجود نداشته است؛ یعنی نسل جدیدی از نرم‌افزارهای نور را تولید کردیم که از قابلیت‌های هوشمند بهره‌مند هستند.

به طور کلّی، مراحل تولید نرم‌افزار در مرکز نور، در سه مرحله خلاصه می‌شود:

مرحله اول، تولید محتواست. تایپ و تبدیل محتوا و تصحیح متون و فرایندهایی از این دست، در این مرحله انجام می‌شود.

در مرحله بعد، فرآوری محتوا را داریم که برچسب‌گذاری محتوا، مثلاً برچسب: آیه، حدیث، ریشه و انواع و اقسام برچسب‌گذاری‌های موضوعی، روی آن محتوای دیجیتال‌شده انجام می‌شود تا متن، خوانایی لازم را برای ماشین پیدا کند.

در مرحله سوم، محتوای فرآوری‌شده، تصحیح‌شده و برچسب‌خورده و غنی‌ّسازی‌شده، در قالب نرم‌افزارهای رومیزی یا وبی به انتشار می‌رسد.

در مورد اینکه ما در کدام‌یک از این مراحل توانستیم هوش مصنوعی را به طور مناسب به‌کار بگیریم، باید بگوییم که ما در هر سه مرحله، توانسته‌ایم از هوش مصنوعی بهرمند شویم و کارهای خودمان را توسعه داده و پیش ببریم.

در مرحله اول، به طور نمونه، با تکنیک‌هایی مثل OCR دیتاهای تصویری خودمان را تحلیل می‌کنیم و متن را از آنها استخراج می‌نماییم و محتوا را توسعه می‌دهیم. همچنین، با تکنیک‌هایی تصحیح لازم را در متون انجام می‌دهیم و به صورت ماشینی، برچسب‌گذاری‌ها و غنی‌ّسازی‌هایی را روی متن اِعمال می‌کنیم. در مرحله سوم هم قابلیت‌های هوشمند و جدیدی را به کار گرفته‌ایم که از جمله می‌توانیم به انواع پیشنهاددهنده‌ها در حوزه عرضه محتوا اشاره نماییم.

مراحل تولید نرم افزار و محصول در مرکز تحقیقات کامپیوتری علوم اسلامی (نور)

اهداف به‌کارگیری هوش مصنوعی در محصولات نور

یکی از این اهداف، چابک‌سازی فرآیندهای جاری تولید و فرآوری محتوای خوب است که قبل از ورود هوش مصنوعی به این عرصه، بسیاری از پردازش‌ها به صورت دستی انجام می‌شد که قاعدتاً زمان، هزینه و نیروی بسیاری صرف آن می‌شد؛ چنان‌که برخی پروژه‌ها به دلیل همین دستی‌بودن خیلی از مراحل، بیش از ده سال در صف توسعه محتوا باقی می‌ماندند؛ مانند پروژه موضوع‌گذاری روی کتاب تفسیر المیزان یا بحار الأنوار و الغدیر. بدیهی است که ورود هوش مصنوعی به این حوزه، می‌تواند نقش مهمی در تسریع و پشبُردِ کمّیت کار داشته باشد.

هدف بعدی، ارتقاء سطح کیفی محتوا و خدمات ارائه‌شده است. با تکیه بر پردازش‌های هوشمند و استفاده از تکنیک‌های جدید می‌توان سطح کیفی خدمات خود را ارتقاء داد و اشکال‌هایی را که ممکن بود در کار انسانی پیش بیاید، حلّ کنیم.

هدف دیگر اینکه با قابلیت‌های برآمده از هوش مصنوعی، نیازهای پیچیده‌ای را می‌توانیم برطرف کنیم که تا قبل از آن، اصلاً امکان آنها وجود نداشت؛ مثلاً در پروژه سمیم، فرایند مشابه‌یابی مقالات در سطح خیلی حجیم و وسیعی انجام می‌شود؛ یعنی این سامانه، یک مقاله را با تمام محتواهای موجود در پایگاه نورمگز و نورلایب و یا کتاب‌ها و منابع موجود، مشابه‌یابی می‌کند و بخش‌های مشابه را کشف یا تقلب‌یابی می‌نماید. بدیهی است که این کار، اصلاً به شکل دستی و سنّتی، قابلیت انجام ندارد.

دستاوردهای نور در هوشمندسازی علوم اسلامی

مرکز تحقیقات کامپیوتری علوم اسلامی، تاکنون دستاوردهای بسیاری در زمینه هوشمندسازی فرایندها و ارائه قابلیت‌های جدید در زمینه تحلیل هوشمند محتوا داشته‌ است که در این مجال، به برخی از آنها اشاره می‌کنم.

ـ تجزیه صرفی و نحوی:

اولین دستاورد ما، ابزار تجزیه صرفی بود؛ بدین ترتیب که یک کلمه عربی را به سیستم می‌دهیم و سیستم آن را از حیث صرفی و ساختمان کلمه، تحلیل می‌کند که چه پیشوندها یا پسوندهایی می‌تواند داشته باشد. اصل یا هسته اصلی کلمه و یا پسوند و پیشوند آن، چه ویژگی‌هایی صرفی دارند؛ مثلاً ریشه‌ این کلمه چیست، اِعراب آن چیست، جمع است یا مفرد، اسم است یا فعل، چه وزنی دارد و امثال آن. در واقع، اقسام ویژگی‌هایی که در تحلیل صرفی کلمه می‌توانند برای ما مهمّ باشند، ماشین همه حالات ممکن در آن کلمه را تحلیل و بررسی می‌کند و حالتی را که به نظرش می‌تواند صحیح باشد، به عنوان خروجی ارائه می‌دهد. بدیهی است که چنین چیزی، کاربردهای خیلی متعدّدی خواهد داشت. دور از واقعیت نیست اگر بگوییم که هزاران قانون و قاعده در پشت صحنه این موتور پیاده‌سازی شده تا بتواند رفتار مناسب و صحیحی از خودش بروز دهد.

علاوه بر این، در لایه نحو هم وارد شده‌ایم و مثلاً در محتوای قرآنی، داده استانداردی آماده شده که در آن، ساختار یک جمله که مبتنی بر قواعد نحوی زبان عربی است، در قالبی قابل فهم برای ماشین آماده گردید؛ مثلاً این کلمه، مبتداست یا خبر، فاعل است یا مفعول و مانند آن. متن کامل قرآن کریم، در حال حاضر از صرفی و نحوی، برچسب‌گذاری شده و در پایگاه جامع قرآنی مرکز در اختیار مخاطبان قرار داده شده است.

همچنین، زیرساخت و رابط کاربری خاصّی آماده شده که کابران قادر باشند در این دیتای ارزشمند صرفی و نحوی قرآن به جست‌وجو بپردازند و به مطلب مورد نظرشان دست یابند.

ـ مدخل‌یابی کلمات:

استفاده دیگری که از این موتور صرفی هوشمند نموده‌ایم، مدخل‌یابی هوشمند کلمات است؛ یعنی ماشین، به‌ازای جست‌وجوی یک کلمه توسط کاربر، از میان انبوه مداخلی که وجود دارد، بر اساس تحلیل صرفی کلمه، نتایج را به صورت هوشمندانه توسعه داده و بهترین مدخل‌ها را به کاربر پیشنهاد می‌دهد و پاسخ‌های غیرمرتبط و دور از هدف کاربر را از چرخه پاسخ‌های جست‌وجو خارج می‌کند و نتایج مطلوب را ارائه می‌دهد.

ـ مشابه‌یابی متون:

دستاورد دیگر ما، به بحث مشابه‌یابی متون مربوط می‌شود؛ به طور مثال، در متون عربی مثل احادیث، این قابلیت وجود دارد که روایات مشابه حدیث انتخابی کاربر را با درصد تشابه مورد نظر کاربر نمایش دهیم. برای اولین‌بار در نرم‌افزار جامع الأحادیث سه‌ونیم از این قابلیت مفید رونمایی کردیم که برای کاربران، به‌خصوص حدیث‌پژوهان بسیار کاربردی است. اینکه کسی بخواهد برای یافتن روایات مشابه به شکل سنّتی عمل کند و در منابع حدیثی جست‌وجو نماید، وقت و هزینه بسیاری از او می‌گیرد؛ ولی شما اکنون با یک کلیک می‌توانید به فهرستی جامعی از روایات مشابه حدیث انتخابی خودتان دسترسی داشته باشید. گفتنی است که علاوه بر نرم‌افزار جامع الأحادیث سه‌ونیم که به احادیث شیعه اختصاص دارد، در کتابخانه احادیث فریقین هم این ابزار به کار گرفته شده است تا علاقه‌مندان بتوانند در منابع اهل‌سنّت هم به مشابه‌یابی احادیث مبادرت ورزند.

همچنین، از این قابلیت، در پایگاه جامع الأحادیث نسخه جدید هم استفاده شده است. قبلاً اگر کاربر جست‌وجویی در پایگاه حدیث نور انجام می‌داد، معمولاً به نتایج متعدّد و تکراری منجر می‌شد؛ ولی در نسخه جدید پایگاه، احادیث را گروه‌بندی کرده‌ایم و پاسخ‌های جست‌وجو بسیار دقیق و نزدیک به خواسته کاربر است و تنها با یک تیک، جلوی تکرار نتایج زاید گرفته می‌شود.

همان طور که اشاره کردم، قابلیت مشابه‌یابی در سامانه سمیم نور هم به‌کار گرفته شده است. محقّق می‌تواند تمام اجزاء مقاله خود را در میان انبوهی از مقالات، کتاب‌ها و پایان‌نامه‌های حوزه علوم اسلامی و انسانی کاوش نماید و اصالت یک متن و میزان یا درصد مشابهت آن را با سایر متون بررسی نماید.

علاوه بر این، در زمینه مشابه‌یابی معنایی و فرالفظی نیز کارهای ارزشمندی انجام شده است؛ برای نمونه، در قسمت احادیث مرتبط پایگاه حدیث، روایات مرتبط با حدیث مدّ نظر کاربر، با استفاده از تکنیک‌های تحلیل معنایی متون و مشابه‌یابی فرالفظی، پیاده‌سازی شده است.

در محتوای قرآنی نیز از تکنیک‌های مشابه‌یابی استفاده شده و کاربر می‌تواند به آیات مشابه لفظی یا معنایی آیه مورد نظر خودش دسترسی داشته باشد؛ برای مثال، وقتی کاربر آیه مربوط به نیکی به پدر و مادر را به سیستم بدهد، ماشین تمام آیات مرتبط با این موضوع را برایش فهرست می‌کند؛ حتّی آیاتی که در آنها هیچ اشاره لفظی به این موضوع نشده باشد؛ امّا مفهوم و محتوای این موضوع مورد توجّه قرار گرفته است.

ـ برچسب‌گذاری آیات و روایات:

کار دیگر ما، برچسب‌گذاری آیات در متون است؛ به بیان دیگر، سیستم ما، محتوای خام را می‌گیرد و بعد مشخّص می‌کند کجای این محتوا، آیه است و نشانی آن چیست. این سیستم، رسم‌الخط‌ّهای مختلف قرآن را نیز پوشش می‌دهد. همین کار، برای متون حدیثی هم پیاده‌سازی شده است و به شکل خودکار، عملیات برچسب‌گذاری احادیث در متون را انجام می‌دهیم.

ـ برچسب‌گذاری پاورقی‌ها:

کار خوب دیگری که انجام شد، برچسب‌گذاری پاورقی‌های متون است؛ اینکه این پاورقی، به چه کتاب، جلد یا صفحه‌ای مربوط است و آن را به محتوای مربوطه لینک بدهد.

ـ برچسب‌گذاری اَعلام اشخاص:

در زمینه استخراج خودکار اَعلام اشخاص و به‌اصطلاح موجودیت‌های نامدار هم کار خوبی انجام شده است. إن شاء الله در آینده بتوانیم محصولاتی مبتنی بر این استخراج‌های ماشینی داشته باشیم.

ـ استخراج هوشمند رویدادهای تاریخی:

در این زمینه، متون خام تاریخی را به سیستم می‌دهیم و آنگاه سیستم، رویدادهای تاریخی موجود در متن را شناسایی می‌نماید و تمامی اطّلاعاتی را که به آن مربوط هست، گزارش می‌کند. امیدواریم بتوانیم از این قابلیت، در پایگاه تاریخ رونمایی کنیم.

استخراج هوشمند اطلاعات رویدادهای تاریخی از متن

ـ ردبندی‌متون:

در برخی متون تخصّصی مثل فقه، ما از قابلیت رده‌بندی متون استفاده برده‌ایم؛ برای مثال، اگر کاربر یک متن فقهی یا حدیثی را به سیستم ارائه دهد، سیستم تعیین می‌کند که برچسب موضوعی آن متن چیست. بدیهی است که تعیین موضوع یک متن، کارایی بسیاری برای کاربر و محقّق دارد و از این طریق به‌آسانی می‌تواند پژوهش‌های خود را ساماندهی کند.

ـ با هم‌آیی متون:

فیلد دیگری که به برکت هوش مصنوعی، آن را آماده کردیم، قابلیت‌هایی مبتنی بر تحلیل با‌هم‌آیی متون است؛ برای مثال، از این تکنیک در سیستم استخراج آیات مرتبط استفاده کرده‌ایم؛ یعنی علاوه بر ارتباط لفظی و معنایی و موضوعی، می‌توانیم گونه دیگری از آیات مرتبط با آیه کاربر را نیز برای او فهرست کنیم. این قابلیت، مبتنی بر این نظریه است که آیاتی که مفسّران متعدّد در کنار هم ذکر کرده‌اند، با یکدیگر ارتباط خواهد داشت. این تکنیک، در انبوه تفاسیر قرآنی اجراء شد و بدین ترتیب، کاربر می‌تواند بفهمد آیات مرتبط با آیه انتخابی او چه آیاتی هستند و دیدگاه مفسّران را هم ملاحظه کند.

افزون بر به‌کارگیری این تکنیک در تحلیل آیات و ارائه آیات مرتبط در پایگاه جامع قرآنی، در خود موتور جست‌وجوی نور هم آن را به کار گرفته‌ایم؛ مثلاً در پایگاه مجلات تخصصی نور (نورمگز)، قابلیت پیشنهاد عبارت جست‌وجو راه‌اندازی شد؛ به طوری که مثلاً وقتی کاربر عبارت «بیداری اسلامی» را جست‌وجو می‌کند، سیستم علاوه بر عرضه پاسخ‌های مربوط به این واژه، عباراتی همچون «بهار عربی» و «اخوان المسلمین» را هم به کاربر پیشنهاد می‌دهد که کاملاً یک پیشنهاد هوشمندانه است؛ یعنی سیستم به شکل خودکار، عباراتی را که با متن مورد نظر کاربر، هماهنگی و ارتباط لفظی یا معنایی دارد، ارائه می‌کند.

ـ ترجمه ماشینی متون:

فیلد دیگری که خیلی جذّاب است و در سال‌های اخیر به آن ورود پیدا کرده‌ایم، بحث ترجمه ماشینی است. از این امکان، در دو جای اصلی استفاده نموده‌ایم. یکی از آنها، در بحث ترازبندی خودکار متن ترجمه است. خوب می‌دانید که خیلی از جاها متون منبع و مرجع در علوم اسلامی، دارای ترجمه‌های متعدّدی هستند. تاکنون ارتباط بین متن و ترجمه آن، توسط انسان انجام می‌شد؛ امّا حالا توسط تکنیک ترجمه ماشینی، صفحه یا پاراگراف متون را به متن ترجمه آن متّصل کرده‌ایم و خود ماشین، به صورت هوشمند این فرایند را برای کاربر انجام می‌دهد.

علاوه بر این، از تکنیک ترجمه ماشینی در ترجمه‌یابی احادیث هم استفاده نموده‌ایم. خیلی از احادیث هستند که ممکن است تاکنون ترجمه مشخّصی برای آنها توسط انسان تحریر نشده باشد؛ امّا سیستم، از طریق بازیابی اطّلاعات ترجمه ماشینی آن، ترجمه‌یابی کرده و پس از یافتن ترجمه مناسب، آن را پیشنهاد می‌دهد. إن شاء الله، به‌زودی این قابلیت را در پایگاه جامع الأحادیث به کار خواهیم گرفت.

ـ پردازش تصویر:

در گروه پردازش هوشمند نور، علاوه بر پردازش متن، به مقوله پردازش تصویر هم ورود پیدا کرده‌ایم. در زمینه OCR و استخراج متن از تصاویر، خوشبختانه توانستیم محصولی را تولید کنیم و از آن در فرایندهای ورود اطّلاعات و دیجیتالی‌کردن متون استفاده کنیم. یکی از پُرهزینه‌ترین مراحل تولید نرم‌افزارهای نور، بحث دیجیتالی‌کردن اطّلاعات است. بدیهی است که با داشتن یک چنین سیستم‌هایی، صرفاً با داشتن تصویر آن کتاب، می‌توانیم به راحتی از مرحله دیجیتالی‌کردن اطّلاعات گذر نماییم و دیگر نیازی به تایپ تمامی متون نخواهیم داشت و با حدّاقل هزینه، این فرایند به انجام خواهد رسید.

از این قابلیت، در پایگاه نورمگز استفاده شده است. بدین ترتیب، صدها هزار صفحه از مقالاتی را که به دلیل نبودِ متن، امکان جست‌جو در آنها وجود نداشته و صرفاً تصویرشان در دسترس ما بوده است، به متن تبدیل کرده‌ایم. بدیهی است که این نوع پردازش، دستاورد خیلی پُررنگ و چشمگیری به شمار می‌رود.

ـ پردازش صوت:

در جست‌جوی صوتی هم گام‌های خوبی برداشته‌ایم. البته باید بگویم به جهت پُرهزینه بودن فیلد پردازش صوت و منابع کمی که داشتیم، بیشتر از منابع متن‌باز که در این حوزه موجود بودند، استفاده کردیم و با سفارشی‌سازی آنها توانستیم به یک سامانه‌ای مطلوب برسیم که به وسیله آن، کاربر می‌تواند در محتوای صوتی مورد نظر خودش جست‌وجو کند. از این قابلیت، برای اوّلین‌بار به صورت آزمایشی در نرم‌افزار «کتابخانه مقتل الحسین(ع)» استفاده شد. این امکان نیز خیلی کاربردی و مفید به نظر می‌رسد.

پرسش و پاسخ

در پایان، کاربران حاضر در وبینار، به ارائه سؤالات خود پرداختند. در ادامه، برخی از این پرسش و پاسخ‌ها را جهت استفاده خوانندگان گرامی می‌آوریم.

1. آیا مرکز برنامه‌ای برای ترجمه ماشینی متون اسلامی به زبان‌های غیرفارسی دارد؟

فعلاً در چشم‌انداز کوتاه‌مدّت، برنامه‌ای در این راستا در نظر گرفته نشده است؛ امّا با استفاده از ابزارهایی که در این حوزه وجود دارد، این قابلیت در فضای متون اسلامی قابل دستیابی است.

2. برای شناسایی و تعیین مرجع ضمایر موجود در قرآن یا احادیث، چه برنامه‌ای دارید؟

در زمینه تعیین مرجع ضمیر، کارهای خوبی در مرکز به صورت دستی شده است. در سال‌های گذشته، یک کار دستی در این زمینه انجام شده است؛ یعنی در نرم‌افزار قرآنی جامع تفاسیر. البته نمونه‌ و مشابه این قابلیت، در نرم‌افزار نور السیره هم به صورت دستی انجام شده است که با استفاده از این دادگان و با پیشرفت‌هایی که در زمینه شناسایی خودکار مرجع ضمیر در سال‌ها ی اخیر وجود داشته، در صورت لزوم، می‌توان ابزارهای مناسبی در این زمینه تولید کرد و به فراخوار حال، در محصولات نرم‌افزاری از آنها استفاده نمود.

3. آیا در نرم‌افزارهای نور به امکان ترجمه هوشمند هم توجّه شده است؟

فعلاً در نرم‌افزارهای نور، این قابلیت عرضه نشده است؛ امّا در خصوص ترجمه ماشینی متون، ما به نتایجی رسیده‌ایم که إن‌شاءالله بتوانیم در نرم‌افزار جامع الأحادیث، از این ابزار یک خروجی بگیریم. امّا اینکه مستقیماً ابزار ترجمه هوشمند را برای کاربران و علاقه‌مندان ارائه کنیم، باید بگویم که احتمالاً در ماه‌های آتی، این قابلیت را در وبگاه متن‌کاوی مرکز نور قرار بدهیم.

4. آیا امکان استفاده از برنامه ترازبندی برای کاربران وجود دارد؟

اگر منظور شما ترازبندی متن و ترجمه یا متن و صوت است، فعلاً هیچ‌کدام از آنها رونمایی نشده و بیشتر در قالب یک ابزار، به عنوان دستیار پژوهشگران داخلی مرکز، از آن استفاده می‌شود. اگر بدانیم که استفاده‌کننده از این ابزار زیاد است، آن را در وبگاه متن‌کاوی قرار خواهیم داد.

5. آیا در تولیدات نور، برای معرّفی مقاله مرتبط با متن، امکانی وجود دارد یا خیر؟

در پایگاه نورمگز، ذیل هر مقاله، مقالات مرتبطی پیشنهاد می‌دهیم. اگر مقاله مدّ نظر شما جزء مقالات پایگاه نور مگز باشد، از آن مقالات مرتبطی که توسط ماشین پیشنهاد داده می‌شود، می‌توانید استفاده کنید.

البته باید بگویم که در پایگاه نوریاب نیز می‌توانید متن یک جمله یا عبارت مدّنظر خودتان را مشابه‌یابی کرده و به کتاب‌های حاوی عبارات مشابه دسترسی داشته باشید.

پی نوشت: