معرّفی مرکز نور
«همان طور که میدانید، این مرکز در سال ۱۳۶۸ش با فرمان مقام معظم رهبری تأسیس شد و در واقع، هدف ما این بود که از همان ابتداء در حوزه علوم اسلامی فعّالیت داشته باشیم و متون این عرصه را پردازش کنیم تا در مسیر افزایش سرعت در کارهای پژوهشی و دسترسی به منابع علوم اسلامی هموار باشد. در گذشته، بابت دسترسی به منابع فیزیکی، زمان و هزینه زیادی باید صرف میشد که با استفاده از فنّاوری اطّلاعات، این کار خیلی تسهیل شد و هزینهها کاهش یافت.
در همان ایامی که هنوز کامپیوتر خیلی رواج پیدا نکرده بود، یکسری سمینارهای ملّی به همّت این مرکز برگزار شد که در راستای آشنایی بیشتر با کامپیوتر، فرهنگ استفاده از آن در حیطه علوم اسلامی و نیز فرهنگسازی در این زمینه بود. بدیهی است که مخاطبان باید با تکنولوژیها و محصولات نور آشنا میشدند. مستحضر هستید که نخستین نرمافزارهای دسکتاپی که تولید شد، با سیستمعامل داس کار میکرد و بعداً سیستمعامل ویندوز آمد و ما هم متناسب با فنّاوریهای جدید، محصولات نور را بهروزرسانی میکردیم و بحمدالله، برنامههای خوب و معروفی تولید شدند که بیشتر کاربران و محقّقان با آنها آشنا هستند و اساساً گاهی مرکز را به واسطه همین تولیدات میشناسند؛ مثل نرمافزار جامع التفاسیر و جامع الأحادیث نور.
با فعّالشدن بحث اینترنت، مرکز نور به تولید محصولات وبی هم ورود پیدا کرد؛ مانند پایگاههای مختلفی که همواره بهروز شده است؛ از جمله میتوانم به نورمگز و نورلایب اشاره کنم و همینطور پایگاه قرآن، احادیث و قاموس که مخاطبان بسیاری دارد.
نکتهای که میخواستم تأکید کنم، این است که ما قابلیتهای مربوط به هوش مصنوعی را در اکثر محصولات نور استفاده کردهایم؛ البته شاید کاربر خیلی به هنگام استفاده از آن، متوجّه این موضوع نشود. اساساً بحث ورود اطّلاعات و فنّاوری اطّلاعات و پردازشهای مربوط به آنها، با کمک هوش مصنوعی انجام شده است. در همین راستا، مرکز نور در زمینه تولید و توسعه نرمافزار تلفن همراه نیز همسو با فنّاوریهای جدید گام برداشته است.»
پیشینه دستاوردهای نور در حوزه هوش مصنوعی
«در این چند سال، با آمدن مدلهای بزرگ زبانی، ابزارهای گفتوگو یا چتباتها در فرهنگ عمومی هوش مصنوعی خیلی پُررنگ شده است. مرکز نور حدود پانزده سال پیش به عرصه هوش مصنوعی ورود پیدا کرد و اولین سمینار هوش مصنوعی علوم اسلامی را در سال ۱۳۹۰ برگزار نمود. طیّ این سالها، تکنولوژیهای مرتبط با هوش مصنوعی را در محصولات خودمان استفاده کردیم که در سه سطح قابل توضیح است.
سطح اول، مربوط به بحث ورود اطّلاعات است؛ یعنی دیجیتالیکردن متون و تایپ اطّلاعات. در این بخش، مباحثی مثل او.سی.آر مطرح است و یا اشکالاتی که در زمینه تایپ وجود دارد و نحوه برطرفکردن آنها، در سطح ورود اطّلاعات بحث و بررسی میشود.
سطح بعدی، بیانگر بحث فرآوری اطّلاعات است. در این مرحله، به طور هوشمند روی متون برچسبگذاریها یا تگگذاریهایی انجام میشود. سطح سوم هم به مقوله شیوه ارائه اطّلاعات میپردازد. قابلیتهایی همچون گروهبندی و مشابهتیابی متون، در این مرحله وجود دارد؛ مانند مشابهتیابی احادیث که در نرمافزار جامع الأحادیث تعبیه شده است.
ما در حوزه فنّاوری او.سی.آر در این چند سال اخیر، با آمدن مدلهای زبانی بزرگ، تحوّل خیلی خوبی داشتیم و کیفیت آن هم ارتقای قابلقبولی پیدا کرده است. سیستمهای قبلی ما، مبتنی بر شبکه عصبی عمیق نبودند و بعد از آنکه شبکههای عصبی عمیق آمدند، یک بهبودی چشمگیری در این حوزه حاصل شد.
یکی از مباحث در روند تولیدات نور، بحث تبدیل اطّلاعات است. در گذشته، زبان فارسی در کامپیوتر خیلی راحت قابل استفاده نبود. برای همین منظور، مرکز نور فرمتهای خاصّ خودش را تعریف کرد. همین امر، نیازمند یکسری تغییرات بود و اساساً برای تبدیل اطّلاعات، باید مقدّمتاً کارهایی را انجام میدادیم تا به بهترین شکل، به این هدف برسیم. فرایند تصحیح متون هم بهصورت هوشمند صورت گرفته است.
همان طور که عرض کردم، در سطح دوم که بیانگر فرآوری اطّلاعات است، برچسبگذاریهایی روی متون، مانند آیات و احادیث، بهصورت ماشینی انجام شد و به همین شکل، برچسبگذاریهای موضوعی، کلیدواژهها و نمایههایی نیز برای متون تهیه و ارائه شد.
در سطح سوم، یعنی ارائه اطّلاعات، در نرمافزارهای نور این قابلیت را ایجاد کردیم تا شیوه دسترسی به محتوای کتب، تسهیل شود؛ مانند قابلیت کاربردی مشابهیابی متون که علاوه بر نرمافزارهای دسکتاپی، در وبگاههایی همچون نورلایب و نورمگز نیز استفاده میشود. گروهبندی احادیث، یکی دیگر از این دست امکانات است که بهخصوص در حوزه چتباتها خیلی به ما کمک کرد؛ زیرا میتوانند از تکرار اطّلاعات جلوگیری نماید.
از جمله مقولههای مطرح در بحث هوش مصنوعی میتوان به مواردی نظیر: او. سی. آر، استخراج اطّلاعات، ترجمه ماشینی و غیره اشاره کرد که همه اینها را میتوانید در پایگاه آزمایشگاه هوش مصنوعی مرکز نور مشاهده کنید.
یکی دیگر از ابزارهای خوب در این عرصه، تحلیلگر صرفی نور است که قادر است، ویژگیها و حالتهای مختلف یک کلمه را از متن استخراج کند. اِعرابگذاری هوشمند برای متون عربی اسلامی، از دیگر این قابلیتهاست که مبتنی بر چهارصد جلد کتابِ اعرابخورده است و میتواند با دقّت نوددرصدی، متن شما را اِعرابگذاری کند.
از دیگر قابلیتهای مطرح در سطح ارائه اطّلاعات، امکان برچسبگذاری آیات است. این سیستم میتواند آیات موجود در یک متن را بیابد. این قابلیت هوشمند، از رسمالخطهای مختلف قرآن پشتیبانی میکند و شما را به وبگاه قرآن نور متّصل میسازد. مشابه آنچه در مورد آیات گفتیم، برچسبگذاری خودکار احادیث را هم داریم که از امکانات هوشمند در حوزه ارائه اطّلاعات حدیثی به شمار میرود؛ یعنی کاربر به کمک این فنّاوری میتواند احادیث داخل متن را شناسایی کند و برای اطّلاعات کاملتر، شما را به پایگاه جامع الأحادیث هدایت نماید و در آنجا میتوانید به اطّلاعات پیرامونی یک حدیث، مانند: سند، ترجمه و یا شرح آن دسترسی داشته باشید. چنانچه در یک متن، احادیث جعلی وجود داشته باشد، بهوسیله چتباتهای حدیثی قابل شناسایی هستند. در واقع، اگر حدیثی در پایگاه داده و منابع اصلی کتابخانه حدیثی نور وجود نداشته باشد، گواه آن است که این روایت در منابع حدیثی وجود ندارد و احتمالِ جعلیبودنش وجود دارد.
قابلیتهایی که اشاره کردم، در پایگاههای نور هم استفاده میشود؛ مانند: حوزهنت، نورلایب و نورمگز. در واقع، همه واژگان به شکل ماشینی استخراج شده و از توانمندیهای پژوهشی و فنّاوریهای مرتبط با هوش مصنوعی برخوردار شدهاند.
قابلیت دیگر، بحث برقراری پیوند بین متن و پاورقیها در نورلایب است. در پایگاه نورلایب، خیلی از کتابها از طریق پاورقی، به منبع اصلی خودشان ارجاع میدهند. بدیهی است که یافتن این گونه ارجاعات، به شکل دستی و سنّتی، خیلی سخت و زمانبر است؛ بهخصوص اگر آن کتاب، چاپهای مختلفی داشته باشد. ما به کمک هوش مصنوعی، پاورقیها را به متن اصلی متّصل یا مرتبط کردیم تا کاربر یا محقّق از مطابقت و صحّت این ارجاعات، مطمئن شود. بیش از چهار میلیون پاورقی در نورلایب، به این شیوه «لینک» داده شده است.
همچنین، طبقهبندی متن و برچسبگذاری موضوعی، مانند موضوعات فقهی، قرآنی یا حدیثی، از دیگر ابزارهای ماشینی و هوشمند به شمار میرود.
استفاده از آیات مرتبط، یکی از قابلیتهای هوشمند در خصوص استفاده بهینه از آیات قرآن است؛ یعنی وقتی شما در یک متن، با آیهای خاصّ مواجه شوید، این فنّاوری به شما آیات مرتبط با آیه انتخابی را معرّفی میکند؛ یعنی آیاتی که با هم ارتباط معنایی دارند، در دسترس قرار میگیرند. این قابلیت، در پایگاه قرآن نور وجود دارد.
بحث ترازبندی خودکار متن ترجمه هم از دیگر ابزارهای هوشمندی است که در محصولات خود تدارک دیدهایم. به کمک این قابلیت، ترجمههای موجود از یک کتاب یا متن، با هم مقایسه گردیده، مطابقت داده میشوند و ارتباط بین متن و ترجمه نیز مشخّص میشود و کاربر میتواند به مقایسه و یا انتخاب ترجمه دلخواه خود اقدام نماید. این ابزار، در پایگاه آزمایشگاه هوش مصنوعی نور در دسترس قرار دارد.
بحث همترازی ترجمههای قرآن نیز از دیگر قابلیتهای خوبی است که برای کاربران و قرآنپژوهان قابل استفاده است. این ابزار، در نرمافزار جامع التفاسیر نسخه چهارم موجود است. وقتی شما کلمه یا عبارتی از آیات قرآن را انتخاب کنید، در تمام ترجمهها کاوش میکند و ترجمههای مرتبط با کلمه یا عبارت انتخابی شما را ارائه مینماید. بدیهی است که این توانمندی، نگرش خوبی به محقّق میدهد تا پژوهش خود را هدایت کند. همچنین، شما میتوانید مثلاً معادلهای فارسی این کلمه را در ترجمههای مختلف موجود در تفاسیر قرآن مشاهده نمایید.
امکان دیگر، جستوجوپذیرکردن متون تصویری است. حدوداً نصفی از مقالات نورمگز و کتابهای نورلایب، به شکل اسکنشده یا تصویری است و قابلیت جستوجو نداشتند. این امر، مشکلاتی را از نظر دسترسی کاربران به متن آنها ایجاد میکرد. برای رفع این مشکل، بالای نود درصد این دست متون را به متن جستجوپذیر تبدیل کردهایم؛ ضمن اینکه بخشِ جستوجوشده، در متن تصویری نیز به شکل رنگی نمایش داده میشود.
قابلیت استخراج خودکار اَعلام و اشخاص از متون تاریخی که در پایگاه تاریخ مرکز نور تعبیه شده، از دیگر ابزارهایی است که کاربرانِ تاریخپژوه را در مسیر پژوهش در متون تاریخی یاری میرساند. برای اطّلاع بیشتر از سایر ابزارها و محصولات مرکز نور در حوزه AI میتوانید به پایگاه آزمایشگاه هوش مصنوعی نور مراجعه کنید.»
تازههای نور در عرصه هوش مصنوعی
«در چند سال اخیر، تحوّلات بزرگی در زمینه هوش مصنوعی رخ داده است و تا حدودی در زندگی روزمره نیز ورود پیدا کرده است. اگرچه مرکز نور از حدود پانزده سال پیش به این عرصه ورود داشته، ولی لازم است که همواره خودمان را بهروز کنیم و با تکنولوژیهای و مدلهای جدید، همگام شویم تا کیفیت تولیداتمان و نیز سهولت و سرعت دسترسی کاربران به آنها، افزایش یابد.
بهطورکلی، مدلهای زبانی بزرگ را در چهار سطح میتوان بهبود داد:
سطح اول، به مهندسی پرامپت مربوط است که راحتترین روش است و بیشترین کاربرد را دارد. فقط شما باید یکسری اصول را به هنگام پرامپتنویسی رعایت کنید و در واقع، مسیر را برای مدل روشن کنید تا پاسخ بهتری را به شما عرضه کند.
در سطح دوم، باید از مدلهای زبانی در سیستم استفاده کرد که به دانش برنامهنویسی نیاز دارد. در سطح بعدی که قدری پیچیدگی دارد، نیازمند دانش بیشتری هستیم که به نام «تنظیم دقیق» شناخته میشود. باید یکسری دیتاها را مطابق برخی استانداردها آماده کرد و عملاً نیازمند جیپییوهای نسبتاً قوی است.
در سطح آخر هم آموزش مدل از صفر مطرح است که تنها در چند شرکت بزرگ دنیا وجود دارد؛ زیرا هزینه بسیار بالایی دارد و نیازمند دیتای خیلی زیادی است و فقط در انحصار چند شرکت است.
در مقوله مهندسی پرامپت، باید به موارد زیر دقّت کرد.
نخست، تعریف نقش برای هوش مصنوعی است؛ یعنی تعیین یک شخصیت یا تخصّص برای مدل جهت دریافت پاسخ بهتر. مورد دیگر، تعیین وظیفه است؛ یعنی مشخّصکردن دقیق کاری که مدل باید انجام دهد. ویژگی بعدی پرامپت، تعیین محدودیتها یا ساختار است که بر این اساس، باید قوانین، لحن، طول یا قالب خروجی را مشخّص نمود. مطلب دیگر، بحث زمینه است؛ یعنی ارائه اطّلاعات پیشنیاز یا سابقه مرتبط برای کمک به درک بهتر درخواست. مرحله بعدی، مثال است؛ یعنی ارائه یک یا چند جفت مثال (ورودی و خروجی مورد انتظار) برای آموزش الگو به مدل. ویژگی دیگر، زنجیره فکری است؛ به بیان دیگر، از مدل خواسته میشود تا مراحل استدلال خود را قبل از ارائه پاسخ نهایی توضیح دهد و در نهایت، باید به تقسیم وظیفه پرداخت؛ یعنی شکستن یک وظیفه پیچیده، به چندین زیروظیفه و هدایت مدل برای حلّ آنها بهصورت متوالی. وقتی شما یک متن خیلی طولانی را به مدل بدهید، کیفیت اُفت پیدا میکند؛ مثلاً اگر بخواهید یک کتاب بزرگ را ترجمه کنید، اگر همه آن را یکجا به مدل بدهید، کیفیت ترجمه کاهش مییابد؛ زیرا برخی قسمتها را خلاصه یا حتّی حذف میکند؛ امّا اگر این را در بخشهای کوچک به مدل بدهیم، آن را با کیفیت بهتری انجام خواهد داد.
در سطح دوم بحث، این موضوع مطرح است که گاهی مدلها پاسخهای اشتباهی یا ناقص میدهند؛ درصورتیکه اگر محتوای مرتبط را در اختیار مدل قرار دهیم، پاسخ بهتری دریافت خواهیم کرد؛ مثلاً از شخصی سؤال تخصّصی میپرسید، او با حافظه ذهنی خودش پاسخ میخواهد؛ ولی زمانی که یک مطلب مشخّص از یک کتاب را از او بپرسید، مطابق همان متن جزئی به شما جواب میدهد و دانشها و اطّلاعات دیگرِ خودش را در جواب دخالت نمیدهد؛ بدیهی است که دقّت پاسخ، بالاتر میرود و کیفیت کار، توسعه پیدا میکند.
بهروزبودن اطّلاعات سیستم، خیلی مهم است؛ روزآمدکردن دیتابیس، کمهزینه است و خیلی بهصرفهتر و راحتتر از آموزشدادن به مدل است و میزان اطمینان و شفافیت آن هم بیشتر است و در واقع، انعطاف بالایی دارد. دلیل کمتر بودن هزینه، آن است که شما با مدلهای کوچکتر هم میتوانید پاسخهای خوبی بگیرید و لازم نیست حتماً مدل خیلی بزرگی داشته باشید.
معماری مبتنی بر بازیابی، این است که در مرحله اول، اسناد را به یکسری بخشهای کوچک تقسیم میکنید و بعد به یک مدل تعبیه متن میدهید که اینها را به یک بُردار عددی تبدیل کند. سپس، آنها را در یک دیتابیس ذخیره میکند. این، فازِ اوّل کار است. وقتی کاربر سؤال خودش را مطرح میکند، یک جستوجوی معنایی در دیتاهایی که ذخیره شده، صورت میگیرد و مطالب مرتبط با سؤال کاربر استخراج میشود و با توجّه به اطّلاعاتی که بازیابی شده، پاسخ نهایی کاربر داده خواهد شد. بنابراین، اگر سیستم مطالب خوبی را بازیابی کند، نتیجه خوبی را هم ارائه خواهد کرد.
برای دریافت یک پاسخ مطلوب، باید مدل را بهبود بخشید؛ برای مثال، طبق یک مدل، کاربران به نتایج جستوجو امتیازدهی میکنند و در نتیجه، پاسخهایی که بیشتر با سؤال کاربر ارتباط دارند، در ابتدا قرار میگیرند و این امر، باعث افزایش کیفیت میشود.
بنابراین، ما هم مدلها را توسعه دادیم و هم قابلیتهایی به آنها اضافه کردیم تا کیفیت و دقّت بالاتری داشته باشند؛ از جمله میتوانم به پایگاه جامع الأحادیث اشاره کنم که در آن، قابلیت بازیابی معنایی احادیث گنجانده شده است و تقریباً سه ماه پیش از این فنّاوری رونمایی شد. همچنین، در نرمافزار جامع الأحادیث نسخه چهار نیز قابلیت مشابهتیابی معنایی احادیث وجود دارد.
در این سیستم، مدل زبانی دیگری وجود دارد که درخواست کاربر را توسعه میدهد تا به شکلی مناسبی بازیابی شود؛ چون ممکن است سؤال کاربر، به همین شکل، مناسبِ بازیابی نباشد و نیازمند یکسری حذف، اضافه یا توضیح بیشتر باشد تا سیستم بازیابی، راحتتر کار کند و حتّی گاهی لازم است در فرایند بازیابی، متن را به زبان عربی هم تبدیل کنیم تا نتیجه و خروجی کار، راحتتر به دست بیاید.
همچنین از امکان «گروهبندی احادیث» هم استفاده نمودهایم؛ چون ما در متون روایی، احادیث تکراری بسیاری داریم. بنابراین، تنوّع احادیث، در بازیابیها بهتر خواهد بود و پاسخ جامعتری در دسترس کاربر قرار میگیرد. مطلب دیگر اینکه بخشبندی احادیث از نظر موضوعی، کمک میکند که مطالب مرتبط با حدیث، راحتتر بازیابی شود؛ البته ما علاوه بر بازبینی و ارزیابی ماشینی، از ارزیابی انسانی هم بهره بردهایم تا خروجی بهتری داشته باشیم.
محصول و خدمت دیگری که بهتازگی عرضه کردهایم، «سامانه گفتوگو با تفاسیر قرآن» است. در این سامانه، اگر سؤال شما به یک مفسر خاصّی مربوط باشد و یا مبتنی بر یک کتاب تفسیری مشخّص باشد و یا به یک قرن یا مذهب خاصّی مرتبط باشد، سامانه فقط روی همان مفسر یا کتاب یا قرن یا مذهب موردنظرِ کاربر جواب میدهد؛ یعنی محدوده سؤال کاربر را تشخیص میدهد و فقط در همان مورد یا موارد، به بازیابی میپردازد و جواب مناسب ارائه میکند.
در این سامانه، ما محتوای تفاسیر را به دو زبان فارسی و عربی بازیابی میکنیم و جوابی که به کاربر داده میشود، بر اساس زبان رابط کاربر تنظیم شده است.
بحث بعدی، ابزار «رتبهبندی» است. برای اینکه نتایج جستوجو تعدیل شود و مطالب تکراریِ کمتری داشته باشیم، این قابلیت را فعّال کردهایم؛ به طوری که در سامانه گفتوگو با تفاسیر، خودِ سیستم پاسخهایی را که به هم شبیه هستند، حذف میکند و یکی را بهعنوان جواب نهایی انتخاب مینماید؛ به بیان دیگر، ما مطالب بازیابیشده متنوّعی را در اختیار مدل نهایی قرار میدهیم که این کار، در دسترسی به نتیجه بهتر تأثیرگذار است؛ ضمن اینکه در گفتوگو با تفاسیر، تاریخچه گفتوگو هم حفظ میشود و کاربر میتواند سؤال خودش را ادامه دهد و جزئیات بیشتری را مطالبه کند.
همچنین، ما ابزاری داریم که میتواند مثلاً آیه و حدیث را در داخل متن شناسایی کند. چنانچه در متن پاسخ، آیات و احادیث شناسایی شود، برای کاربر هایلایت شده و به پایگاه قرآن یا جامع الأحادیث لینک میشود.
علاوه بر این، یکسری متادیتاهایی در مورد هر پاسخی که از تفسیر بازیابی شده وجود دارد، و مدل میتواند بفهمد که مثلاً این متن، مربوط به چه آیهای از قرآن کریم است. اینها به بازیابی بهتر کمک میکند و مطالب مرتبط با سؤال کاربر، راحتتر نمایش داده میشود.
گاهی کاربر به دنبال آیه خاصّی است و میخواهد از طریق جستوجوی ساده آن را بیابد. ما در این سامانه، بین جستوجوی دستی و ساده با جستوجوی هوشمند جمع کردهایم تا کاربر استفاده مطلوبتری از برنامه ببرد.
بهمنظور ارزیابی سامانه، بیش از ۱۵۰ پرسش و پاسخ تفسیری را آماده کردیم و به کمک مدلهای زبانی بزرگ آن را ارزیابی نمودیم. سؤالات، به دو شکل ساده و مشکل، دستهبندی شده بود. نتیجه این ارزیابی، تأیید ۶۸درصدی پاسخهای سامانه بود. وقتی پاسخها را بررسی کردیم، متوجّه شدیم گاهی سیستمِ ارزیابی ماشینی دچار اشتباه شده و مطالب اضافهتری را اشاره کرده که جزء پاسخ اصلی نبوده است که ما این را بهعنوان امتیاز منفی در نظر گرفته بودیم. در نهایت، برای اینکه به دقّت و ارزیابی بهتری برسیم، به سراغ ارزیابی انسانی رفتیم تا پاسخهای دقیقتری داشته باشیم. نتیجه این ارزیابی انسانی، تأیید ۷۷درصدی پاسخها بود؛ یعنی ارزیابی انسانی، بهتر از ارزیابی ماشینی عمل میکرد.
همچنین مدلهای زبانی بزرگ جدیدتر را آزمایش کردیم که دیدیم دقّت آن افزایش پیدا کرد؛ هرچند هزینه این نوع مدلها، خیلی بالاست؛ ولی مدلهایی وجود دارد که هزینه کمتری دارد و نتیجه نسبتاً خوبی میدهد و ما میتوانیم مدل مناسب کار خودمان را پیدا کنیم.
دستاورد فنّاورانه دیگر مرکز نور در حوزه علوم اسلامی و انسانی دیجیتال، تولید گزارش ماشینی برای رویدادهای تاریخی است که در پایگاه جامع تاریخ سامان یافته است.
پیشتر ذیل هر رویداد از منابع مختلف تاریخی، نشانی آن مشخّص بود و یک متن مرتبط با آن هم در اختیار کاربر قرار میگرفت. برخی از این منابع، گاهی عربی بود و گاهی نیز فارسی. بعضی از آنها قدیمی بود و بعضی هم جدیدتر. برخی برای اهل تسنّن بود و برخی از آنها نیز برای شیعه بود. در اینها، مطالب تکراری هم زیاد است؛ یعنی کتابی که یک واقعه را بیان کرده، ممکن است همان مطلب، در منبع دیگری هم باشد. اگر خود پژوهشگر بخواهد همه اینها را مطالعه و بررسی کند، زمان زیادی را باید صرف نماید.
برای رفع این مشکل و تسهیل کار، منابع تاریخی را به یک مدل هوش مصنوعی دادیم و آن هم جمعبندی و خلاصه کرد و به منبع اصلی ارجاع داد. در واقع، بهوسیله مدلهای زبانی بزرگ، بیش از ۱۸۳ هزار درباره رویداد را بر اساس ۲۷۱ هزار گزارش تاریخی تولید کردیم.
البته در این مسیر با مشکلات و چالشهای بسیاری مواجه بودیم که به برخی از مهمّترین آنها اشاره میکنم:
- - تنوّع منابع از نظر: زبان، لحن، رویکرد و مذهب؛
- - رعایت ملاحظات دینی و مذهبی، مانند: پرهیز از بهکاربردن تعابیر دور از شأن در نام شخصیتها و یا قائلشدن وزن و اهمّیّت واقعی برای رویداد (نه اغراق و نه کمتوجّهی)؛
- - ناهمگونی گزارشها برای هر واقعه تاریخی؛ از نظر کمّی (تعداد گزارشها و حجم مطالب در هر گزارش) و هم از نظر کیفی (دستاوّل بودن یا نبودن منابع)؛
- - جلوگیری از توهّم در مدل و ارجاع به منبع هر مطلب؛
- - متناسببودن حجم خروجی (با اهمّیّت و میزان دادهِ تزریقشده)؛
- - ساختار منظم و منسجم (تیتر، بدنه، ارجاعدهی درونمتنی و نیز عددی، شیوه بهکاربردن آیات و روایات و عبارات تشریف و...).
کار دیگری که در حوزه هوش مصنوعی انجام دادیم، ترجمه چکیده مقالات در پایگاه نورمگز است. باید اضافه کنم که ترجمه متن همه مقالات، در دست انجام است؛ البته با حفظ مواردی نظیر فرمتهای داخل متن و صفحهبندی مقاله. این قابلیت، از مقالات طولانی تا ۱۰۰ صفحه نیز پشتیبانی میکند. إن شاء الله این دستاورد کاربردی، امسال انجام خواهد شد و در پایگاه نورمگز ارائه میشود.»
چشماندازها
«در بخش پایانی عرایضم، به مهمّترین برنامهها و فعّالیتهای آتی مرکز نور در راستای دستاوردهای فنّاورانه در زمینه علوم اسلامی و انسانی دیجیتال اشاره میکنم:
- در پایگاه نورلایب در صدد هستیم تا ربات «گفتوگو با کتب» را فعّال کنیم.
- در پایگاه نورمگز دو اقدام را در دستور کار داریم: یکی، ترجمه همه مقالات و ارائه به سه زبان: فارسی، عربی و انگلیسی با قابلیت جستوجوست و دوم، ارائه ربات گفتوگو با مقالات است.
- در پایگاه سمیم نیز این کارها را در دست اقدام داریم: «مشابهیابی معنایی» و «تشخیص محتوای تولیدشده توسط مدلهای زبانی بزرگ» که هنوز آن را شروع نکردهایم؛ اینکه آیا مقاله ارائهشده توسط محقّق، بهوسیله هوش مصنوعی تولید شده است یا خیر؟ یا چند درصد از متن توسط هوش مصنوعی نوشته شده است؟
- سامانه گفتوگو با احادیث راهاندازی شد؛ امّا قصد داریم آن را ارتقاء دهیم؛ مثلاً قابلیتهای جدیدی را که در سامانه گفتوگو با تفاسیر هست، به این ابزار هم اضافه کنیم؛ مانند: بهبود جستوجوی معنایی، اضافهکردن امکان ادامه گفتوگو و نیز ارتقای گفتوگو با حدیث با افزودن قابلیتهایی همچون امکان فیلتر هوشمند و اشتراکگذاری پاسخها.
- در پایگاه تاریخ، اقدامات ذیل را به سامان خواهیم رساند:
- - استخراج رویدادها از متون تاریخی؛
- - استخراج اَعلام اشخاص و اماکن و ارائه به صورت فهرست در پایگاه تاریخ؛
- - ارائه ربات گفتوگو با وقایع تاریخی.
- از دیگر برنامههای آتی ما، تنظیم دقیق مدلهای تعبیه متن و مدلهای زبانی بزرگ بر اساس محتوای علوم اسلامی است.
- تولید دستیار جامع هوشمند علوم اسلامی، در افق دستاوردهای فنّاورانه نور قرار دارد؛ یعنی یکپارچهسازی همه رباتهای گفتوگو که تاکنون تولید شده و یا تولید خواهند شد.
- از دیگر اقدامات ما در آزمایشگاه هوش مصنوعی نور، انتشار برخی کدها و دادهها در سطح عمومی است؛ مانند:
- - انتشار برخی کدها در GitHub؛
- - انتشار برخی مجموعهدادهها در Hugging Face؛
- - آمادهسازی جدول رتبهبندی مدلها در حوزه علوم اسلامی و انتشار آن در Hugging Face.»