درآمدی به موضوع
مرکز تحقیقات کامپیوتری علوم اسلامی، خود نهادی است که مولود یک رویکرد میانرشتهای است و این رویکرد هم در نام کلی مرکز تجلّی یافته است. ادامه کار این مرکز و رسیدن آن به اهداف از پیش تعیین شده نیز به مدد همین رویکرد حاصل خواهد شد. این مرکز به همّت متخصصان و فناوران همکار خود توانسته است، بخشی از مرحله اساسی و حیاتی انتقال دادههای علوم اسلامی به فضای دیجیتال و امکانات جستجو و بازیابی آنها را پوشش دهد و در این مسیر، به فربهتر کردن این امکانات میاندیشد. اکنون در موقعیتی قرار گرفتهایم که حجم عظیمی از دادههای علوم اسلامی به محیط دیجیتال منتقل شدهاند. اکنون زمان آن است تا علاوه بر تداوم بیش از پیش ورود و دیجیتالسازی دادههای علوم اسلامی، به فرایندها و فناوریهای کشف دانش نهفته در این دادهها و دیگر امکانات مرتبط با آن بپردازیم.
فرایندها و فناوریهای پردازش هوشمند متون و از جمله دانش دادهکاوی، به ما امکان شناسایی الگوها، مدلها و ارتباط میان عناصر مختلف در پایگاه داده را میدهد تا دانش نهفته در دادهها را کشف و برای ارتقای سیستم از این دانش و اطلاعات مفید بهره گیریم. متون و نصوص اسلامی و بهویژه متون فقهی اسلامی نیز تمام ویژگیها و مختصات لازم جهت ایجاد زمینهای فعال و پویا در پژوهشهای علوم رایانهای و استفاده از فناوری سیستمهای خبره در ایجاد ابزارهای مؤثر جهت ارائه خدمات به محققان و دانشمندان علوم اسلامی را دارا است. تأسیس نهاد پژوهشی وابسته به «مرکز نور»، گامی است در این راه.
«دادهکاوی» یا همان «فرایند کشف دانش در پایگاههای دادههای حجیم»، به عنوان یکی از مهمترین زمینههای فعالیت این نهاد پژوهشی، زمینهای نوظهور در فعالیتهای پردازش متن است. شایان ذکر است که موضوع دادهکاوی، دادههای حجیمی است که لزوماً ساختار خاصی بر آنها حاکم نیست. 22 سال فعالیت مرکز (از 1368 تا کنون) و فراهمسازی پیکرههای متنی بسیار بزرگی که با ویژگی صحت ورود اطلاعات و دقت و اتقان ایجاد شده است، فرصت بسیار ارزشمندی را برای پژوهشهای عمیق متنکاوی ایجاد نموده است.
پیگیری پژوهشهای دادهکاوی و متنکاوی با هدف دستیابی به کاربرد مناسب آنها در علوم و متون اسلامی، نیازمند تأسیس یک نهاد پژوهشی است تا بتوان از یک سو، کارکردهای متناسب با متون و نصوص اسلامی را شناسایی و مطالعه نمود و از سوی دیگر، پژوهشهایی را در این خصوص سامان داد. در ادامه، نخست آماری بسیار اجمالی از دادهها و پیکرههای متنی موجود در مرکز ارائه میشود و سپس با اولویتهای کلان و خُرد این پژوهشکده آشنا میشویم.
آماری از پیکرههای متنی نور
تاکنون آمار مختلفی از برنامهها و نرمافزارهای نور و فهرست کتابهای مندرج در این نرمافزارها بر حسب تعداد عنوان و جلد در موضوعات علوم مختلف عرضه شده است. اما شیوه علمی ارائه آمار از پیکرههای متنی - در مؤسسات معتبر پردازش زبان طبیعی حاکم است، گزارش آمار پیکره بر حسب تعداد کلمات است. جدول 1 نشان میدهد تعداد کلمات پیکرههای متنی موجود در مرکز نور بالغ بر یک میلیارد و هشتصد میلیون میشود که در جای خود، یکی از بزرگترین پیکرههای متنی موجود در جهان محسوب میشود.
جدول 1: آمار پیکرههای متنی موجود در مرکز نور
کتابهای دیجیتالی شده مرکز دو بار توسط دو تاپییست مختلف تایپ میشود و موارد اختلاف توسط یک برنامه به عنوان خطا اعلام میشود. میتوان نشان داد که دقت این روش 99.96 درصد است. مجموع کتابهای فارسی و عربی دارای بیش از یک میلیارد و چهارصد و سی میلیون کلمه است که نهصد و هفتاد میلیون آن، عربی و چهارصد و شصت میلیون آن، فارسی است. مجلات سایت noormagz شامل یکصد و چهل میلیون کلمه است. کتابهایی که توسط اشخاص و مؤسسات همکار تایپ و برای برنامهسازی در اختیار مرکز گذاشته شده و به صورت اشتراکی حق استفاده از داده اعطا شده است، شامل دویست و چهل میلیون کلمه هستند. به دلیل عدم رخداد دو بار تایپ در مجلات و کتب اشتراکی، دقت و صحت اطلاعات به اندازه اطلاعات دیجیتالی شده خود مرکز نیست. در نتیجه، میتوان گفت مجموع منابع فارسی موجود در مرکز شامل هشتصد و پنجاه میلیون کلمه است.
وجود این حجم از کلمات و پیکرههای متنی صحیح، زمینه بسیار مناسبی است برای برچسبگذاری و استخراج انواع ویژگیها و کشف الگوهای حاکم بر این متون. علاوه بر این، تعیین برچسبهای معنایی و مشخص کردن اسامی خاص، دامنه آیه، روایت، شعر و... و نیز چکیدهگیریهای دستی زیاد و نمایههای متعدد موجود در مرکز، پشتوانه بسیاری خوبی را برای به کارگیری الگوریتمهای یادگیری ماشین جهت پردازش هوشمند متون فراهم میسازند. در ادامه، اولویتهای کلان و خُرد گروه پژوهشی متنکاوی نور را مورد بررسی قرار میهیم.
اولویتهای کلان فعالیت این نهاد
اولویتهای علمی و کلان مورد اهتمام این نهاد پژوهشی به این شرح خواهند بود:
- - انجام پژوهشهای بنیادی و کاربردی در زمینههای مرتبط با حوزه میانرشتهای «متن کاویِ پردازشیِ نصوص و سایر منابع اسلامی»؛
- برنامهریزی و ساماندهی انواع تحلیلهای متنی بر روی انواع پیکرههای متنی اسلامی؛
- بومیسازی ابزارهای متنکاوی موجود به موازات توسعه ابزارهای خاص متنکاوی متون اسلامی؛
- تربیت پژوهشگران در زمینه متنکاوی پردازشی نصوص و متون اسلامی به منظور تأمین نیاز داخلی به افراد کارآمد در این حوزه؛
- پژوهش، مطالعه و طراحی استانداردها و ابزارهای لازم به منظور تهیه ماشینی انواع چکیدهها، هستانشناسیها، نمایهها، معجمهای لفظی و موضوعی و اصطلاحنامههای عمومی و تخصصی نصوص، متون و علوم اسلامی؛
- پژوهش کاربردی به منظور بهینهسازی فرایند ذخیره و بازیابی اطلاعات و دادهها در منابع دینی با محوریت روشهای متنکاوی پردازشی؛
- برچسبگذاری ماشینی متون قرآنی، روایی، فقهی، رجالی و حکمی اسلامی در لایههای صرفی، نحوی و معنایی؛
- مطالعه و تدوین استانداردهای لازم به منظور یکسانسازی مدخلهای نظام ذخیره و بازیابی اطلاعات در علوم اسلامی؛
- پژوهش در حوزه استخراج روابط، یافتن و تحلیل الگوها به صورت خودکار و سبکشناسی رایانهای نصوص و منابع دینی با اهداف مختلف، از جمله: سرهشناسی متون روایی اسلامی و دستهبندی و طبقهبندی خودکار اطلاعات منابع دینی.
برخی اولویتهای خُرد این نهاد پژوهشی
(کارکردهای دادهکاوی در علوم اسلامی)
مهمترین کارکردهای دادهکاوی در علوم و نصوص اسلامی، با توجه به زمینههای کاری مرکز ذکر خواهند شد که شکلگیری و به ثمر نشستن هر یک از آنها نیازمند پژوهشهای نظری طولانیمدت و پیچیده و مطالعه پیشرفتهای دیگران در این عرصهها است. اینها اولویتهای خُرد در نظر گرفته شده برای فعالیت این نهاد پژوهشی است که در راستای اولویتهای کلان پیشگفته تحقق خواهند یافت. از میان کارکردهای زیربنایی و پایهای متنکاوی میتوان به مواردی مانند: برچسبگذاری صرفی کلمات متن، یافتن مسند و مسندالیه و تشخیص ماشینی نقش کلمات و برچسب گذاری نحوی متون اشاره کرد.
* ریشهیابی: استخراج ریشه و بن کلمات، در شناسایی حالات و ویژگیهای هر کلمه اهمیت فراوانی دارد. امکان جستجو و پژوهش از طریق اشتراک ریشه نیز روش بسیار سودمند و پرکاربردی است. شناخت ریشه در زبان عربی، از طریق بانک ادات حرفی که شامل پیشوندها و پسوندها است و همینطور استخراج قواعد مربوط به چگونگی اتصال هر پیشوند و پسوند و حالات مختلف آن، امکانپذیر است. این امر نیز با یک فعالیت دادگانی قابل دستیابی است. به این ترتیب، خواهیم توانست کلماتی را که اشتراک ریشهای دارند، شناسایی کنیم تا دستهبندی و خوشهبندی آنها در راستای درختوارهسازی و یافتن متون مشابه و... به ما کمک کند.
در حال حاضر، در معاونت پژوهشی مرکز تحقیقات کامپیوتری علوم اسلامی، سالها است که گروهی با عنوان «گروه ریشهزنی» فعالیت میکنند که کار اصلی آنها ریشهزنی دستی کلمات کتب اسلامی است و یکی از مهمترین خروجیهای این مجموعه، ریشهزنی کتاب بحار الأنوار است که توسط چندین نفر سالها به طول انجامید. چنانچه همین کار به وسیله برنامهای در پژوهشکده مرکز طراحی شود، قادر به شناسایی سریع کلمات بوده و کنترل صحت آن توسط محققان مرکز بسیار سریعتر از حالت قبل خواهد بود.
* یافتن متون مشابه: با طراحی یک سیستم خبره و در نظر گرفتن قواعد همنشینی کلمات، میتوان متون مشابه را به صورت ماشینی شناسایی کرد. در صورتی که بخش قواعد معنوی و بانکهای مترادفات و مشترکات هم ضمیمه چنین برنامهای شود، بر صحّت پاسخهای برنامه افزوده خواهد شد. یکی از پژوهشهای قابل شکلگیری در پژوهشکده مرکز، در راستای مطالعه و طراحی برنامهای است که میتواند دامنه پاسخهای مناسب پژوهشهای کاربر را وسعت دهد؛ مثلاً در متون روایی اگر کاربری با روایتی مواجه شود و بخواهد تمام روایاتی را که نوعی تشابه لفظی یا معنوی با این روایت دارند، مشاهده کند، با استفاده از این برنامه بهراحتی خواهد توانست با تعیین دامنه جستجوی خود در کتب روایی، تمام احادیث مشابه با روایت مورد نظر را بیابد و بررسی کند.
افزون بر این، موارد دیگری هم هست که باید امکان ماشینی شدن آنها در نهاد پژوهشی مرکز مطالعه شود؛ مواردی از قبیل: طبقهبندی ماشینی متون، ابهامزدایی و تمیز مشترکات، موضوعبرداری ماشینی، تشخیص خودکار أعلام، تشخیص گرامر موجود در روایات و شناسایی روایات صحیح از جعلی، و خوشهبندی مستندات یک علم و تدوین درختواره.
ساختار گروههای این نهاد پژوهشی
اکنون بد نیست که اندکی هم به ساختار در نظر گرفته شده برای این نهاد پژوهشی بپردازیم. مسلّماً تمام فعالیتهای گسترده طرح شده در بالا باید در چارچوب تعدادی گروه پژوهشی به عنوان کوچکترین واحد هر نهاد پژوهشی سامان یابند. البته ساختار گروههای پژوهشی پیشنهادی مرکز برای تأسیس این پژوهشکده، به شکل حداقلّی دیده شده است؛ بدین معنا که با کوچکترین ساختار پژوهشی بتوان بیشترین بهرهبرداری را انجام داد. به این ترتیب، حجم فعالیتهای در نظر گرفته شده ذیل هر گروه پژوهشی، دارای فربهی قابل توجهی خواهد بود و دامنه شمول هر یک از این گروهها وسیع است.
گروههای پژوهشی پیشبینی شده پیشنهادی برای این پژوهشکده عبارتاند از:
- گروه پژوهشی «متن کاوی نصوص اسلامی»
- گروه پژوهشی «پیکره و دادگان علوم اسلامی»
- گروه پژوهشی «اطلاعرسانی علوم اسلامی»
- گروه پژوهشی «خط و زبان عربی و فارسی» (پردازشی)
نسبت ساختار این نهاد با ساختار سازمانی مرکز
جغرافیای تخصصی پژوهشگران پژوهشکده
با عنایت به اینکه فعالیتهای این پژوهشکده دارای جنبه میانرشتهای و گاه چندرشتهای است، رشتههای حوزوی و دانشگاهی شاغل در فعالیتهای میانرشتهای این پژوهشکده گستره زیر را دربرمیگیرد و بدیهی است به ثمر نشستن فعالیتهای این پژوهشکده، به سعی مشترک اصحاب این رشتهها وابسته است:
- - فقه و اصول
- - زبان و ادبیات عرب
- - علوم قرآن و حدیث
- - علوم عقلی
- - مجموعه علوم کامپیوتر (نرمافزار، فناوری اطلاعات، دادهکاوی، پردازش زبان و...)
- - کتابداری و اطلاعرسانی
از این رو، محققانی که برای فعالیت در گروههای پژوهشی این پژوهشکده جذب میشوند، لازم است حداقل در یک یا دو حوزه از زمینههای پژوهشی دیگر اطلاعات و آگاهی کلّی داشته باشند تا بتوانند از عهده فعالیت میانرشتهای گروه پژوهشی متبوع خود برآیند.
سخن آخر
مرکز تحقیقات کامپیوتری علوم اسلامی، در مسیر تأسیس و ارتقای این نهاد پژوهشی، راه درازی پیش رو خواهد داشت؛ بهویژه آنکه رویکرد میانرشتهای حاکم بر این بخش و فعالیتهای آن، اندکی بر این دشواری و البته اهمیت آن، میافزاید. این مسیری است که سالهای پیش در فعالیتهای تحقیق و توسعهای مرکز آغاز شده است و اکنون میرود تا شکلی سازمان یافتهتر به خود بگیرد. احتمالاً آنچه پیشتر درباره اهمیت تأسیس این نهاد پژوهشی گفته شد، میتواند درآمدی باشد بر موجی نو در فعالیتهای پژوهشی مرکز؛ موجی میانرشتهای که شکل چند ساحتی و آمیخته آن با علوم اسلامی، بدون سابقه مینماید؛ موجی جدید در سالهای آغازین دهه سوم فعالیتهای مرکز تحقیقات کامپیوتری علوم اسلامی (نور).