ره آورد نور

Skip to content

ملاحظاتی در باب تأسیس یک نهاد پژوهشی میان رشته ای در حوزه «فناوری اطلاعات و علوم اسلامی» با محوریت «داده کاوی علوم اسلامی»

سه شنبه, 31 خرداد 1390 ساعت 14:55

نویسنده:

دکتر مهدی بهنیا ‌فر؛ معاونت تهران مرکز تحقیقات کامپیوتری علوم اسلامی (نور) این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(1 رای)

اشاره

مرکز تحقیقات کامپیوتری علوم اسلامی به‌زودی در چارچوب ساختار پژوهشی مورد تأیید وزارت علوم، تحقیقات و فناوری یک نهاد پژوهشی جانبی تأسیس خواهد کرد. آنچه در پی می‌آید، توضیحاتی درباره زمینه‌های فعالیت این نهاد نوپا است که در گام اول، در قالب یک گروه پژوهشی و در گام‌های بعد و توسعه یافته خود، در قالب یک پژوهشکده زیر نظر «مرکز نور» فعالیت خواهد کرد. در اینجا ابتدا با توضیحاتی درباره زمینه علمی فعالیت آن و سپس درباره ساختار سازمانی آن مواجه می‌شوید.

درآمدی به موضوع

مرکز تحقیقات کامپیوتری علوم اسلامی، خود نهادی است که مولود یک رویکرد میان‌رشته‌ای است و این رویکرد هم در نام کلی مرکز تجلّی یافته است. ادامه کار این مرکز و رسیدن آن به اهداف از پیش تعیین شده نیز به مدد همین رویکرد حاصل خواهد شد. این مرکز به همّت متخصصان و فناوران همکار خود توانسته است، بخشی از مرحله اساسی و حیاتی انتقال داده‌های علوم اسلامی به فضای دیجیتال و امکانات جستجو و بازیابی آنها را پوشش دهد و در این مسیر، به فربه‌تر کردن این امکانات می‌اندیشد. اکنون در موقعیتی قرار گرفته‌ایم که حجم عظیمی از داده‌های علوم اسلامی به محیط دیجیتال منتقل شده‌اند. اکنون زمان آن است تا علاوه بر تداوم بیش از پیش ورود و دیجیتال‌سازی داده‌های علوم اسلامی، به فرایندها و فناوری‌های کشف دانش نهفته در این داده‌ها و دیگر امکانات مرتبط با آن بپردازیم.

فرایندها و فناوری‌های پردازش هوشمند متون و از جمله دانش داده‌کاوی، به ما امکان شناسایی الگوها، مدل‌ها و ارتباط میان عناصر مختلف در پایگاه داده را می‌دهد تا دانش نهفته در داده‌ها را کشف و برای ارتقای سیستم از این دانش و اطلاعات مفید بهره گیریم. متون و نصوص اسلامی و به‌ویژه متون فقهی اسلامی نیز تمام ویژگی‌ها و مختصات لازم جهت ایجاد زمینه‌ای فعال و پویا در پژوهش‌های علوم رایانه‌ای و استفاده از فناوری سیستم‌های خبره در ایجاد ابزارهای مؤثر جهت ارائه خدمات به محققان و دانشمندان علوم اسلامی را دارا است. تأسیس نهاد پژوهشی وابسته به «مرکز نور»، گامی است در این راه.

«داده‌کاوی» یا همان «فرایند کشف دانش در پایگاه‌های داده‌های حجیم»، به عنوان یکی از مهم‌ترین زمینه‌های فعالیت این نهاد پژوهشی، زمینه‌ای نوظهور در فعالیت‌های پردازش متن است. شایان ذکر است که موضوع داده‌کاوی، داده‌های حجیمی است که لزوماً ساختار خاصی بر آنها حاکم نیست. 22 سال فعالیت مرکز (از 1368 تا کنون) و فراهم‌سازی پیکره‌های متنی بسیار بزرگی که با ویژگی صحت ورود اطلاعات و دقت و اتقان ایجاد شده است، فرصت بسیار ارزشمندی را برای پژوهش‌های عمیق متن‌کاوی ایجاد نموده است.

پی‌گیری پژوهش‌های داده‌کاوی و متن‌کاوی با هدف دستیابی به کاربرد مناسب آنها در علوم و متون اسلامی، نیازمند تأسیس یک نهاد پژوهشی است تا بتوان از یک سو، کارکردهای متناسب با متون و نصوص اسلامی را شناسایی و مطالعه نمود و از سوی دیگر، پژوهش‌هایی را در این خصوص سامان داد. در ادامه، نخست آماری بسیار اجمالی از داده‌ها و پیکره‌های متنی موجود در مرکز ارائه می‌شود و سپس با اولویت‌های کلان و خُرد این پژوهشکده آشنا می‌شویم.

آماری از پیکره‌های متنی نور

تاکنون آمار مختلفی از برنامه‌ها و نرم‌افزارهای نور و فهرست کتاب‌های مندرج در این نرم‌افزارها بر حسب تعداد عنوان و جلد در موضوعات علوم مختلف عرضه شده است. اما شیوه علمی ارائه آمار از پیکره‌های متنی - در مؤسسات معتبر پردازش زبان طبیعی حاکم است، گزارش آمار پیکره بر حسب تعداد کلمات است. جدول 1 نشان می‌دهد تعداد کلمات پیکره‌های متنی موجود در مرکز نور بالغ بر یک میلیارد و هشتصد میلیون می‌شود که در جای خود، یکی از بزرگ‌ترین پیکره‌های متنی موجود در جهان محسوب می‌شود.

آمار پیکره های متنی موجود در مرکز نور

جدول 1: آمار پیکره‌های متنی موجود در مرکز نور

کتاب‌های دیجیتالی شده مرکز دو بار توسط دو تاپییست مختلف تایپ می‌شود و موارد اختلاف توسط یک برنامه به عنوان خطا اعلام می‌شود. می‌توان نشان داد که دقت این روش 99.96 درصد است. مجموع کتاب‌های فارسی و عربی دارای بیش از یک میلیارد و چهارصد و سی میلیون کلمه است که نهصد و هفتاد میلیون آن، عربی و چهارصد و شصت میلیون آن، فارسی است. مجلات سایت noormagz شامل یکصد و چهل میلیون کلمه است. کتاب‌هایی که توسط اشخاص و مؤسسات همکار تایپ و برای برنامه‌سازی در اختیار مرکز گذاشته شده و به صورت اشتراکی حق استفاده از داده اعطا شده است، شامل دویست و چهل میلیون کلمه هستند. به دلیل عدم رخداد دو بار تایپ در مجلات و کتب اشتراکی، دقت و صحت اطلاعات به اندازه اطلاعات دیجیتالی شده خود مرکز نیست. در نتیجه، می‌توان گفت مجموع منابع فارسی موجود در مرکز شامل هشتصد و پنجاه میلیون کلمه است.

وجود این حجم از کلمات و پیکره‌های متنی صحیح، زمینه بسیار مناسبی است برای برچسب‌گذاری و استخراج انواع ویژگی‌ها و کشف الگوهای حاکم بر این متون. علاوه بر این، تعیین برچسب‌های معنایی و مشخص کردن اسامی خاص، دامنه آیه، روایت، شعر و... و نیز چکیده‌گیری‌های دستی زیاد و نمایه‌های متعدد موجود در مرکز، پشتوانه بسیاری خوبی را برای به کارگیری الگوریتم‌های یادگیری ماشین جهت پردازش هوشمند متون فراهم می‌سازند. در ادامه، اولویت‌های کلان و خُرد گروه پژوهشی متن‌کاوی نور را مورد بررسی قرار می‌هیم.

اولویت‌های کلان فعالیت این نهاد

اولویت‌های علمی و کلان مورد اهتمام این نهاد پژوهشی به این شرح خواهند بود:

- انجام پژوهش‌های بنیادی و کاربردی در زمینه‌های مرتبط با حوزه میان‌رشته‌ای «متن کاویِ پردازشیِ نصوص و سایر منابع اسلامی»؛
- برنامه‌ریزی و ساماندهی انواع تحلیل‌های متنی بر روی انواع پیکره‌های متنی اسلامی؛
- بومیسازی ابزارهای متن‌کاوی موجود به موازات توسعه ابزارهای خاص متنکاوی متون اسلامی؛
- تربیت پژوهشگران در زمینه متن‌کاوی پردازشی نصوص و متون اسلامی به منظور تأمین نیاز داخلی به افراد کارآمد در این حوزه؛
- پژوهش، مطالعه و طراحی استانداردها و ابزارهای لازم به منظور تهیه ماشینی انواع چکیده‌ها، هستان‌شناسی‌ها، نمایه‌ها، معجم‌های لفظی و موضوعی و اصطلاح‌نامه‌های عمومی و تخصصی نصوص، متون و علوم اسلامی؛
- پژوهش کاربردی به منظور بهینه‌سازی فرایند ذخیره و بازیابی اطلاعات و داده‌ها در منابع دینی با محوریت روش‌های متن‌کاوی پردازشی؛
- برچسبگذاری ماشینی متون قرآنی، روایی، فقهی، رجالی و حکمی اسلامی در لایههای صرفی، نحوی و معنایی؛
- مطالعه و تدوین استانداردهای لازم به منظور یکسان‌سازی مدخلهای نظام ذخیره و بازیابی اطلاعات در علوم اسلامی؛
- پژوهش در حوزه استخراج روابط، یافتن و تحلیل الگوها به صورت خودکار و سبک‌شناسی رایانه‌ای نصوص و منابع دینی با اهداف مختلف، از جمله: سره‌شناسی متون روایی اسلامی و دسته‌بندی و طبقه‌بندی خودکار اطلاعات منابع دینی.

برخی اولویت‌های خُرد این نهاد پژوهشی
(کارکردهای داده‌کاوی در علوم اسلامی)

مهم‌ترین کارکردهای داده‌کاوی در علوم و نصوص اسلامی، با توجه به زمینه‌های کاری مرکز ذکر خواهند شد که شکل‌گیری و به ثمر نشستن هر یک از آنها نیازمند پژوهش‌های نظری طولانی‌مدت و پیچیده و مطالعه پیشرفت‌های دیگران در این عرصه‌ها است. اینها اولویت‌های خُرد در نظر گرفته شده برای فعالیت این نهاد پژوهشی است که در راستای اولویت‌های کلان پیش‌گفته تحقق خواهند یافت. از میان کارکردهای زیربنایی و پایه‌ای متن‌کاوی می‌توان به مواردی مانند: برچسب‌گذاری صرفی کلمات متن، یافتن مسند و مسندالیه و تشخیص ماشینی نقش کلمات و برچسب گذاری نحوی متون اشاره کرد.

* ریشه‌یابی: استخراج ریشه و بن کلمات، در شناسایی حالات و ویژگی‌های هر کلمه اهمیت فراوانی دارد. امکان جستجو و پژوهش از طریق اشتراک ریشه نیز روش بسیار سودمند و پرکاربردی است. شناخت ریشه در زبان عربی، از طریق بانک ادات حرفی که شامل پیشوندها و پسوندها است و همین‌طور استخراج قواعد مربوط به چگونگی اتصال هر پیشوند و پسوند و حالات مختلف آن، امکان‌پذیر است. این امر نیز با یک فعالیت دادگانی قابل دستیابی است. به این ترتیب، خواهیم توانست کلماتی را که اشتراک ریشه‌ای دارند، شناسایی کنیم تا دسته‌بندی و خوشه‌بندی آنها در راستای درختواره‌سازی و یافتن متون مشابه و... به ما کمک کند.
در حال حاضر، در معاونت پژوهشی مرکز تحقیقات کامپیوتری علوم اسلامی، سال‌ها است که گروهی با عنوان «گروه ریشه‌زنی» فعالیت می‌کنند که کار اصلی آنها ریشه‌زنی دستی کلمات کتب اسلامی است و یکی از مهم‌ترین خروجی‌های این مجموعه، ریشه‌زنی کتاب بحار الأنوار است که توسط چندین نفر سال‌ها به طول انجامید. چنانچه همین کار به وسیله برنامه‌ای در پژوهشکده مرکز طراحی شود، قادر به شناسایی سریع کلمات بوده و کنترل صحت آن توسط محققان مرکز بسیار سریع‌تر از حالت قبل خواهد بود.

* یافتن متون مشابه: با طراحی یک سیستم خبره و در نظر گرفتن قواعد همنشینی کلمات، می‌توان متون مشابه را به صورت ماشینی شناسایی کرد. در صورتی که بخش قواعد معنوی و بانک‌های مترادفات و مشترکات هم ضمیمه چنین برنامه‌ای شود، بر صحّت پاسخ‌های برنامه افزوده خواهد شد. یکی از پژوهش‌های قابل شکل‌گیری در پژوهشکده مرکز، در راستای مطالعه و طراحی برنامه‌ای است که می‌تواند دامنه پاسخ‌های مناسب پژوهش‌های کاربر را وسعت دهد؛ مثلاً در متون روایی اگر کاربری با روایتی مواجه شود و بخواهد تمام روایاتی را که نوعی تشابه لفظی یا معنوی با این روایت دارند، مشاهده کند، با استفاده از این برنامه به‌راحتی خواهد توانست با تعیین دامنه جستجوی خود در کتب روایی، تمام احادیث مشابه با روایت مورد نظر را بیابد و بررسی کند.

افزون بر این، موارد دیگری هم هست که باید امکان ماشینی شدن آنها در نهاد پژوهشی مرکز مطالعه شود؛ مواردی از قبیل: طبقه‌بندی ماشینی متون، ابهام‌زدایی و تمیز مشترکات، موضوع‌برداری ماشینی، تشخیص خودکار أعلام، تشخیص گرامر موجود در روایات و شناسایی روایات صحیح از جعلی، و خوشه‌بندی مستندات یک علم و تدوین درختواره.

ساختار گروه‌های این نهاد پژوهشی

اکنون بد نیست که اندکی هم به ساختار در نظر گرفته شده برای این نهاد پژوهشی بپردازیم. مسلّماً تمام فعالیت‌های گسترده طرح شده در بالا باید در چارچوب تعدادی گروه پژوهشی به عنوان کوچک‌ترین واحد هر نهاد پژوهشی سامان یابند. البته ساختار گروه‌های پژوهشی پیشنهادی مرکز برای تأسیس این پژوهشکده، به شکل حداقلّی دیده شده است؛ بدین معنا که با کوچک‌ترین ساختار پژوهشی بتوان بیشترین بهره‌برداری را انجام داد. به این ترتیب، حجم فعالیت‌های در نظر گرفته شده ذیل هر گروه پژوهشی، دارای فربهی قابل توجهی خواهد بود و دامنه شمول هر یک از این گروه‌ها وسیع است.
گروه‌های پژوهشی پیش‌بینی شده پیشنهادی برای این پژوهشکده عبارت‌اند از:

گروه پژوهشی «متن کاوی نصوص اسلامی»
گروه پژوهشی «پیکره و دادگان علوم اسلامی»
گروه پژوهشی «اطلاع‌رسانی علوم اسلامی»
گروه پژوهشی «خط و زبان عربی و فارسی» (پردازشی)

نسبت ساختار این نهاد با ساختار سازمانی مرکز

جغرافیای تخصصی پژوهشگران پژوهشکده

با عنایت به اینکه فعالیت‌های این پژوهشکده دارای جنبه میان‌رشته‌ای و گاه چندرشته‌ای است، رشته‌های حوزوی و دانشگاهی شاغل در فعالیت‌های میان‌رشته‌ای این پژوهشکده گستره زیر را دربرمی‌گیرد و بدیهی است به ثمر نشستن فعالیت‌های این پژوهشکده، به سعی مشترک اصحاب این رشته‌ها وابسته است:

- فقه و اصول
- زبان و ادبیات عرب
- علوم قرآن و حدیث
- علوم عقلی
- مجموعه علوم کامپیوتر (نرم‌افزار، فناوری اطلاعات، داده‌کاوی، پردازش زبان و...)
- کتابداری و اطلاع‌رسانی

از این رو، محققانی که برای فعالیت در گروه‌های پژوهشی این پژوهشکده جذب می‌شوند، لازم است حداقل در یک یا دو حوزه از زمینه‌های پژوهشی دیگر اطلاعات و آگاهی کلّی داشته باشند تا بتوانند از عهده فعالیت میان‌رشته‌ای گروه پژوهشی متبوع خود برآیند.

سخن آخر

مرکز تحقیقات کامپیوتری علوم اسلامی، در مسیر تأسیس و ارتقای این نهاد پژوهشی، راه درازی پیش رو خواهد داشت؛ به‌ویژه آنکه رویکرد میان‌رشته‌ای حاکم بر این بخش و فعالیت‌های آن، اندکی بر این دشواری و البته اهمیت آن، می‌افزاید. این مسیری است که سال‌های پیش در فعالیت‌های تحقیق و توسعه‌ای مرکز آغاز شده است و اکنون می‌رود تا شکلی سازمان یافته‌تر به خود بگیرد. احتمالاً آنچه پیش‌تر درباره اهمیت تأسیس این نهاد پژوهشی گفته شد، می‌تواند درآمدی باشد بر موجی نو در فعالیت‌های پژوهشی مرکز؛ موجی میان‌رشته‌ای که شکل چند ساحتی و آمیخته آن با علوم اسلامی، بدون سابقه می‌نماید؛ موجی جدید در سال‌های آغازین دهه سوم فعالیت‌های مرکز تحقیقات کامپیوتری علوم اسلامی (نور).