جایگاه نام نویسندگان در بازیابی اطلاعات پایگاه ها

پنج شنبه, 27 اسفند 1394 ساعت 15:03
    نویسنده: مصطفی علیمردای* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

نویسنده اثر، از دیدگاه های گوناگون بر اثر تأثیر دارد و گاه دقیق نبودن یا مبهم بودن نویسنده یک اثر، سبب مهجور شدن آن در میان متخصصان علم می شود. از همین روی، در ادوار گوناگون، فهرست کردن آثار نویسندگان و ثبت و ضبط آنها، مورد اهتمام بزرگان علم بوده است. در این نوشته، با توجه به اهمیت نویسنده اثر در شناخت درست محتوای آن، به بررسی برخی فعالیت های صورت گرفته در پایگاه های مرکز نور برای نظام بخشی به نویسندگان اثر در بازیابی محتوا و نیز ناهمسانی ها و کاستی های موجود در ثبت نام نویسندگان در این پایگاه ها می پردازیم و راه هایی برای حل این معضل پیشنهاد می دهیم.

کلیدواژگان: نویسنده، فهم اثر، نام مستعار، تشخیص موجودیت اعلام، محصولات مرکز نور، بازیابی اطلاعات.

اهمیت نام نویسنده اثر در جامعه علمی

از عناصر بسیار مهم در شناخت یک منبع، نام نویسنده آن است. شناخت نام نویسنده اثر، در تأویل و تفسیر آن اثر نیز بسیار مهم شمرده می شود. یک خطا در اسناد اثر به نویسنده ای خاص، شاید تفسیر آثار دیگر او را نیز تحت الشعاع قرار دهد و سبب چشم پوشی از اصل محتوا و مقصود نویسنده در آثار دیگرش شود؛ برای نمونه، بسیاری از حکمای اسلامی به اشتباه کتاب «اثولوجیا» را که اثر «فلوطین» است، به «ارسطو» نسبت می دادند؛ این در حالی است که فلوطین از پیروان افلاطون شمرده می شد و گرایش های شهودی که رنگ وبوی عرفانی داشت، در آثارش غالب بود؛ اما ارسطو بیشتر متکی به عقل گرایی اعتدالی بود؛ ولی از آنجا که دیدگاه فلوطین در اثولوجیا، بیشتر به مذاق حکمای مسلمان خوش می آمد، گاه ارسطو را حکیمی دارای مذاق الهی می خواندند.

  • «و همچنین ارسطاطالیس معلم اول و سرسلسله حکمای مشائین نیز این صور قدسیه الهی را مشاهده کرده است؛ چنان که کتاب او که به نام اثولوجیا معروف است، بر این مشاهده دلالت دارد [و مشاهدات خویش را در آن کتاب بیان می کند].» (سجادی، 1379، 491)

و برخی دیگر گفته اند:

  • «و در طی این، سرّ دقیقه به غایت دقیق و لطیف دانستنی است که معلّم مشّائیه یونانیین، ارسطاطالیس، در کتاب اثولوجیا بر آن تنبیه کرده و ما در کتب و صحف حکمیه خود، طسقی صالح، و قسطی وافر از حقّ کلام در شرح و بسط آن آورده ایم.» (داماد، 1380، 15)

شاید اگر حکمای مسلمان می دانستند، اثولوجیا از آنِ فلوطین است، می کوشیدند آثار دیگر او را نیز بیابند و مسیر تفکر، به گونه ای دیگر رقم می خورد.

همچنین، در تاریخ عرفان و ادب فارسی، نبود دقت در ثبت و خوانش کامل نام ها، سبب شده است بسیاری از منابع میان کسانی که نام مشترک یا نزدیک به هم دارند، خلط شود؛ از آن نمونه، می توان به خلط آثار «ابوحامد غزالی» که متکلم است با «ابوحامد غزالی» که فقیه و صوفی شمرده می شود، اشاره کرد که در منابع و نوشته های بسیار، میان آنها خلط شده است. چنانکه اگر بخواهیم نام کامل آنها را بنویسیم، باید بگوییم: «ابوحامد محمد غزالی»، متکلم است و آن که فقیه و صوفی است، «ابوحامد احمد غزالی» است.

بر این اساس، شاید بتوان گفت اهتمام به ثبت دقیق و کامل نام پدیدآورندگان آثار، نقشی بسیار پررنگ و اثرگذار در تاریخ اندیشه و فرهنگ ایفا می کند.

افزون بر نمونه های یادشده، امروزه وجهی دیگر برای ثبت دقیق و کامل نام مؤلفان نیز مطرح می شود و آن، حقوق معنوی اثر است. اثری که تولید می شود، ممکن است آثار گوناگون مثبت و منفی بر جامعه بگذارد و نویسنده باید پاسخگوی این پیامدها باشد. همچنین، در صورت سوء استفاده از اثرش، بتواند به شکل قانونی پی گیر باشد. بنابراین، ثبت نام واقعی و کامل مؤلف، از این جهت نیز بایسته می نماید.

پس از بیان مقدمات، ضرورت طرح مسئله و جایگاه نام نویسندگان در بازیابی اطلاعات عرضه می گردد و پس از آن، فعالیت های مرکز در نظام مند کردن نام نویسندگان در پایگاه های کتابخانه ای و نواقصی که در آن ممکن است وجود داشته باشد، بررسی می شود و راه حل هایی برای هر یک از این مسائل بیان خواهد شد. در پایان نیز پیشنهادهایی برای سامان بخشی به نام نویسندگان آثار عرضه خواهد گردید.

ضرورت حل مسئله نام نویسندگان

1. نام نویسنده مقاله، از راه های رسیدن به محتواست: نام پدیدآورندگان، از راه های دستیابی به محتوای پایگاه است؛ به این معنا که کاربران گاه تنها اطلاعاتی که از یک مقاله دارند، نام نویسنده آن است و جز آن، هیچ کلیدواژه ای که آنها را به مقاله مزبور رهنمون سازد، در دست ندارند. اگر نام نویسنده به درستی و کامل ثبت نشده باشد، این کاربر به مقاله نخواهد رسید.

2. ثبت صحیح و کامل نام نویسنده مقاله، زمینه ساز ایجاد نظام تشخیص موجودیت نام (Named Entity Recognition (NER)) برای تسریع و ایجاد زمینه هایی برای رسیدن به هستی شناسی علوم اسلامی است.

امروزه، از حوزه های بسیار مهم در استخراج اطلاعات (information extraction)، تشخیص موجودیت اعلام است که با استفاده از فنون پردازش زبان طبیعی (natural language possessing) انجام می شود. تشخیص موجودیت اعلام در پی یافتن و طبقه بندی عناصر اعلام در یک متن، بر پایه طبقه بندی های از پیش تعیین شده مانند: نام اشخاص، سازمان ها، مکان ها و زمان است. (Nadeau and Sekine. 2007, 18)

در نظام های بازیابی اطلاعات، نام ها افزون بر آنکه خود واحد اطلاعاتی بسیار مهم در یک متن به شمار می روند، روشن کننده اطلاعات بسیار دیگر نیز هستند که برای کاربران خیلی مهم است؛ زیرا نام ها به همراه خود، عناصر اطلاعاتی بسیار دیگر به جویندگان عرضه می کنند. یک نام اگر به درستی تبیین شود، از زمان، مکان، آثار و اشخاص دیگر نیز آگاهی های بسیار مفید به جوینده اطلاعات عرضه می کند. هنگامی که نام به گونه کامل و دقیق ثبت شود، دست کم نخستین چیزی که همراه آن روشن می شود، آثارش است؛ اما در نمونه های بسیار، مواردی همچون: تاریخ تولد، مکان زندگی، کار، تحصیل، افراد همکار، شاگردان و اساتید، را نیز روشن می کند. بنابراین، نام نویسنده از آنجا که به انسان مرتبط است و در دنیا منشأ اثر واقع می شود و فعالیت هایش بر دیگران تأثیر می گذارد و از ایشان تأثیر می پذیرد، خود سبب ایجاد وقایعی می شود که آگاهی از آن برای جوینده اطلاعات بسیار مفید است. از سوی دیگر، چون هر شخص، یکه و یگانه است و هر شخصی دنیای خود را دارد و هیچ گاه نمی توان آن را در یک امر منجذب ساخت و از شناخت هر شخص یگانه بی نیاز شد، تمیز دادن نام ها و یافتن صاحب نام واقعی سبب دقت اطلاعات خواهد شد. همچنین، به سبب همین یگانگی اشخاص، شکل های متکثر و متعدد ضبط نام ها نیز باید به همین اشخاص تقلیل یابد تا ارزش اطلاعاتی را در بازیابی محتوا داشته باشد.

شکل 1: شبکه اطلاعاتی که ممکن است حول یک شخص گرد آید.

در این نمودار، ارتباط هایی که شخص به منزله «نویسنده» دارد، تولید یک اثر است و اثر، یا تألیف است که شاید ترجمه، تعلیق، تلخیص و یا شرح داشته باشد و به این واسطه با آنها نیز مرتبط می شود، یا اثر نویسنده، ترجمه، شرح یا تعلیقه برای یک اثر دیگر است که با آن اثر مرتبط خواهد شد.

همچنین، نویسنده به منزله یک انسان، والدین و فرزندان، مکان زندگی و تحصیل، و دوره زمانی زندگی نیز دارد و آگاهی هایی از آنها نیز می دهد. ازاین رو، نام های اشخاص، از مهم ترین واحدهای اطلاعاتی به شمار می روند.

بررسی نام پدیدآورندگان در پایگاه های مرکز نور

مرکز تحقیقات کامپیوتری علوم اسلامی(نور)، بیش از ده پایگاه فعال دارد که در هر یک هدفی خاص پی گیری می شود و در میان این پایگاه ها، دست کم پنج پایگاه کتابخانه ای است و به عرضه محتواهای پژوهشی می پردازد؛ یعنی پایگاه های: کتابخانه دیجیتال نور، مجلات تخصصی نور، حوزه، فصلنامه ره آورد نور و پایگاه نورحدیث. در این مقاله، تنها به بررسی امکانات و قابلیت های به کاررفته در نظم بخشی به نام پدیدآورندگان و برشمردن مشکلات آن در سه پایگاه اصلی: حوزه، کتابخانه دیجیتال نور و مجلات تخصصی پرداخته خواهد شد.

الف ـ نام پدیدآورندگان در پایگاه حوزه

در پایگاه حوزه (www.hawzah.net) چندگونه محتوا عرضه می شود که شاید بتوان به گونه کلی، آنها را در چهار دسته جای داد:

کتاب، بخش هایی از کتاب، مقالات (شامل: مقالات مجلات، مقالات منتشرشده در پایگاه های دیگر که در پایگاه حوزه بازنشر شده، مقالات تولیدی محققان برای پایگاه) و چکیده پایان نامه ها.

از میان این محتواها، تنها نام نویسندگان کتاب ها و پایان نامه ها در پایگاه ذکر شده است.

برای مقالات، به گونه معمول نام پدیدآور نیامده است؛ در صورتی که نام نویسنده مقالات، اعم از شخص حقیقی و یا نام پایگاه، باید در پایگاه آورده شود تا هم استناد به آن آسان باشد و هم حق مالکیت معنوی نویسندگان حفظ شود.

ب ـ نام پدیدآورندگان در پایگاه کتابخانه دیجیتال نور (نورلایب)

در پایگاه کتابخانه دیجیتال نور (www.noorlib.ir)، زبانه ای مجزا برای پدیدآوردنگان تعبیه شده است که با انتخاب آن، کاربران می توانند از دو طریق مرور الفبایی و جست وجو، به نویسندگان دلخواه دسترسی داشته باشند. همچنین در این پایگاه، نقش کسان در پدیدآمدن اثر نیز مشخص شده است؛ برای نمونه، پس از مرور یا جست وجوی نام پدیدآوران و در صفحه نتیجه، هنگامی که روی نام پدیدآورنده کلیک شود، عنوان کتاب های مرتبط با او نمایش داده می شود و نقش او در پدیدآمدن اثر، از قبیل: نویسنده، مترجم، محقق، حاشیه نویس، مقدمه و تصحیح نیز مشخص می شود.

اگرچه کوشش شده در این پایگاه شیوه ضبط نام ها به شکل یک دست و یکسان باشد، اما هنوز مشکلات بسیاری در نام پدیدآورندگان در این پایگاه دیده می شود؛ از آن جمله می توان به نمونه های ذیل اشاره کرد:

1. یکسان نبودن نام نویسندگان از لحاظ ثبت کردن یا ثبت نکردن پسوند نام ها؛

برای نمونه، یک نام گاه به شکل «ابن بابویه، علی بن حسین» آمده و در جایی دیگر به صورت «ابن بابویه قمی، علی بن حسین» ثبت شده است.

2. رعایت نشدن یک دستی در ثبت نام مؤلفان هنگام ورود اطلاعات به لحاظ افزودن یا کاستن حرف یا نویسه ای خاص، گاه به سبب سهو اپراتورها یا تغییر زبان صفحه کلید، با وجود یکسانی ظاهری در نام پدیدآورندگان، ماشین، یک پدیدآورنده خاص را چند پدیدآورنده بر شمرده است.

در خصوص راه حل مسئله نام نویسندگان در پایگاه کتابخانه دیجیتال باید گفت، شاید تعیین ملاک برای ضبط نام، بر عهده نهادی خاص است و همه نهادهای علمی باید از یک رویه واحد برای ثبت نام نویسندگان استفاده کنند. مراکزی چون سازمان کتابخانه ملی ایران، از این دست نهادها شمرده می شوند. مستند مشاهیر، فرهنگ اعلام فارسی و کتاب شناسی ملی ایران، از جمله مستنداتی اند که می توان با استفاده از آنها، ملاکی یگانه در ثبت نام نویسندگان در دست داشت.

بر پایه اشکال های یادشده، شاید حل معضلات و اتخاذ اسلوب و الگویی واحد در ثبت نام نویسندگان، ضروری باشد. برای این کار، شایسته است که مسئولان ورود اطلاعات منابع، همه مدیران را ملزم به رعایت استاندارد پذیرفته در ثبت نام ها کنند. این استانداردها، چنانکه گذشت، از طریق کتاب شناسی ملی ایران یا اسنادی که سازمان های مسئول در دست دارند، قابل استخراج است.

از آنجا که صورت های گوناگون ضبط نام نویسندگان در برخی نرم افزارها به هم ارجاع شده اند، با اصلاح یک نام، صورت های دیگر آن نیز به گونه خودکار امکان اصلاح دارد.

برای آنکه شیوه ثبت نام نویسندگان در پایگاه منطبق بر معیارهای پذیرفته باشد، این کار باید بر پایه کتب مرجع پیش گفته صورت گیرد.

برای حل معضل ناهمگونی نام ها به سبب فزونی و کاستی نویسه ها نیز می توان با یک دستور کلی به ماشین، این اشکال ها را حل کرد.

ج ـ نام پدیدآورندگان در پایگاه مجلات تخصصی نور

از مهم ترین قابلیت های عرضه شده در پایگاه مجلات تخصصی نور (www.noormags.ir)، امکان جست وجو در نام پدیدآورندگان مقالات است. با استفاده از این امکان، کاربران به آسانی می توانند نویسنده دلخواه خود را در نوار جست وجو وارد کنند و همه مقالات او را در صفحه نتایج مشاهده کنند.

همچنین، امکان مشاهده نویسندگان با مقالات مرتبط نیز در پایگاه گنجانده شده است که بر پایه آن، نویسندگانی که در موضوع های مشابه مقاله نوشته اند، در ستونی مجزا به کاربران نمایش داده می شوند.

افزون بر آن، هنگام جست وجو در پدیدآورندگان مقالات، نویسندگان همکار نیز در ستونی مجزا به کاربر عرضه می شوند. مقصود از نویسندگان همکار، مترجمان، مؤلفان همکار یا نویسنده یک اثر است از این رو، در مقالاتی که ترجمه اند، پدیدآوری که در صفحه نتایج آمده، مترجم این مقاله، و نویسنده همکار مولف خوانده بود..

این اطلاعات عرضه شده برای کاربر، بسیار سودمند است و کار بازیابی اطلاعات را برای ایشان، دقیق تر و آسان تر خواهد کرد.

کاستی های نام پدیدآوردندگان در پایگاه مجلات تخصصی نور

نام پدیدآورندگان مقالات در پایگاه مجلات تخصصی نور (نورمگز)، مشکلات بسیار برای کاربران به وجود آورده است که از آن میان، می توان به مشتبه شدن مقالات نویسندگان هم نام، آمدن نام نویسنده واحد به اشکال گوناگون، و خطا در ثبت نام خانوادگی و نام در برخی نویسندگان اشاره کرد.

برخی از این معضلات، هنگام ورود اطلاعات و به واسطه خطای اپراتورهای خود پایگاه به وجود می آید که این لغزش ها را می توان به شکل نظام وار (سیستمی) برطرف کرد؛ اما عمده خطاها، از اطلاعات عرضه شده در مقالات مجلات ناشی می شود. حل این معضل، به مراتب مشکل تر است و به برنامه ریزی طولانی تر نیاز خواهد داشت.

بنابراین، منشأ خطا در نام ها و به تبع آن، بروز مسئله ابهام و اشتباه در نویسندگان مقالات را می توان در دو دسته کلی جای داد:

1. خطا در ورود اطلاعات:

برخی لغزش های موجود در نام ها، به سبب خطایی است که از مجریان ورود اطلاعات سر می زند؛ به گونه ای که هنگام ثبت نام مؤلف، حرفی از آن می کاهند یا به آن می افزایند و یا نویسه (کارکتر)ی را به آن می افزایند یا از آن می کاهند. به این ترتیب، یک نویسنده با کاستن و افزودن یک حرف یا نویسه، به منزله دو نویسنده به شمار می رود.

در برخی از نمونه ها، نام و نام خانوادگی مؤلف به گونه پس و پیش نوشته می شود؛ برای مثال، نام یکی از پژوهشگران منطق، «عسگری سلیمان امیری» است که گاه به خطا «سلیمان امیری عسگری» نوشته می شود.

گاهی نیز تعدد نام واحد، سببی دیگر دارد؛ به این معنا که گاه ظاهر نام نویسنده واحد شبیه هم است؛ اما باز ماشین آن را دو نویسنده مجزا تشخیص داده است. این به آن سبب است که زبان یا قلم نگارش آن دو، متفاوت بوده است. توضیح آنکه گاه ماشین به زبان نگارش برخی حروف (مانند «ی» و «ک») حساس است؛ اگر یک اپراتور با صفحه کلید فارسی یک نام را ثبت کند و اپراتور دیگر با صفحه کلید عربی همان نام را ثبت کند، ماشین این نویسنده واحد را به منزله دو نویسنده تشخیص می دهد و مقالات مجزا را ذیل نام آنها مندرج می کند.

برای حل معضلاتی که از این طریق به وجود آمده، چند راه حل ساده وجود دارد:

دقت در ثبت اطلاعات مجلات؛ بازنگری اطلاعات ثبت شده؛ دستور کلی به ماشین برای چشم پوشی از فاصله و نیم فاصله ها، دستور کلی به ماشین برای چشم پوشی از عربی و فارسی بودن نویسه ها.

2. انتقال خطاهای موجود در مجلات به پایگاه:

گاه در مجلات، نام نویسنده مقالات به گونه ناقص یا نادرست ثبت می شود. این مسئله در مجلاتی که دارای رتبه علمی نیستند یا در دوره ای خاص منتشر شده اند، بیشتر به چشم می خورد.

به گونه کلی، معضل نام ها در پایگاه که به سبب نقص ثبت نام مؤلفان در مجلات پیش آمده، شامل نمونه های ذیل است:

  • - مجلاتی در آنها مقالاتی از نوع مصاحبه وجود دارد و نویسنده مقاله، مصاحبه شونده است و ازاین رو، نام مصاحبه شونده به سبب شهرت به گونه ناقص ثبت شده؛ مانند ذکر نام «استاد دینانی» به جای «غلام حسین ابراهیمی دینانی». یا به دلایل دیگر، فقط نام خانوادگی یا تنها نام مصاحبه شونده آورده می شود.
  • - مجلاتی که در اوضاع اجتماعی و سیاسی خاص منتشر می شده و نویسنده نام مستعار ذکر می کرده یا نام کوچک خود را به اختصار نام خانوادگی خود را به گونه کامل ثبت می کرده است؛ مانند نوشتن «د. ربحی شرابی» به عنوان نام نویسنده.
  • - مجلاتی که در دوره گذشته منتشر می شده است و نوشتن نام و نام خانوادگی، به گونه اختصاری مرسوم بوده است؛ برای نمونه، «ع.ص» به جای «علی صفایی».
  • - مجلاتی که در آن قطعات ادبی یا اشعاری آمده و نام مؤلف با تلخیص شاعرانه ذکر گردیده است؛ مانند «ه. ا. سایه» به جای «هوشنگ ابتهاج».
  • - مجلاتی که رتبه علمی ندارند و محتوا، سبک نگارش، معیار و استانداردی برای نگارش مقالات در آن وجود ندارد و نویسندگان مقالات هیچ الزامی برای رعایت ملاکی خاص برای نشر مقالات در آن ندارند. در این مجلات، مقالاتی بدون ثبت نام نویسنده، نام تنها، یا نام خانوادگی تنها، نام مستعار و نام اختصاری، به چشم می خورد.

* راهکارهای حل مسئله نام در مجلات بدون رتبه علمی

از راه های پیش گیری از به وجود آمدن مسئله نام پدیدآورندگان، در مرحله ثبت و ورود اطلاعات انجام می شود؛ به این معنا که در ثبت نام پدیدآورندگان، از متخصصان کتاب شناس و مؤلف شناس سود برد یا در نمونه های پیش گفته با ایشان مشورت کرد. این مشورت ممکن است با شخص حقیقی خاص یا مؤسسه یا نهادی ویژه صورت گیرد و نیز می شود از طریق جست وجو در پایگاه های معتبر، مانند کتابخانه ملی، ثبت نام مؤلفان به درستی صورت گیرد. گاه گرفتن اطلاعات از نشریه ای که این مقالات در آن منتشر شده نیز کارساز خواهد بود.

افزون بر آن، برخی نام ها را می توان با استفاده از مستند مشاهیر یا فرهنگ اَعلام فارسی اصلاح کرد.

اما حل مسئله درباره مقالاتی که اطلاعات آن پیش تر ثبت شده، بسی دشوارتر خواهد بود؛ زیرا نخست باید معلوم کرد که چه تعداد از مقالات چنین معضلی دارند و این خود، بسیار زمان بر و دشوار است. در نمونه هایی که نویسنده از نام مستعار استفاده کرده، این یابش به سادگی قابل انجام نیست؛ مگر اینکه نام مستعار بسیار مشهور و شناخته شده باشد؛ مانند «نیما یوشیج» که نام مستعاری برای «علی اسفندیاری» است.

شاید مناسب ترین کار آن باشد که تنها مجلاتی که محتوای غنی و پربار دارند، مانند برخی نشریات قدیمی که افراد شاخص در آن مقاله منتشر کرده اند، برگزیده شود و نام پدیدآورندگان بررسی گردد و مشکلات احتمالی نام ها به شیوه هایی که پیش تر گفته شد، رفع گردد. با این کار، نخست دایره مشکلات، محدود به مقالات خاص می شود و نیز یافتن نام کامل و دقیق نویسندگان به سبب شهرتی که دارند، بسی آسان تر خواهد شد.

* راهکارهای حل مسئله نام در مجلات دارای رتبه علمی

مجلاتی که وزارت علوم بر پایه ضوابط و مقرراتی به آنها درجه علمی ـ پژوهشی یا علمی ـ ترویجی داده است، ساختار و آیین نامه هایی برای نگارش مقالات در نظر می گیرند که نویسنده ملزم به رعایت آنهاست؛ به گونه ای که اگر مقاله هایی که برای نشر در این نشریات عرضه می شود، دارای معیارهای آنها نباشد، در نشریات مزبور منتشر نمی گردنند. یکی از ملاک های متداول که مقاله های این نشریات باید دارا باشند، نام کامل، نشانی رایانامه، تنالگان (وابستگی شغلی یا سازمانی(Affiliation)) و رتبه علمی مؤلف است.

همه این اطلاعات، در مقالات نشریات علمی ثبت می شود. شاید از راه های مؤثر برای پیشگیری از مشتبه شدن نام پدیدآورندگان، ثبت اطلاعات تماسی و تنالگانی مؤلفان باشد؛ برای نمونه، احمد احمدی که استاد فلسفه دانشگاه تهران است، با احمد احمدی که عضو هیئت علمی دانشگاه علامه طباطبایی است، تنها از طریق وابستگی های سازمانی و اطلاعات تماسی قابل تمیز است.

در بسیاری از پایگاه های مشهور، ملاک تمایز نویسندگان هم نام، وابستگی شغلی و سازمانی آنهاست؛ برای نمونه، پایگاه اسکوپوس که یکی از معتبرترین پایگاه های استنادی جهان است، از طریق وابستگی سازمانی و تاریخ تولد افراد، میان آنها تمییز می دهد.

البته در نمونه های نادر، افزون بر نام، وابستگی سازمانی نویسندگان مقالات نیز مشابه هم می شود؛ در این گونه موارد، ملاکی مانند رایانامه که کاملاً یگانه است و امکان تشابه در آن نمی رود، می تواند مشکل گشا باشد.

همچنین، دفتر تبلیغات اسلامی در پایگاه «اسلامیک داک» (islamicdoc.org) که اصطلاح نامه های تولیدشده، نمایه ها و برخی متون الکترونیکی را عرضه می کند، صفحاتی با عنوان ویکی نیز نمایش می دهد که شامل ویکی: فقه، اصول فقه، علوم قرآن، اَعلام و مطهر است.

بر این اساس، روش های گوناگونی برای استخراج نام ها از متون به گونه خودکار طراحی شده است که از آن جمله می توان به: شیوه های شناسایی به کمک فرهنگ اَعلام و فرهنگ های جغرافیایی (گازرترها)، شناسای نام ها مبتنی بر یادگیری ماشینی و شناسایی نام ها به شیوه قاعده مدار (استفاده از قوانین صرف و نحو دستور زبان) اشاره کرد.

در ویکی اَعلام (http://islamicdoc.org/wiki/index.php) که به اَعلام اشخاص اختصاص دارد، بیشتر به اَعلام و مشاهیر می پردازد. در این مجموعه، نزدیک به 40000 نام اشخاص و مشاهیر، اعم از نام های مرجح و نامرجح گردآوری شده که حدود27000 نام، از اسامی مرجح است. برای برخی نام های مرجح، افزون بر تهیه ارجاعات، زندگی نامه ای نیز تهیه شده که اطلاعات مختصر از آنها را به کاربران ارائه می کند.

همچنین در قسمت دیگری از این پایگاه با عنوان «سامانه دستیار محققین»، بخشی به نام نسخه آزمایشی نمایه اَعلام (http://islamicdoc.org/electronicpublication/samaneh/aalam.html) وجود دارد که در آن، کتب مرتبط با آیات قرآن، اَعلام اشخاص و مکان ها به کاربر عرضه می شود.

پیشنهادها

مرتبط کردن اَعلام به یکدیگر؛ مانند مرتبط کردن ادوار زمانی، مکان ها، به اشخاص یا کتب با تعیین نوع ارتباط؛ برای نمونه، علم زمانی قرن سوم را با ایران، سامانیان، ابن سینا، شفا، اشارات، نجات، بهمنیار، همدان و خراسان بزرگ مرتبط نموده، وجه ارتباط را نیز بیان کنند؛ به این گونه که: قرن سوم هجری در ایران، سامانیان حکومت می کردند که ابن سینا دانشمند ایرانی، معاصر آنها می زیسته و آثاری چون: «شفا»، «اشارات و تنبیهات» و «نجات» نوشته و شاگرد او، بهمنیار بود.

با این کار، از احتمال انتساب نویسنده به اثری خاص کاسته خواهد شد؛ زیرا اطلاعات همراه نویسنده، به ویژه زمان و مکان زندگی، اشخاص دیگر را که در زمانی پیش یا پس از آن تاریخ می زیسته اند، از دایره انتساب خارج خواهد کرد. افزون بر این، توان بازیابی دقیق را در پی خواهد داشت. این اطلاعات، زمینه استخراج دانش از متن را نیز فراهم می آورد.

استفاده از منابعی چون: فرهنگ اَعلام فارسی، مستند مشاهیر و جای نام ها، برای تکمیل و تدقیق ارتباط ها سودمند خواهد بود. همچنین، ثبت همه شکل های نگارش نام ها و ارجاع آنها به یکدیگر، هم در بازیابی اطلاعات و هم در نسبت دادن درست آثار به نویسندگان، سودمند می باشد.

پی نوشت:

* پژوهشگر مرکز تحقیقات کامپیوتری علوم اسلامی(نور)

منابع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: شنبه, 22 اسفند 1394
  • صفحه در فصلنامه: صفحه 30
  • شماره فصلنامه: فصلنامه شماره 53
بازدید 6211 بار
شما اينجا هستيد:خانه آرشیو فصلنامه شماره 53 جایگاه نام نویسندگان در بازیابی اطلاعات پایگاه ها