ره آورد نور

Skip to content

نگرشی به گونه های جست و جو و بازیابی اطلاعات

دوشنبه, 30 آذر 1394 ساعت 15:00

نویسنده:

مصطفی علیمردای این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(0 رای‌ها)

چکیده:

بهترین و سریع ترین راه برای دستیابی به اطلاعات مطلوب در کتابخانه های رقمی، استفاده از نظام های جست و جوی آنهاست. کتابخانه های گوناگون، نظام های جست و جویِ خود را هم هنگام با فناوری ها و رویکردهای نوین، تغییر می دهند و می کوشند امکانی فراهم آورند که جست و جوهای کاربران، بیشترین نتایج مرتبط و کمترین ریزش کاذب را داشته باشد. از همین روی، از راهبردهای گوناگون جست و جوی بولین و ویلدکارد و نیز از ابزارهایی مانند اصطلاح نامه و نظام های طبقه بندی، برای مفهومی کردن جست و جو استفاده می کنند. در ادامه، به بررسی جست و جو و رهیافت های گوناگون به آن پرداخته خواهد شد.

کلیدواژگان: جست و جوی کلیدواژه ای، جست و جوی مجاورت یابی، جست و جوی فازی، راهبردهای جست و جو، شگردهای جست و جو، جست و جوی ریشه یاب، جست و جوی مفهومی.

اشاره

جست و جو، مشاهده نظام وار اطلاعات در یک پایگاه داده، با هدف مشخص کردن اصطلاحات یا اشیاء با معیارهای از پیش تعیین شده و نیز به معنای عمل یافتن اشیای خاص در یک زنجیره معین از n واژه است.

همچنین، شاید بتوان جست و جو را عبارت از رفتارهای هدفمند کاربران برای یافتن اطلاعات مناسب یا مفید در تعامل با نظام های بازیابی اطلاعات (Information Retrieval (IR)) دانست. بنابراین، جست و جوی اطلاعات در پایگاه دادگان، به سطح خُردی از رفتار اشاره دارد که در تعامل با نظام های گوناگون بازیابی اطلاعات صورت می گیرد.

نسل های جست و جو

موتورهای جست و جو، شیوه هایی پی جویی اطلاعات را تغییر داده اند. امروزه جست و جو برای اطلاعات، بیشتر به معنای استفاده از وب جهان گستر، و جستجوی کلیدواژه ای و مرور از طریق صفحه نخست فهرست نتایج صورت می گیرد؛ اما پیش از موتورهای جست و جو، مانند گوگل، یاهو، یا حتی وب جهان گستر، مردم چگونه اطلاعات را جست و جو می کردند؟ در پاسخ می توان گفت، مردم به کتابخانه ها می رفتند، از کتابداران کمک می خواستند یا در میان قفسه ها می چرخیدند و کتاب های منطبق با اطلاعاتشان، مانند: نام نویسنده، عنوان، رده، یا برخی دیگر اطلاعات درباره یک سند، همچون: رنگ، جلد یا سال نشر را، مرور می کردند.

این کتابداران یا مشتریان، احتمالاً از یک کارت برگه دان استفاده می کردند که دربردارنده اطلاعاتی درباره هر سند بود. عموماً واژگان کنترل شده مانند: عنوان، سال نشر، شابک، نوع سند، ویراستار و شمار صفحات، برای توصیف اسناد استفاده می شده است. این اطلاعاتِ مکمل، فراداده نامیده می شود؛ یعنی داده ای درباره داده. مهم ترین چیز در این دست جست و جوها، یک مرجع یا یک شناساگر بود که اسناد را در کتابخانه بیابد.

شکل 1: کارت برگه دان با فراداده درباره یک سند

جست و جوی اطلاعات با کمک رایانه در 1960 با پذیرش نظام مدیریت پایگاه دادگان آغاز شد. نظام بازیابی سنتی، مبتنی بر یک مخزن از اسناد نمایه سازی شده و نیاز اطلاعاتی از سوی کاربر بود و نظام بازیابی اخیر، به پرس وجوی پایگاه دادگان تبدیل شده است. الگوهای گوناگون برای یافتن بهترین اسناد منطبق با پرس وجو، مانند الگوی بولین یا الگوی فضای برداری، ایجاد شده است.

وب جهان گستر می تواند به مثابه پایگاه دادگان چندرسانه ناشناسی توصیف شود که اسناد ابرمتن میلیاردی در آن عرضه شده است. وب جهان گستر، از پیوندها به مثابه کمک تکمیلی برای ناوبری استفاده می کند. نخستین موتور جست و جوی وب، آلی وب (Aliweb) نام داشت که در سال 1993م پدید آمد و هنوز هم موجود است.

نسل نخست موتورهای جست و جو، بیشتر به شکل انحصاری بر دادگان موجود در صفحات وب، مانند متون و اطلاعات قالب یافته، برای محاسبه و رتبه بندی مجموعه پاسخ ها مبتنی بود. نسل دوم از موتورهای جست و جو، مانند گوگل، از اطلاعات بیرون از صفحات، دادگان مرتبط، مانند تحلیل پیوندها (لینک ها)، متون پشتیبان (Anchor-Texts) و دادگان کلیک شده، برای رتبه بندی نتایج استفاده می کنند. نسل سوم از موتورهای جست و جو، می کوشند دادگانِ منابع نامتجانس و گوناگون را درآمیزند؛ درحالی که تلاش می کنند نیاز موجود در پرس وجو را نیز پاسخ دهند. در این نسل، نتایج محاسبه شده بر پایه نیاز کاربران سفارشی سازی می گردد و نیز پیشینه دادگان شخصی، زمینه و نیت کاربران در این محاسبه در نظر گرفته می شود. این داده ها، شامل اطلاعات شبکه اجتماعی، برچسب گذاری ها، بازخورد کاربران، تحلیل مفهومی، امتیازها و اعتبار اطلاعات است.

موتورهای جست و جوی وب، مشابه نظام های سنتی بازیابی اطلاعات به وسیله نمایه سازیِ شمار بزرگی از صفحات وب عمل می کنند. خزنده های وب که عنکبوت، ربات یا عامل نیز خوانده می شوند، به شکل خودکار صفحات وب را بازیابی می کنند و به هر پیوندی که برمی خورند، آن را دنبال می کنند. بنابراین، محتوای هر صفحه از وب برای تعیین چگونگی نمایه شدن، تحلیل شده اند، یعنی واژگان از عنوان ها، سرعنوان ها یا ابربرچسب ها استخراج شده اند.

هنگامی که کاربری یک پرس وجو را نوعاً با استفاده از کلیدواژه، در نوار جست و جو وارد می کند، موتور جست و جو نمایه هایش را مرور می کند و فهرستی از بهترین انطباق های صفحات وب فراهم می آورد. بیشتر موتورهای جست و جو، از عملگرهای بولین (و، یا، نه) برای جست و جوی دقیق تر و خاص تر استفاده می کنند. موتورهای جست و جو، شیوه هایی برای رتبه بندی نتایج و عرضه بهترین نتایج در صفحه نخست دارند. یک موتور جست و جو برای تشخیص اینکه کدام صفحه بهترین انطباق را با پرس وجو دارد و در چه نظم و ترتیبی این نتایج باید فهرست گردند، شیوه خاص خود را دارد. ازاین رو، فهرست نتایج به گونه گسترده، از یک نظام بازیابی به نظام بازیابی دیگر، متفاوت است.

درحالی که وب جهان گستر، در فضایی فزاینده گسترش یافته، کاربران و محتوا نیز دگرگون شده است. وب، تنها درباره علوم رایانه نیست؛ بلکه همچنین به حوزه های دانش درباره مردم، اطلاعات و سرگرمی نیز مرتبط است. در این روزگار، وب جهان گستر به وبِ اجتماعی متمایل شده است. این وب نو، با وبلاگ ها، ویکی ها و شبکه های اجتماعی خود، فرصت های نوی برای برنامه ها و سرمایه گذاران گشوده و هم زمان چالش های تازه ای نیز برای طراحان وب و موتورهای جست و جو فراهم کرده است.

موتورهای جست و جوی سنتی مبتنی بر کلیدواژه، بر این واقعیت تکیه دارند که کاربر بخشی از پاسخ را وارد نوار جست و جو کند؛ برای نمونه، اگر کاربری بخواهد بداند که وظیفه پروتکل های شبکه چیست، چنانچه صرفاً کلیدواژه های پرتکل و وظیفه را وارد کند، موتور جست و جو ممکن است اسنادی درباره پروتکل و وظیفه عرضه کند؛ اما ضرورتاً تنها اسنادی که وظیفه پرتکل ها را بیان می کند، عرضه نخواهد شد؛ مثلاً دست کاری خطاها، یکی از وظایف پرتکل هاست، اگر شما بخشی از پاسخ را بدانید، می توانید کلیدواژه «دست کاری خطا» را به پرس وجو اضافه کنید تا نتایج جست و جو محدودتر شود.

جست و جوی چندرسانه دانش بنیان

بازیابی اطلاعات چندرسانه، حوزه تحقیق چندرشته ای بسیار فعالی را برساخته است. کتابخانه های رقمی، رایانش زیستی و علوم پزشکی، اینترنت، فیلم های آموزشی، پایگاه دادگان، مجموعه های میراث فرهنگی و شبکه های نظیربه نظیر، نیازهای جهان گستری برای الگوها و فنون جدید در باب اینکه چگونه باید مجموعه های چندرسانه را ساختار بخشید و جست و جو کرد، ایجاد کرده است. به این سبب، نظام های بازیابی اطلاعات چندرسانه، یکی از حوزه های نویدبخش در زمینه مدیریت اطلاعات است.

نظام های سنتی بازیابی اطلاعات، تنها با دادگان متنی و ساختارنیافته سروکار داشتند. در نتیجه، آنها قادر به پشتیبانی از انواع متفاوت از رسانه نبودند. برای نمونه، نمایه سازی اسناد چندرسانه، بسیار دشوارتر از اسناد متنی است و در حالی که فراداده برای نظام های بازیابی اطلاعات چندرسانه تعیین کننده است، نظام های سنتی بازیابی اطلاعات چنین الزاماتی ندارند.

مهم ترین ویژگی نظام بازیابی اطلاعات چندرسانه، این است که دادگان گوناگون باید مورد پشتیبانی قرار گیرند، نظام های چندرسانه باید ظرفیت ذخیره، بازیابی، انتقال و حاضرکردن دادگان با ویژگی های نامتجانس مانند: متن، تصویر، فیلم، گراف و صوت را داشته باشد. به این سبب، گسترش نظام های چندرسانه، به شکل قابل توجهی، پیچیده تر از نظام های سنتی اطلاعات است. در واقع، نظام های سنتی، تنها با نوع ساده ای از اطلاعات، مانند ردیف ها و اعداد صحیح، سروکار دارد؛ در حالی که یک نظام چندرسانه باید قادر به پشتیبانی از موضوعاتی با ساختارهای بسیار پیچیده باشد.

جست و جوی اکتشافی

نظام های بازیابی اطلاعات نوین، با چالش های نوی مواجه اند:

- نخست اینکه محتوا پیچیدگی فزاینده ای دارد؛
- دوم اینکه انتظارات کاربران، مبرم و مبهم است؛ برای نمونه، این کافی نخواهد بود که یک موتور جست و جو یک سند ویدئو را بیابد؛ بلکه کاربران انتظار دارند نقطه دقیق درون آن فیلم را نیز به آنها نشان دهند؛
- سوم اینکه رفتار جست و جوی مردم تغییر کرده است. عموماً کاربران دقیقاً نمی دانند در پی چیست اند. عادت های جست و جوی مردم هنوز به شکل غافلگیرکننده ای الگوی قدیمی دارد و یادآور روزهایی است که مشتریان کتابخانه ها باید در میان قفسه ها می چرخیدند و کتاب ها را از روی بخت و اتفاق مرور می کردند.

امروزه کاربران، هنگامی که به سراغ جست و جوهای رایانه ای می روند، هنوز به شیوه ای مشابه کتابخانه های فیزیکی رفتار می کنند. عموم کاربران اینترنت، این گونه رفتار می کنند که نخست کلیدواژگانی در نوار جست و جو وارد می کنند و سپس به شکل تصادفی در فهرست نتایج بر یک پیوند کلید می کنند و به اسناد مرتبط با آن پیوند عرضه شده که ممکن است یک صفحه وب یا هر نوع دیگر از اسناد باشد، سرکشی می کنند و به سرعت درباره مناسب یا نامناسب بودن آن تصمیم می گیرند. به این شیوه از جست و جو، جست و جوی اکتشافی می گویند. در جست و جوی اکتشافی، اگر سند مناسب نبود، کاربران بدون بررسی دیگر پیوندها از فهرست نتایج، مکرراً کلیدواژگان نوی وارد می کنند.

این تغییر الگو، از رفتار جست و جوی کاربران مستلزم عرضه دانش جدید و فنون بازیابی و راهبردهای بازیابی جدید است. برخی فنون امیدبخش، از جنبش وب معنایی پدید آمده اند که جمله آنها، هستی شناسی ها، پیوند دادگان، چارچوب توصیف منبع، و زبان هستی شناسی وب است. چنین فنونی، توصیف اسناد چندرسانه را با فراداده های ماشین خوان، به گونه ای عملی می نماید که برنامه هایی مانند موتورهای جست و جو قادر به پردازش و یکپارچه سازی داشته های خود باشند.
برای موتورهای جست و جو، معنای محتوا مهم تر از خود محتواست. همچنین، تفسیر و ابهام زدایی دادگان، هنگامی که یک ماشین قادر به فهم معنای یک پرس وجوست، قابل اعتمادتر است. واژگان ساختاریافته و منابع زبان خارجی، مانند فرهنگ لغات و اصطلاح نامه ها، برای پردازش کننده اصطلاح پرس وجوی زبان طبیعی به کار می روند.

نظام های خبرهِ نوین، کارکردهای جست و جو را در حوزه برخط و برون خط دانش بهبود بخشیده اند؛ در حالی که آنها را به شکل همکاری های قابل اعتماد و سودمند درآوردند. خدمات کتابدار الکترونیکی، نمونه ای از چنین نظامی است. (Linckels and Meinel 2011, 4-7)

دسته بندی جست و جو از دیدگاه های گوناگون

عمل جست و جو برای اطلاعات، ممکن است به شیوه های گوناگون دسته بندی شود. یک شیوه آن است که جست و جوها را بر پایه گستره دسته بندی کرد؛ به این گونه که کاربر می تواند در رایانه شخصی خود، اینترانت شرکتش یا اینترنت جست و جو کند.

شیوه دیگر، گونه پرس وجوست که در آن، میان یک جست و جوی تک کاره که کاربر با واردکردن عبارت پرس وجو در موتورِ جست و جو انجام می دهد و جست و جوی ساختاریافته که در آن کاربر از دسته های از پیش تعریف شده برای جست و جوی پایگاه ها استفاده می کند، تمایز وجود دارد.

همچنین، میان جست و جو در یک نظام بسته و ایستا از منابع مرجع که به گونه ای مشابه ساختاریافته اند و یک نظام گشوده که دربردارنده شمار بسیاری از گونه های مختلف اطلاعات اند، تفاوت وجود دارد. (Passin, 2004, 108)

راهبردهای جست و جو

راهبرد جست و جو، فرآیندی است که از طریق آن سندی مورد جست و جو قرار می گیرد تا مدارک متناسب با نیاز اطلاعاتی کاربر شناسایی شود. برنامه جست و جو با درخواستی مشخص آغاز و با فراهم آوردن مجموعه ای از مدارک بازیابی شده پایان می پذیرد. صورت بندی پرس وجو بر پایه انتخاب توصیفگرهای موضوعی و ترکیب آنها با استفاده از عملگرهای منطق بولین به گونه درست، در صورت نیاز از این راهبردها به شمار می رود. راهبرد جست و جو، نمایان گر منطق ترکیب واژگان برای دستیابی به اطلاعات دلخواه است.

گونه های جست و جو

جست و جو، از حیثیت های مختلف بر اقسام گوناگون است. در ذیل، به برخی از این اقسام اشاره می شود:

جست و جو از حیث قابلیت ها و امکانات

جست و جوی ساده: این شیوه از جست و جو، معمولاً از یک نوار جست و جو تشکیل شده که در همه بخش های کتابخانه کاوش می کند و گاه یک یا چند دامنه می توان به آن افزود. در برخی از پایگاه ها، این جست و جو را «جست و جوی پایه» (Basic Search) و «جست و جوی سریع» (Quick Search) نیز خوانده اند. این شیوه از جست و جو، در برخی از پایگاه ها به دو شکل عرضه می شود:

- جست و جویی که تنها به صورت یک نوار جست و جو عرضه می شود. در این صورت، واژه جست و جوشده در همه پایگاه، هم محتوای متون تخصصی و هم در تمام گزینه های پایگاه انجام خواهد شد.
- جست و جوی ساده که داری امکاناتی مختصر برای محدودکردن جست و جو به زمینه هایی خاص است و کاربر می تواند دامنه جست و جو را تا حدی محدود کرده، جست و جویش را دقیق تر کند.

شکل 2: نمونه جست و جوی ساده و پیشرفته در پایگاه های کتابخانه رقمی

شکل 3: نمونه جست و جوی ساده و پیشرفته

جست و جوی پیشرفته: در روش پیشرفته، زمینه های جست و جو متعدد می شوند و کاربر می تواند جست و جوی خود را در زمینه هایی چون: عنوان، متن، نوع، نویسنده، موضوع، تاریخ و ناشر، محدود کند. کاربر می تواند این زمینه ها را با یکی از نشانه هاتی بولین (و، یا، نه) به هم مرتبط نماید.

جست و جوی عبارت: جست و جوی عبارت، به این معناست که واژگان باید با همدیگر در یک نظم خاص یافته شود.

دسته بندی شیوه های جست و جو

شیوه تحلیل آماری بسامد اصطلاحات مطلق

برشمردن بسامد اصطلاح های مطلق (Absolute Term Frequency)، شیوه ای مقدماتی به کاربرده شده در موتورهای جست و جوست. این امر، مستلزم رصد شمار انطباق ها میان واژگان واردشده و بسامدشان در متن پایگاه دادگان است. چنین برداشتی، از ارتباط میان پرس وجو و متن اسناد، کاملاً غیرقابل اعتماد است؛ زیرا تنها به لفظ توجه دارد؛ هرچند برای عرضه تذکر جزئی کافی به نظر می رسد. رتبه بندی اسناد توسط موتور جست و جو، بیشتر بر حسب درصد یا شمار خاصی بیان می شود. اراین رو، اسناد بر پایه رتبه خود مرتب، و با ملاحظه بیشترین ارتباط با کاربر آغاز می شوند.

شیوه های نحوی

شیوه های نحوی (Syntactical Methods)، مبتنی بر مقایسه نحوی ساختار متن با ساختار الگوهای ذخیره شده در پایگاه دادگان خاص است. ساختار اسناد اساسی، مبتنی بر: عنوان ها، بخش ها، قسمت ها، فصول، پاراگراف ها و نظایر آن است.

شیوه های معنایی

بازیابی اسناد از طریق شیوه های معنایی (Syntactical Methods)، مبتنی بر تحلیل ساختارهای معنایی محتوای اسناد صورت می گیرد. نظام بازیابی اطلاعات می تواند، برای نمونه، به وسیله ساختار درخت مفهومی با گونه های مختلف عنوان ها، عرضه شده باشد.

برخی موتورهای جست و جو اصطلاح های پرس وجو را با به کار بردن شکل بندی های گوناگون یا با رنگی کردن نمایش می دهند. فراداده ها بیشتر، افزون بر اطلاعات، متن نمایش می دهند تا معانی بیشتری به دست داده شود.

جست و جوی متن کامل، در مجموعه اسناد بسیار بزرگ مؤثر نخواهد بود؛ مگر با پشتیبانی فنونی مانند: ساختاردهی متن، فرامتن، اصطلاح نامه، فهرست راهنمای محلی و نظایر آن. (Hynek 2002, 5-6)

دسته بندی الگوهای جست و جو

الگوی بولین

الگوی بولین (Boolean Model)، برای آسان سازی پرس وجوهای متشکل از چندین واژه به هم پیوسته با عملگرهای منطقی و عبارت هاست.

از معایب الگوهای بولین، نارضایتی از رتبه بندی اسناد مرتبط هنگام نمایش نتایج پرس وجو به کاربر است. در تبیین پرس وجوی کاربر، الگوی بولین نسبتاً محدود شده است.

استفاده از عملگرهای بولین، تاریخی طولانی در خدمات جست و جو دارد. عملگرهای بولین، در نظام های گوناگون جست و جو به شکل های مختلف ظاهر می شوند. برای درخواست اینکه همه اصطلاح های واردشده در فقره بازیابی شده حاضر باشد، از عملگر «و»، و برای اینکه دست کم برخی از اصطلاح های واردشده حاضر باشد، از عملگر «یا» استفاده می شود.

هنگامی که اصطلاح با + علامت گذاری می شود، به این معناست که اصطلاح باید حاضر باشد؛ یعنی معادل «و». هنگامی که با – علامت گذاری می شود، معنایش آن است که اصطلاح نباید حاضر باشد؛ یعنی معادل «نه».

شکل 4: علائم فهرست سازی برای بهبود نتایج جست و جو

در برخی موتورهای جست و جو، برای عرضه عملگرهای بولین، نوار گفت وگو که در آن اصطلاح باید وارد شود، محتواهایی از پنجره با «و»، یا، «نه» به هم مرتبط می شوند.
گاه نیز یک حالت دستوری که توسط کاربر در نوار جست و جو نوشته می شوند، انعطاف پذیرترین حالت است؛ اما کاربر باید با آن آشنا باشد.

الگوی بردار

الگوی بردار (Vector Model)، در واقع، گسترشی از الگوی بولین است که وزن های منطقی را در انطباق پرس وجوی کاربر با اسناد در نظر می گیرد و متناسب با ضریب های وزنی تعیین شده، نتایج را عرضه می کند. در الگوی بردار، می توان از پرس وجوهای شهودی بیشتر یا حتی پرس وجوها در زبان طبیعی سود برد. مفهوم ارتباط که در الگوی بولین پوشش داده نشده بود، در این الگو به کاربرده می شود. نظام های اصلی باید با استفاده از جدول نمایه هایی از اصطلاح های مهم، تعاریف وزن و مدیریت سند نمایه های مؤثر، تقویت شود. شیوه های محاسبه ارتباط اسناد برای پرس وجوها، مسئله الگوریتم های پیشین اجراشده از سوی موتورهای جست و جوست.

مزیت اصلی الگوی بازیابی بردار این است که بر خلاف الگوی بولین، رتبه بندی اسناد بر حسب ارتباط نتایج با هر پرس وجوی کاربر است. کاربردی بودن بازیابی در این شیوه، به گونه معناداری، بهتر از شیوه بولین است.

منطق فازی

جست و جوی فازی (Fuzzy Searching)، عبارت از فرایندی است که در آن اسنادی مرتبط به اصطلاح جست و جوشده به کاربر عرضه می شود؛ حتی اگر آن نتایج به گونه دقیق مرتبط با خواسته کاربر نباشد. جست و جوی فازی با استفاده از برنامه انطباق فازی صورت می گیرد که در آن فهرستی از نتایج مبنی بر ارتباط را حتی اگر واژگان جست و جو و املای آنها به گونه دقیق منطبق نباشد، به کاربر نمایش می دهد.

برنامه انطباق فازی ممکن است مانند یک کنترل کننده تلفظ واژگان و اصلاح کننده املای صحیح واژگان عمل کند. همچنین، برنامه انطباق فازی ممکن است برای جبران نمودن خطاهایی که ناشی از ورود اصطلاح های نادرست و خطاهایی که از طریق اُ.سی.آر کردن متون رخ می دهد، به کار آید. این برنامه می تواند محتواهایی را که دربردارنده مشتق های گوناگون از یک ریشه اند، بازیابی کند. همچنین، به وسیله برنامه انطباق فازی، مترادفات و مرتبطات اصطلاح ها نیز قابل بازیابی است.

مجموعه های فازی، برای بازیابی اطلاعات مفیدند؛ زیرا این مجموعه ها می توانند «موضوع» مدرک را توصیف کنند.

شکل 5: شکل های گوناگون واژگان در جست و جو در نظر گرفته می شود.

افزون بر آن، از آنجا که در منطق فازی، «زبان طبیعی»(1) به جای متغیرهای عددی برای تشریح رفتار و عملکرد سیستم به کار می رود، می توان برای بازیابی اطلاعات در بانک های اطلاعاتی، به گونه مؤثری از آن سود جست.

کاربران ممکن است وزن هایی را که مرتبط با اصطلاح های جست و جوست، تعیین کنند، که در نمونه های خاص، از الگوی جست و جوی بردار نتیجه داده است. تخصیص این وزن ها از سوی کاربران، هم مشکل و هم مبتنی بر ذهن ایشان خواهد بود. مزیت مفهوم فازی، توانایی برای مشابه سازی واژگان در زبان طبیعی است که اهمیت فوق العاده برای زبان جست و جو دارد.

زبان جست و جوی مبتنی بر منطق دو ارزشی (صفر و یک)، فرصتی برای رفع ابهام پرس وجو ندارد ضمن اینکه قدرت رسایی الگوی بولین نیز محدود است. اراین روی، می توان پیش بینی کرد که موتور جست و جو با استفاده از منطق فازی ضرورت خواهد داشت. در جست و جوی فازی، پاسخ پرس وجوها شامل فقراتی خواهد بود که با معیار دو ارزشی ثابت تناسبی ندارد. بنابراین، قدرت رسایی غیر رویه ای زبان پرس وجوی دربردارنده عناصر منطق فازی افزایش خواهد یافت. (Hynek 2002)

مجاوریابی

مجاوریابی، کارکردی است که کاربر را قادر می سازد تا اصطلاحی خاص را که در فاصله مشخصی از اصطلاح خاص دیگر است، بیابد. جست و جوی مجاوریاب به کاربران این امکان را می دهد تا تعیین کنند دو یا چند واژه چه اندازه به هم نزدیک باشند و در یک سند تا چه فاصله ای باهم یافت شوند. دست کم می توان سه گونه از مجاورت را برشمرد:

مجاورت واژگان: جست و جوی مجاورت واژه ای، رتبه ای را تعیین می کند که همه اصطلاح ها در جست و جوی مجاورت باید در آن ظاهر شوند.
مجاورت جمله: جست و جوی مجاورت جمله، به کاربر امکان می دهد تا برای اصطلاح هایی که درون یک جمله واقع شده اند، کاوش کنند. به خلاف جست و جوی مجاورت واژه ای که مستلزم تعیین میزان دقیق برای جست و جو بود، مجاورت جمله مستلزم این است که همه اصطلاح ها در این جست و جو در یک جمله یافت شوند.
مجاورت بند (پاراگراف): جست و جوی مجاورت بند، این امکان را برای کاربران فراهم می کند که اصطلاح هایی را که در یک بند واقع شدند، جست و جو کنند. در این گونه از مجاوریابی نیز اصطلاح های جست و جوشده باید در یک بند واحد واقع شوند.

شکل 6: نمونه ای از جست و جوی مجاوریابی واژه ای در نرم افزارهای مرکز

کوتاه سازی واژه: کوتاه سازی، وقتی است که املای کامل یک عبارت یا واژه را نمی دانیم. برای جست و جو، آنچه را از واژه که به آن علم داریم، وارد می کنیم و به ازای هر حرف که نمی دانیم، علامت ؟ می گذاریم؛ مثلاً «مش؟ت» برای یافتن عبارت مشقت، یا «مضاع؟ت» برای یافتن عبارت مضاعدت. در برخی از موتورهای جست و جو، به ازای بیش از یک حرف، علامت * گذاشته می شود.

شکل 7: نمونه کوتاه سازی واژگان در جست و جو

جست و جوی زمینه ای (فیلدی): ساختار زمینه ای، این گونه است که جست و جو ممکن است در زمینه های: پدیدآور، عنوان و موضوع، توصیفگر باشد.

برای انجام یک جست و جوی موفق، پایگاه باید دارای اقسام گوناگون فراداده باشد که برخی از آنها چنین اند:

- عنوان منبع؛
- نوع منبع؛
- موضوع منبع؛
- نام پدیدآور؛
- تنالگان (پیوندهای سازمانی)؛
- نام ناشر؛
- سال نشر؛
- نمایه محتوایی (آنچه از محتوا و مضمون منبع خبر دهد).

راه کارهای مکمل در جست و جو

1. امکان مرور نمایه

از عواملی که در بازیابی اطلاعات در کنار جست و جو به کاربر کمک می کند، فهرست هایی هستند که بازنمود محتوایند و کاربر با انتخاب هریک از افراد آن فهرست، به محتوای مطلوب رهنمون می شود. فهرستی از نمایه های موجود در متن که با استفاده از اصطلاح نامه ها استخراج شده است، به کاربر عرضه می شود. این قابلیت، مناسب کاربرانی است که اصطلاح های یک علم یا املای صحیح واژگان را نمی دانند.

این فهرست ها به سبب آنکه دقیقاً به متن مربوط پیوند دارند، از جست و جو دقیق ترند؛ اما چون فهرست ها به گونه معمول شامل همه اصطلاح هایی نیست که کاربر در پی آن است، در کنارش جست و جو ضرورت دارد.

2. رتبه بندی نتایج بازیابی شده

نتایج یافته شده موتورهای جست و جو ممکن است بر پایه ربط به عبارت جست و جوشده، تاریخ و یا بیشتر دیده شده، رتبه بندی و عرضه شود. در برخی موتورهای جست و جو رتبه بندی برپایه رفتارهای اطلاع یابی کاربران و انتخاب های آنهاست. موتور جست و جوی گوگل در آغاز نتایج را بر پایه تاریخ عرضه در وب رتبه بندی می کرد؛ اما اکنون بر اساس تعداد کلیک هایی که کاربران برای کلیدواژگان گوناگون بر نتایج دارند، رتبه بندی صورت می گیرد.

به تازگی مرکز نور نیز نتایج جست و جوهای کاربران را بر پایه بسامد واژگان جست و جوشده، رتبه بندی و عرضه می کند. در نرم افزارهای پیشین، نتایج به ترتیب فهرست کتاب ها و منابع عرضه می شد و هیچ اساس دیگری برای ترتیب و سیاق نتایج وجود نداشت.

اقسام جست و جو بر پایه فنون مختلف

1. جست و جو با اصطلاح نامه

پشتیبانی از یک جست و جو به همراه واژگان مترادف، نیازمند آن است که فرآیند جست و جو مجهز به طیف گسترده ای از اصطلاح نامه ها در حوزه های گوناگون باشد.
چنانچه کاربر مایل باشد که یک جست و جو به همراه واژگان مترادف انجام دهد، آن گاه کلمه مورد جست و جو نخست به فرهنگ واژگان ارسال شده واژه مترادف با آن استخراج می شود و سپس تمام کلمات مترادف استخراج گردیده، تحت یک پیغام به کاربر عرضه می گردد. در این حالت، می توان از وی پرسید که مایل است کدام یک از کلمات مترادف به همراه کلمه مورد جست و جو، به موتور جست و جو فرستاده شود. کاربر می تواند همه یا تعدادی از کلمات مترادف را انتخاب کند. در این نوع جست و جو، کلمه مورد کاوش به همراه مترادف هایش به موتور جست و جو ارسال می شوند و نتیجه آن شامل کلمه مورد جست و جو و لغات مترادف آن خواهد بود.

اصلاح املای اصطلاحات در جست و جو

اگر کاربر املای لغتی را که می خواهد کاوش کند، نداند یا به شکل نادرست وارد نماید، چنانچه جست و جو مجهز به بررسی املا (Spellcheck) باشد، آن گاه برنامه این خطا را تشخیص داده، به کاربر نزدیک ترین کلمه به واژه مورد جست و جو را پیشنهاد می دهد.

در بسیاری موارد، ممکن است که کاربر لغتی را که می خواهد جست و جو کند، فقط شنیده باشد و املای صحیح آن را نداند؛ در این هنگام، وجود یک ابزار بررسی و اصلاح واژگان در جست و جو، کمک فراوانی به کاربر در جهت یافتن سریع تر عبارت مورد نظرش خواهد کرد؛ زیرا او دیگر لازم نیست به دنبال املای صحیح کلمه مورد نظرش بگردد؛ بلکه خود برنامه املای صحیح را به او نشان خواهد داد.

نمونه ذیل نیز به این نکته اشاره دارد:

شکل 8: اصلاح املای واژگان توسط موتور جست و جو

چنانچه کاربر کلمه پیشنهادشده را تأیید کند، آن گاه این کلمه پیشنهادی به موتور جست و جو ارسال گردیده، در حقیقت، جست و جو با این کلمه جدید انجام می گیرد.

2. جست و جوی ریشه یاب

با استفاده از تجزیه و تحلیل های زبان شناختی و بهره گیری از الگوریتم هایی خاص، امکان استخراج ریشه لغات، البته با درصدی خطا وجود دارد. اگر موتور جست و جو از فناوری ریشه یابی (Stemming) استفاده کند، می تواند حیطه کاوش را گسترش دهد و دیگر کلمات هم ریشه را نیز جست و جو کند.

شکل 9: جست و جوی ریشه یاب

3. جست و جو بر پایه دسته بندی محتوا با استفاده از ورودی کاربران

برخلاف این واقعیت که کلیدواژگان همواره توصیف گر خوبی از محتوا نیستند، بسیاری از موتورهای جست و جو هنوز تنها بر کلیدواژگانی که در اسناد وجود دارند و کاوش های مشابه شان را محاسبه می کنند، متکی اند. یکی از واقعیت های اصلی این است که باید برای دقت موتورهای جست و جو کوشش شود. در نمونه های بسیار، پاسخ هایی که این موتورهای جست و جو به کاوش ها عرضه می کنند، مرتبط به اطلاعاتی که کاربر نیاز دارد، نیست؛ هرچند آنها شامل همان کلیدواژگانی اند که در کاوش وجود داشته است.

مواجهه با این نیاز روزافزون برای دقیق تر بودن اطلاعات بازیابی شده سبب گردیده تا راهکارهایی تازه برای این نیاز طراحی گردد. یکی از این رهیافت ها، استفاده از ورودی (لاگ) کاوش کاربران است.

ورودی کاوش کاربران، فرصتی مناسب است برای به دست آوردن بصیرتی برای اینکه موتور جست و جو چگونه به کار می رود و علایق کاربر کدام است؛ زیرا این ورودی ها رکوردهای کاملی از آنچه کاربران در زمانی معیّن کاوش کرده اند، می سازد. این مجموعه ورودی ها بدون آنکه مزاحمتی برای کاربر در حین کار با موتور جست و جو ایجاد کنند، دسته بندی می شود. بسته به اینکه ویژگی های کدام داده دسته بندی شده، این ورودی ها ممکن است دربردارنده مکان (نشانی آی پی) یا نتایجی باشد که در پاسخ به هر کاوش کلیک شده است که به آن، لاگ کلیک شده ها یا داده کلیک شده گویند.

اطلاعاتی که در کاوش های ورودی موجود است، به شیوه های گوناگون به کار می رود؛ مثلاً: برای به دست آوردن متن حین جست و جو، طبقه بندی کاوش ها، استنباط نیت جست و جو، آسان کردن شخصی سازی، آشکارکردن اطلاعات از ورودی کاوش ها، یادگیری درباره فرایند جست و جو و نیز برای اصلاح موتور جست و جو. (Katja Hofmann and et al)

در بررسی ورودی کاربران، بر این فرض تأکید می شود که یک رابطه بین کاوش کاربران و سند انتخاب شده یا سندی که بر روی آن کلیک می شود، مستحکم تر از رابطه کاوش با دیگر اسناد است؛ یعنی اسنادی که کاربر روی آنها کلیک نمی کند. رویکرد خوشه بندی کاوش ها، مبتنی بر این اصول است:

- اگر کاربران با کاوش های گوناگون بر یک سند مشابه کلیک کنند، پس، این کاوش ها مشابه اند؛
- اگر یک مجموعه از اسناد، بیشتر برای کاوش های مشابه برگزیده شوند، پس، این اصطلاحات در این اسناد وجود دارند که تاحدی به اصطلاحات موجود در کاوش مرتبط اند. (JI-RONG WEN; JIAN-YUN NIE; and HONG-JIANG ZHANG, 2002, p. 60)

4. جست و جوی نمونه مبنا

آن گاه که کاربر یک نشر نمونه را برای یافتن نشریات همانند فراهم می کند، جست و جوی نمونه مبنا انجام داده است. رهیافت های گوناگونی برای ارزیابی شباهت میان نشریات وجود دارد؛ مانند:

- نگارمبنا که روابط استنادی نشریات برای محاسبه شباهت به کار می رود؛
- متن مبنا که مشاهده اصطلاحات مشترک میان نشریات به مثابه نماینده شباهت شمرده می شود.

شیوه های مختلف برای به کارگیری رهیافت متن مبنا در مشخص کردن شباهت نشریات استفاده می شود که از آن جمله می توان به ارزیابی شباهت نشریات از طریق کاربرد اطلاعات در تعیین اهمیت اصطلاحات اشاره کرد.

بسامد اصطلاحات، نخستین چیزی است که برای مشخص نمودن اهمیت یک اصطلاح به کار می رود. (SULIEMAN BANI-AHMAD, 2010)

5. جست و جوی مفهومی

جست و جوی مفهومی، عبارت است از توانایی بازیابی اطلاعات مرتبط، بدون نیاز به وجود کلمات مورد جست و جو در متن یا در فیلدهای مورد جست و جو. گاهی نیز جست و جوی مفهومی را این گونه تعریف می کنند: جست و جو برای تقویت صحت و دقت جست و جو با شناخت مقصود جست و جوگر و معنای متنی اصطلاح ها، آن گونه که در پایگاه داده قابل جست و جو عرضه شده است؛ برای ایجاد نتایج مرتبط تر. (wikipedia, 2013)

جست و جوی مفهومی برپایه نظام خبره

برای آنکه کتابخانه های رقمی بتوانند کاربران خود را به همه محتواهایی که مطلوبشان است، به گونه کامل برسانند و در بازیابی محتوای مطلوب هیچ گونه پاسخ غیرمرتبط نداشته باشند، (یعنی پاسخ آنها نمایانگر محتواهای کامل مرتبط با اصطلاح جست و جوشده (Rpresentative) و بازدارنده محتواهایی که مرتبط با اصطلاح جست و جوشده نیستند (Discriminative) باشد) باید موتور جست و جویشان بر پایه نظام های معنایی ساخت یافته باشد.

از راه های دستیابی به جست و جوی مفهومی، استفاده از فنون و شیوه های پردازش زبان طبیعی است. در واقع، جست و جوی مفهومی مستلزم تجزیه محتوای اسناد بر پایه پردازش زبان طبیعی است. فن ویژه که برای این کار استفاده می شود، استخراج موجودیت (Entity Extraction) است که اساساً نام های خاص، مانند: نام اشخاص، مکان ها یا شرکت ها، و دیگر اطلاعات خاص برای اهداف جست و جو را مشخص می کند؛ برای نمونه، اگر پرس وجوی: «همه اسنادی را که در آن «مقام معظم رهبری» آمده، برای من بیاب» را در نظر بگیریم؛ برخی اسناد ممکن است دربردارنده «مقام رهبری»، برخی دیگر «آیت الله خامنه ای»، «سید علی خامنه ای»، «رهبر انقلاب»، «مقام عظمای ولایت» و نظایر آن باشند. جست و جوی مفهومی همه این اسناد را نیز به منزله نتیجه عرضه خواهد کرد.

کاربرد هستی شناسی در جست و جوی مفهومی

برای انجام یک جست و جوی مفهومی، استفاده از هستی شناسی ها بسیار سودمند خواهد بود. هستی شناسی، پایه ای برای دانش به شمار می رود که روابط میان موجودیت ها و اشیا را توصیف می کند. هستی شناسی، قابلیت یکپارچه سازی معنایی و بازنمایی انواع منابع دانش سازمانی را دارد. استفاده از هستی شناسی، اختصاصاً در نظام های مدیریت دانش، ساختار بنیادین و از بنیانی ترین زیرساخت ها در رویکردهای پیشرفته خودکارسازی مدیریت دانش است. هستی شناسی ها، نه تنها آسان کننده اشتراک و استفاده مجدد دانش توسط عاملان هوشمند و رایانه ها هستند، بلکه میان افراد نیز چنین نقشی را ایفا می کنند؛ به طوری که ارتباطات و امکان استفاده مجدد از دانش را میان موجودیت هایی که در زمینه موضوعی، دانششان را به اشتراک می گذارند، فراهم می کند. به این ترتیب، با کمک هستی شناسی ها ماشین به مثابه عامل هوشمند که به همه اجزای یک متن تسلط دارد و به مانند یک انسان متن را می فهمد، در پاسخ به جست و جوها، دقیق عمل می کند و پاسخی جامع و مانع به کاربر می دهد.از دیگر کارکردهای هستی شناسی ها در نظام های مدیریت دانش، ارائه مدلی تصویری از نتایج کاوش در نظام است؛ به طوری که ارتباط میان اشیا نمایش داده شود.
بر این اساس، برای رسیدن به جست و جوی مفهومی باید ماشین با استفاده از هستی شناسی ها و یا دیگر شبکه های مفهومی، به گونه ای مهیا شده باشد که همه تعابیر از یک اصطلاح و همه مدلول های یک مفهوم را تشخیص دهد.

این نظام جست و جو با ترکیب دو فن متفاوت از پرس وجوی صوری، پاسخ هایی عرضه می کند: فن جست و جوی کلیدواژه محور و جست و جوی مفهومی.

در جست و جوی کلیدواژه محور، پرس وجو از کلیدواژه ها و اسنادی تشکیل یافته است که دربردارنده واژه جست و جو شده است. در جست و جوی مفهومی پرس وجو در یک ساختار هستی شناسی (2) وارد می شود و موتور جست و جو همه اسنادی را که در مخزن موجود است، به کاربر عرضه می کند؛ به عبارت دیگر، نظام هستی شناسی که از پیش برای ماشین تعریف شده است، موتور جست و جو را به گونه ای مفهومی می سازد که جست و جو را قادر می کند همه اسنادی را که مرتبط با اصطلاح جست و جو شده اند، به کاربر نمایش دهد.

اسنادی که با استفاده از شیوه های مفهومی بازیابی می شوند، مبتنی بر ساختار مفهومی اسنادند. بانک متون باید تحلیل مفهومی شوند. نظام بازیابی اطلاعات ممکن است با درخت مفهومی ساختار که شامل عناوین گوناگون است، نمایش داده شود.

اقسام جست و جوی مفهومی

1. الگوی جست و جوی کلونی مورچگان

این شیوه، از رفتار جست و جوی گونه هایی از مورچگان الهام گرفته است که در آن مورچگان فارمونی (گونه ای اسید) در زمین فرو می گذارند تا مسیری مطلوب را که باید برای دیگر مورچگان این کلونی دنبال شود، نشانه گذاری کرده باشند. با گذر زمان، این فارمون ها در مسیر کوتاه تر از لانه تا منبع غذا تقویت شده، زودتر از مسیر طولانی تر پیموده می شود. بنابراین، بیشتر مورچگان می توانند کوتاه ترین مسیر را بیابند؛ زیرا کوتاه ترین مسیر با فامون های بیشتر مشخص شده است. (D. Ślęzak et al. (Eds.), 2009, p. 240)

از الگوی کلونی مورچگان، در فروشگاه ها و انواع فعالیت های تجاری و بازرگانی از آن بهره برده می شود. یکی دیگر از فعالیت هایی که می توان از این الگو سود برد، جست و جو در کتابخانه های رقمی است.

اگر از داده های واردشده کاربران، به گونه خودکار، یک الگوی دامنه سازگار بسازیم، کاری مشابه مورچگان کرده ایم. در این شیوه، با استفاده از خرد جمعی کاربران، محتوای کتابخانه ها دسته بندی می شود و جست و جوی تازه کاربران جدید، با رهگیری جست و جوهایی که کاربران دیگر صورت داده اند، انجام می گیرد.

2. جست و جوی مفهومی بر پایه طبقه بندی خودکار

طبقه بندی خودکار متن، به مرتب کردن اسناد در طبقات از پیش تعریف شده به گونه خودکار گفته می شود.

به طبقه بندی متن، دسته بندی متن، طبقه بندی سند و دسته بندی سند نیز می گویند.

فنون مرتبط با طبقه بندی خودکار متن عبارت اند از:

- خوشه بندی متن: گروه بندی متن بر پایه مشابهت هایی که اصطلاح ها باهم دارند؛ یعنی ایجاد دسته هایی از اسناد، بدون هرگونه اطلاعات خارجی؛
- بازیابی اطلاعات: بازیابی مجموعه ای از اسناد مرتبط با پرس وجو؛
- غربالگری اطلاعات: غربال کردن اسناد نامرتبط از طریق تعاملات؛
- استخراج اطلاعات: استخراج بخش هایی از اطلاعات، مانند: نام اشخاص، تاریخ و مکان در اسناد؛
- طبقه بندی متن: هیچ یک از پرس وجو، تعامل و استخراج اطلاعات نیست؛ بلکه تعیین موضوعات اسناد است.

برای دسته بندی اسناد در گروه هایی چون: اقتصادی، ورزشی، علمی و هنری دو رویکرد وجود دارد:

• رویکرد قاعده مدار: نگاشت یک مجموعه از قوانین که اسناد را دسته بندی می کند؛
• رویکرد مبتنی بر یادگیری ماشینی: استفاده از مجموعه ای از اسناد نمونه که به طبقات گوناگون دسته بندی شده اند (داده های یادگیری) و ایجاد خودکار طبقه بندی کننده های مبتنی بر داده های یادگیری.

ملزومات طبقه بندی خودکار متون

1. مطالعه و تدوین استانداردهای لازم به منظور یکسان سازی مدخل های نظام ذخیره و بازیابی اطلاعات در محصولات مرکز

برای این امر، لازم است اقدام های ذیل انجام شود:

- پژوهش در حوزه استخراج روابط، یافتن و تحلیل الگوها به صورت خودکار و سبک شناسی رایانه ای نصوص و منابع دینی با اهداف مختلف، از جمله: سره شناسی متون روایی اسلامی و دسته بندی و طبقه بندی خودکار اطلاعات نرم افزارها و پایگاه ها؛
- پژوهش کاربردی به منظور بهینه سازی فرایند ذخیره و بازیابی اطلاعات و داده ها در منابع نرم افزارها یا پایگاه ها، با محوریت روش های متن کاوی پردازشی.

2. وجود افراد خبره رده بندی برای انجام یادگیری ماشین

افراد متخصص که ردگان دقیق یک متن را بشناسند و بتوانند در نمونه هایی دقیق آن را به ماشین آموزش دهند، برای انجام دسته بندی خودکار الزامی اند.

3. وجود نمونه های مناسب برای آموزش ماشین به شکلی مناسب برای رده بندی خودکار متون

نمونه هایی که در یادگیری ماشین به کاربرده می شوند، باید بسیار دقیق باشند تا نتیجه کار نیز دقیق و درست باشد.

4. تعیین ردگان علوم اسلامی و انسانی به کاررفته در محصولات نور

باید کارشناسان و متخصصانی خبره، رده شناس، موضوعات و زیرموضوعاتی را که در آثار مرکز درباره آن محتوایی عرضه شده، مشخص کنند.

ویژگی های جست و جوی مفهومی

1. تنوع ریخت شناختی نتایج در واژه جست و جوشده

یک موتور جست و جوی مفهومی، همه گونه های ریخت شناختی واژه جست و جوشده مانند: حالت های گوناگون زمان فعل، جمع و مفرد بودن، را در نظر می گیرد و نتایج، با تصریح یا عدم تصریح به جمع و مفرد واژگان یا زمان حال، گذشته و آینده آن، نباید تغییر کند.

2. عرضه مترادفات با معنای صحیح واژگان در نتایج

موتور جست و جوی معنایی، باید مترادفات در متون صحیح و با معنای درست را بیابد؛ برای نمونه، عبارت «نگهبانی کردن»، ممکن است به معنای حفاظت از محیط و فضای ساختمانی به کار رود و نتوان آن را برای انسان به کار برد. بنابراین، مترادف با واژه های «مراقبت» و «پرستاری» نیست و نباید متونی که درباره مراقبت از بیمار یا شخص خاص است، در نتایج جست و جوی واژه «نگهبانی» بیاید.

3. امکان عمومیت بخشی

موتور جست و جوی مفهومی، باید بتواند نتایج را در دسته های عام تر به کاربر عرضه کند؛ برای نمونه، اگر کاربری درباره بیماری خاص کاوش نماید، نتایج عرضه شده به او باید بیماری های مشابه یا هم خانواده آن بیماری را نیز در نتایج بیاورد.

4. پیوند دادن به مفاهیم

جست و جوی مفهومی، باید بتواند مفاهیم را تشخیص دهد و نتایج مرتبط را عرضه کند.

5. امکان پیوند دانش

موتور جست و جو، باید دانش های مرتبط با حوزه واژه جست و جوشده را در نتایج عرضه کند. پیوند مفاهیم و پیوند دانش ها، در اصل مشابه اند؛ اما در ظرفیت اکتسابی متفاوت اند.

6. امکان تشخیص کاوش ها و پرسش های زبان طبیعی

موتور جست و جوی مفهومی، باید تشخیص دهد که یک پرس وجو حالت پرسشی دارد؛ یعنی هنگامی که دارای ادات پرسش مانند: چه، کجا، چگونه، چرا و آیا می باشد یا سیاق آن پرسشی است؛ البته باید توجه داشت که موتور جست و جو با نظام پرسش وپاسخ متفاوت است؛ زیرا در موتور جست و جو متونی که به لحاظ منطقی مرتبط با پرسش است، از منابع گوناگون به کاربر عرضه می شود؛ اما در نظام پرسش وپاسخ، یک پاسخ و در حدود یک بند یا یک خط عرضه می گردد.

7. امکان عرضه مرتبط ترین بخش از یک کتاب، یا مرتبط ترین بند از یک سند به کاربر

به خلاف موتورهای جست و جوی معمولی که گزینه های پرس وجو به کل یک سند تعلق می گیرد، انتظار می رود موتور جست و جوی معنایی بسیار بهتر باشد و نتایج پرس وجو نه به اسناد، بلکه به بخش های مرتبط آن سند نیز تعلق گیرد. این کار سبب می شود کاربر مجبور نباشد وقتی آن سند را یافت، برای یافتن بخش مرتبط با پرس وجو، بار دیگر آن سند را جست و جو کند. در واقع، یک مرحله زاید، از فرآیند جست و جو حذف می شود.

ویژگی های جست و جوی مؤثر

جست و جوی مناسب و خوب طراحی شدهِ کارآمد، در بازیابی اطلاعات کاربر تأثیر بسیاری دارد. یک جست و جوی کارآمد در کتابخانه رقومی، باید دست کم ویژگی های ذیل را داشته باشد:

- امکان جست و جوی محتوای متنی کتاب؛
- قابلیت جست و جوی محتوای غیرمتنی کتاب، نظیر: تصویر، نمودار و عکس؛
- امکان جست و جو در قسمت های اضافی شدده به وسیله کاربر مانند یادداشت ها و خط کشیده ها؛
- امکان جست و جوی پیشرفته؛
- متمایز نشان دادن موارد یافت شده با استفاده از رنگی کردن. (غائبي، تاجداران و فهيميفر، 1389, 725-726)

عوامل تأثیرگذار بر جست و جوی اطلاعات

جست و جوی اطلاعات، با انواع گوناگون عوامل متأثر می شود که در ذیل به برخی از آنها اشاره خواهد شد:

1. هدف و وظیفه کاربر

شناخت هدف کاربران در جست و جو، نقش مؤثری در طراحی موتورهای جست و جو ایفا می کند؛ اینکه کاربری که وارد محیط کتابخانه رقمی می شود، قصد دستیابی به چه گونه ای از محتوا را دارد یا از یک متن خاص در پی کدام قسم از موضوعات است؛ برای نمونه، کاربر هدف نرم افزاری مانند جامع فقه اهل بیت(ع)، در جست و جوی یک موضوع، آیا فتاوای موجود درباره آن را می خواهد یا استدلاهای فقهی را؟

2. ساختار دانش کاربر

از عوامل تأثیرگذار بر فرایند جست و جو و بازیابی اطلاعات، ویژگی های فردی کاربر و مهارت های اطلاع یابی اوست. کاربران گوناگون با دانش و تجربه مختلف در پایگاه های کتابخانه رقمی، بانک های اطلاعاتی و وب، به جست و جو می پردازند. کاربران مختلف نتایج گوناگونی از فرایند جست و جو در وب به دست می آورند و تفاوت عملکرد جست و جوی آنها از عوامل گوناگونی متأثر است که از جمله می توان به تجربه آنها در جست و جو اشاره کرد. نتایج پژوهش ها، حاکی از آن است که میزان تجربه جست و جوی کاربران به شکل قابل توجهی بر موفقیت جست و جوی آنان مؤثر است. معمولاً کاربران باتجربه نتایج بهتر و سریع تری از جست و جوی خود کسب می کنند؛ به بیان دیگر، نتایج پژوهش های قبلی نشان داده که معمولاً ارتباط معناداری میان میزان تجربه و احتمال موفقیت جست و جو وجود دارد.

تجربه کاربر، ممکن است تجربه موضوعی یا تجربه در کار با رایانه باشد. در واقع، هر دو نوع آن، مهم است.

تسلط بر موضوع جست و جو یا دانش موضوعی نیز از عوامل مهم در این زمینه است. معمولاً کاربران وب اطلاعات مربوط به حوزه تخصصی خود را راحت تر می یابند؛ زیرا با واژه های تخصصی آشنایند و منابع موضوعی رشته خود را بهتر می شناسند.

یکی دیگر از موضوعاتی که به تازگی بیشتر مورد توجه محققان، به ویژه در مطالعات کاربرمدار قرارگرفته، همبستگی میان نوع الگوهای فکری کاربران با انتخاب رفتارهای اطلاع یابی توسط آنهاست.

بر این اساس افراد به گروه های مختلف تقسیم می شوند و رابطه میان نوع الگوهای فکری آنها و رفتارهای اطلاع یابی که برمی گزینند موردمطالعه قرار می گیرد. در این مطالعات کاربران منابع رقمی بر اساس میزان تأثیری که شغل یا زمینه تحصیلی آنها بر نوع جست و جو آنها می گذارد، به گروهای مختلف مثل کاربران مستقل از محیط و وابسته به محیط یا زمینه نگر و فرانگر تقسیم می شوند و روش های بازیابی آنها بررسی می شود. (منصوریان [بیتا])

شکل 10: فرانمای فرایند بازیابی اطلاعات

پی نوشت ها:

1. زبان طبیعی، در مقابل زبان نمادین یا زبان برنامه نویسی که شامل کدها و اسکریپت هاست، به کار می رود و عبارت از زبانی است که انسان ها به وسیله آن با هم ارتباط برقرار می کنند و از مقاصد یکدیگر آگاه می شوند.
2. هستی شناسی، مجموعه ای از مفاهیم، مانند: اشیا، رویدادها و روابط است که به شیوه ای معیّن شده اند تا واژگانی به هم وابسته برای تبادل اطلاعات و بازیابی دقیق ایجاد کنند.

منابع: