ره آورد نور

Skip to content

بررسی وب مفهومی در محصولات مرکز تحقیقات کامپیوتری علوم اسلامی(نور)

سه شنبه, 31 شهریور 1394 ساعت 14:56

نویسنده:

مصطفی علیمرادی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اندازه قلم کاهش اندازه قلم افزایش اندازه قلم
چاپ
پست الکترونیکی

این مورد را ارزیابی کنید

1
2
3
4
5

(0 رای‌ها)

چکیده

درست همان گونه که جامعه صنعتی قرن 19 و 20 مبتنی بر منابع طبیعی بود، شاید بتوان جامعه کنونی را بر اطلاعات استوار دانست. همچنان که فقدان منابع در جامع صنعتی مانع از پیشرفت آن می شد، عدم تبادل اطلاعات، راه پیشرفت را در جامعه اطلاعات ناهموار می کند. از همین روی، در این روزگار، تبادل اطلاعات برای حوزه های بسیاری از جامعه، اهمیت اساسی دارد؛ به گونه ای که شرکت ها محصولات خود را در فروشگاه های برخط معرفی کرده، سفارش های الکترونیک را با متصدیانش تبادل می کنند؛ در حوزه پزشکی، اطلاعات کلی بیماران پزشکان، بیمارستان ها و بیمه های سلامت متبادل می شود؛ مدیران عمومی اطلاعات مالیاتی را از کارمندان دریافت نموده، خدمات برخط را به شهروندان ارائه می کنند.

فناوری های جدیدی که از تبادل سریع و دقیق اطلاعات حمایت می نمایند، به منزله پاسخی به این اهمیت فزاینده تبادل اطلاعات رو به افزایش است. نمونه بارز چنین فناوری جدیدی، وب مفهومی نام دارد. فناوری معنایی، معضل پیچیدگی اطلاعات را با فراهم کردن ملزومات عرضه و پردازش اطلاعات حل می کند. در این مقاله، به بررسی وب مفهومی می پردازیم.

کلیدواژگان: وب مفهومی، وب نسل سوم، وب داده، میان کنش پذیری، چارچوب توصیف منبع، هوش مصنوعی، بازیابی دقیق اطلاعات.

مقدمه

اینترنت از زمان عمومی شدنش در دهه 90 تاکنون، ابزاری برای تبادل داده ها بوده است. شرکت ها، سازمان ها و افراد مختلف اطلاعات و داده های خود را با مقاصد گوناگون همچون: تجاری، اجتماعی و علمی، برای انتقال به دیگران در فضای اینترنت قرار می دادند. باگذشت زمان، فضای وب به انباری بزرگ از اطلاعات گوناگون تبدیل شد؛ چنان که اینترنت را دنیایی آشفته از اطلاعات خواندند. معضل بزرگی که پیامد این دنیای درهم وبرهم دانسته می شود، بازیابی اطلاعات است. حجم داده ها در این فضا به اندازه ای فراوان گشته که جست وجو برای اطلاعاتی درباره یک موضوع یا مطلب، به یافتن مورچه سیاه بر سنگ سیاه در شب سیاه می ماند.

از سوی دیگر، وب کنونی از اسناد و صفحات وب بسیار تشکیل شده است و هر سند وبی در شکل جاری خود (برچسب های اچ.تی.ام.ال و متون طبیعی)، فقط دستورهای ماشین را درباره چگونگی عرضه اطلاعات در یک مرورگر برابر دیدگان انسان انجام می دهند. بنابراین، ماشین ها هیچ ایده ای درباره معنای اسنادی که نمایش می دهند، ندارند؛ به این معنا که هر سندی در وب برای ماشین، دقیقاً یکسان است. رایانه هیچ راهی برای فهم اسناد محتوای خود ندارد و ممکن نیست هیچ تصمیم هوشمندی درباره این اسناد اتخاذ کند. همچنین توسعه گرها نیز نمی توانند این اسناد را در مقیاس جهانی پردازش کنند؛ به گونه ای که برای همه به طور یکسان قابل استفاده باشد. موتورهای جست وجو نیز هرگز به گونه رضایت بخشی عمل نمی کنند. موتورهای جست وجوی سنّتی، فقط بر انطباق کلیدواژگان تمرکز دارند و به همین سبب، کاربران با نتایج نامرتبط بسیاری مواجه می شوند. ازاین روی، وجود موتورهای جست وجو نیز برای بازیابی دقیق اطلاعات کارآمد نیست؛ زیرا استفاده از این ابزار کاوش، ریزش کاذب اطلاعات یا نتایج ناخواسته بسیار را سبب می شود.

اگر اطلاعات فراوان وب در دسترس قرار نگیرد و از دید کاوشگران پنهان ماند، هیچ تفاوتی با نیستی شان ندارند. از همین روی، شاید بتوان ادعا کرد سازمان دهی اطلاعات موجود در وب، اهمیتی همپایه خود اطلاعات دارد. به همین سبب، کارشناسان برای نظام مندکردن اطلاعات و محتوای وب، کوشش بسیار می کنند و تاکنون راه حل های بسیاری در این زمینه ارائه شده است. یکی از راه حل های ممکن که به تازگی عرضه شده، اصلاح این اسناد وبی، مانند افزودن فراداده به این اسناد است که با کاربرد آن، رایانه قادر به فهم معنای این اسناد شود. (Yu, 2007)

به فرض اینکه این اصلاح عملی باشد، می توان ابزار و عامل هایی را که در وب برای پردازش اسناد در مقیاس جهانی اجرا می شوند، به کاربست و به نسل تازه ای از وب رسید. کارشناسان، این وب جدید را وب نسل سوم یا وب مفهومی نامیده اند.

وب مفهومی، در پی ارائه پاسخی دقیق به پرسش های کاربران در متن وب مفهومی است. وب جاری، مجموعه ای از پیوندها و منابع، و فقط نحوی و ساختاری است و میان کنش پذیری مفهومی را در سطح بالا ندارد. در واقع، وب جاری، بر کلیدواژگان و الفاظ مبتنی است و هیچ درکی از معنای یک جست وجو ندارد؛ حال آنکه در وب مفهومی، اطلاعات دارای معنای خوب تعریف شده و قادر به میان کنش پذیری مفهومی در سطح بالایند. جست وجوها نیز مبتنی بر مفهوم بوده، قادر به ارزیابی دانش در متن است. بر همین اساس، از طریق رهیافت مفهومی به وب، می توان نتایج جست وجوها را بسیار دقیق کرد و با هیچ نتایج ناخواسته ای نیز مواجه نشد. در ادامه، به معرفی وب مفهومی خواهیم پرداخت.

دستیابی به وب مفهومی، مستلزم افزودن فراداده مفهومی به منابع اطلاعات است. با این کار، ماشین خواهد توانست به گونه ای مؤثر، داده های مبتنی بر اطلاعات مفهومی را که آن ها را توصیف می کند، پردازش کند. وقتی اطلاعات مفهومی کافی، به همراه داده ها وجود داشته باشد، رایانه می تواند از داده ها، اطلاعاتی استنتاج کند؛ یعنی بفهمد منبع داده چیست و چگونه آن داده با داده های دیگر مرتبط است.

در وب مفهومی، فرض این است که وب از داده های غیرمتجانس آگاه است و برای کاربرد و فهم داده ها نیازی به برنامه یا نرم افزار خاص ندارد. در واقع، انتظارات از وب مفهومی تا آنجاست که با به کارگیری آن نه تنها رایانه ها، دستگاه تلفن همراه، خودپردازها و نظایر آن، بلکه همه وسایل خانگی اطراف ما به صورت تعاملی و دوجانبه با وب ارتباط منطقی خواهند داشت؛ به گونه ای که پرده ها اخبار هواشناسی را دریافت کنند و متناسب با وضعیت آب وهوا و روشنایی، باز یا بسته شوند، آینه ها اخبار روز را، درحالی که ما مقابل آن ها مسواک می زنیم به ما عرضه کنند، یخچال خانه قابلیت آن را داشته باشد که بتوانیم با آن ارتباط برقرار کنیم و از کمبود مواد غذایی داخل آن مطلع شویم و بر آن اساس، کالا خرید کنیم و نظایر آن.

همچنین، وب مفهومی را می توان فضایی از گونه محاسبات هوشمند ماشینی (هوش مصنوعی) تصور کرد که در آن تمامی کتاب ها، کتابخانه ها، دانش ها، دانشنامه ها و دانشگاه ها یا پایگاه های دانش به شکلی معناگرا و با توانایی درک مفهوم همدیگر، در کنار هم قرار خواهند گرفت.

اهمیت وب مفهومی در حوزه های مختلف از مدیریت اطلاعات را می توان این گونه برشمرد:

1. دسترسی بهتر: بزرگ ترین مانع در دسترس پذیری اطلاعات در یک پایگاه دادگان، آگاه نبودن نظام بازیابی از محتواست. در وب مفهومی، همه پایگاه های دادگان از محتوای خود آگاه اند. ازاین روی، دسترسی به اطلاعات دقیق، سریع و به گونه جامع و مانع خواهد بود.

2. تبادل، میان کنش پذیری و یکپارچه سازی: میان کنش پذیری به معنای قادر ساختن عوامل، خدمات و برنامه های گوناگون برای تبادل اطلاعات، داده و دانش به شیوه ای بامعنا در وب یا در یک پایگاه دادگان است. برای میان کنش پذیری، نیاز به اشتراک گذاری برخی واژگان شناخته شده به شکل دستی یا ایجاد انطباق یا نگاشت هایی (Mappings) میان واژگان گوناگون است. یکی از اهداف آر.دی.اف و اُ.دابلیو.ال، ایجاد ابزارهایی برای تعیین چنین نگاشت هایی است.

وب معنایی و زبان های وب معنایی، هم ساختار اجتماعی و هم ابزارهای فنی برای سهولت میان کنش پذیری معنایی را فراهم می کند. بنیادی ترین عنصر که وب معنایی برای میان کنش پذیری دارد، مجموعه ای از زبان های استانداردشده است. یکی از راه های رفع مانع برای میان کنش پذیری، استفاده از چارچوب های متنوع عرضه دانش برای نمایش اطلاعات است. مسئله مطرح در این جا، آن است که بسیاری از این زبان ها فاقد نحو تعیین شده صریح (واژگان و گرامرشان) و معنای قصدشان هستند. چنین تخصیص هایی شاید در برخی نمونه ها برای یک سازمان غیرضروری باشد و کاربران تازه وارد می توانند ساختار نحو و تفسیر قصدشده را از کاربران باتجربه دریافت کنند. اگرچه در متن وب معنایی، این الگو ناکافی است، ولی عوامل خواهان به اشتراک گذاری اطلاعات باید نخست فهم عمومی از محتوای تفاسیر را به اشتراک بگذارند.

فعالیت های وب مفهومی، در کنسرسیوم وب جهان گستر پیشرفت های بسیاری درباره مسائل میان کنش پذیری از طریق معرفی توصیه های صوری برای استانداردهای ایکس.ام.ال مبتنی بر زبان هستی شناسی، مانند آر.دی.اف، فرانمای آر.دی.اف و اُ.دابلیو.ال، داشته است. نحو و معنای این زبان ها گشوده و استانداردهای خوب تعریف شده است. (Ushold and Menzel, 2005)

3. تحلیل داده: وب معنایی، زمینه ای بسیار مناسب برای تحلیل معنا و نحو دادگان به دست می دهد و با ایجاد تحلیل های مفهومی، تبادل و میان کنش پذیری را آسان می کند.

اجزای سازنده وب مفهومی

وب مفهومی، از ابزار و استانداردهایی تشکیل شده است که عبارت اند از:

ایکس.ام.ال (XML)؛
فرانمای ایکس.ام.ال (XML schema (XMLS))؛
آر.دی.اف (RDF)؛
فرانمای آر.دی.اف (RDF schema (RDFS))؛
اُ.دابلیو.ال (OWL).

این استانداردها، اجزای تشکیل دهنده مختلف وب مفهومی اند؛ به این گونه که ایکس.ام.ال زبانی استاندار برای نمایش و مبادله مستندات است که مبادله اطلاعات را آسان می کند؛ اما ایکس.ام.ال تنها بر نحو مستندات توجه دارد؛ درحالی که یک سند ممکن است در پایگاه های مختلف، تفاسیر متفاوت داشته باشد، و این اصلی ترین بحث در یکپارچگی اطلاعات در وب است. به همین منظور، کنسرسیوم وب جهان گستر، زبان جدیدی به نام آر.دی.اف را معرفی کرده است. آر.دی.اف، استانداردی مبتنی بر ایکس.ام.ال است که برای توصیف منابع وب به کار می رود.

آر.دی.اف، زبانی مشخص برای بیان نحو و معناست و برای پاسخ به این مسئله که چه موجودیت هایی برای مشخص کردن معنا لازم است، و چگونه انجمن ها و گروه های مختلف می توانند این تعاریف مشترک را بپذیرند، هستی شناسی طرح شده است. هستی شناسی، مجموعه ای از تعاریف رسمی برای مفاهیم یک حوزه و روابط میان آنهاست. هستی شناسی، به همراه نمونه هایی که برای طبقاتش تعریف شده، یک پایگاه دانش برای حوزه مربوطه تشکیل می دهد.

فرآوری دادگان و فراداده های مرکز نور بر پایه اصول وب مفهومی

مرکز تحقیقات کامپیوتری علوم اسلامی که با هدف استفاده از فناوری اطلاعات و ارتباطات برای پژوهش، آموزش، و تولید نرم افزارها و پایگاه ها پژوهشی ـ آموزشی، فرهنگی و تبلیغی تأسیس شده، تاکنون فعالیت های موفقی در تولید نرم افزار و راه اندازی پایگاه های اینترنتی داشته است. قابلیت هایی که بسیاری از نرم افزارها برای سهولت کار محققان در جست وجو و رسیدن به نتایج دلخواه انجام داده اند، بسیار مطلوب و مفید بوده است. از این نمونه ها، می توان به قالب ها (فرمت ها)ی عمومی و تخصصی اشاره کرد. در این قالب ها که بر اساس برنامه ای خاص ارائه می شود، بر اساس استانداردهای تعریف شده، شیوه نمایش اجزای مختلف یک صفحه برای رایانه تعریف می شود. این نوع قالب ها، قابلیت تعریف رمزهای جدید برای هر کتاب و شیوه نمایش را دارند و منابع را توصیف نیز می کنند. بر این اساس، شاید بتوان این قالب ها را با ایکس.ام.ال مقایسه کرد.

همچنین، این قالب ها جزئی ترین اطلاعات منابع را نیز توصیف می کنند؛ به گونه ای که می توان بر اساس آن جزئی ترین اطلاعات را درباره یک کتاب خاص توصیف کرد؛ برای نمونه، درباره کتاب نهج البلاغه اطلاعاتی مانند: شماره خطبه، نامه، کلمات قصار، غرائب در نسخه های گوناگون، شرح لغات، منبع و متن کلام سید رضی ارائه می شود. همچنین، در این قالب ها به گونه ای غیرمصرح، روابط این اجزای اطلاعاتی نیز مشخص می شود؛ به این گونه که به شکل تلویحی، ارتباط فقرات جزئی با یکدیگر را نیز نشان می دهد. از این لحاظ، شاید بتوان شباهت کمی بین این قالب ها با قالب آر.دی.اف ملاحظه کرد؛ اما در این قالب ها بیان ارتباط روشن نیست و جهات ارتباط نیز معین نشده است.

به این ترتیب، محققان و کارشناسان مرکز تحقیقات کامپیوتری علوم اسلامی، محتوای کتب اسلامی را فرآوری و غنی سازی کرده اند.

با وجود چنین قابلیت ها و داده هایی، سامان مندکردن ارتباط میان این مفاهیم و داده ها برای دردسترس تربودن محتوای نرم افزارهای مرکز بسیار مفید خواهد بود. اهمیت کاربرد عناصر مفهومی در نرم افزارهای تولیدشده مرکز، افزون بر بازیابی سریع و آسان محتوا، برای ساختارمندکردن حوزه های مختلف دانش اسلامی و ارتباط نظام یافته میان سایر نرم افزارها و حتی محتوای پایگاه های مرکز نیز کارایی خواهد داشت.

رهیافت مفهومی به پایگاه های مرکز نیز بسیار راهگشا خواهد بود. وجود گنجینه های ارزشمند در پایگاه مجلات تخصصی، پایگاه کتابخانه دیجیتال و پایگاه حوزه، و نیاز جامعه به محتواهایی از این دست، شاید ضرورت چنین رویکردی را بطلبد. غنی سازی محتوا و افزودن فراداده به اطلاعات این پایگاه ها، دسترسی به این گونه داده های ارزشمند را آسان و سریع نموده، کاربران را با مجموعه جامع از آنچه درپی آن اند، روبه رو می کند.

اقدام های لازم برای مفهومی کردن محتوا در محصولات رومیزی و برخط مرکز

با توجه به آنچه پیش تر گفته شد، فرآوری محتوا و نظم بخشیدن به آن و در نتیجه حرکت به سوی مفهومی کردن داده ها، ضروری به نظر می رسد. برای رسیدن به این هدف، سازوکارهایی باید صورت گیرد که در ذیل به اختصار به برخی از آن ها اشاره می شود.

1. تهیه و تدوین یک هستی شناسی برای داده های مرکز: برای این کار باید در داده های موجود مطالعه شود و خصوصیات صوری از اصطلاحات و واژگان و اوصاف و ویژگی های آن ها در حوزه هایی که مرکز درباره آن ها اطلاع رسانی می کند، فراهم آید و سلسله مراتب رده بندی ها و دسته بندهایی از این داده ها عرضه شده، روابط بین آن ها تعیین گردد. در بسیاری از نرم افزارهای مرکز، واژگان و اصطلاحات و رده بندی ها موجود است و فقط نیاز به توصیف ویژگی ها و تبیین روابط میان آن ها وجود دارد؛ اما در پایگاه ها چنین کاری با محتوا صورت نگرفته است.

2. تدوین زبانی برای توصیف این منابع؛ به گونه ای که رایانه امکان شناخت و پردازش اطلاعات را داشته باشد: به این طریق، رایانه می تواند بر اساس قواعدی که برای آن تعریف می شود، اطلاعات جدیدی استنتاج کند و با توجه به نیاز کاربر، نتایج دلخواهی، با توجه به داده های موجود، برای او استنباط کند.

در شکل1، نرم افزار نورالفقاهه را مشاهده می کنیم که در آن گزینه ای با عنوان «نمایه های مرتبط» وجود دارد و می توان با انتخاب آن، مرتبطات واژگان جست وجوشده را مشاهده کرد. در این نرم افزار، جهات ارتباط معین نیست؛ یعنی مشخص نشده ارتباط واژه «المهر المسمی» با «الصداق الکلی» از چه روست.

شکل 1: نظام مرتبطات و مترادفات در برنامه های مرکز

در وب مفهومی برای هر واژه، طبقه، زیرطبقه، وصف و افراد مشخص می شود؛ برای نمونه، عبارت «المهر المسمی» را می توان به این گونه تعیین کرد:

طبقه: سنّت های دینی ـ فرهنگی، از سنّت های رسول خدا(ص)؛
زیرطبقه: ازدواج؛
زیرطبقه: مقدمات ازدواج؛
وصف: حقوق زن؛
افراد: مهریه؛
انواع: مهر مسمی.

نمونه هایی از هستی شناسی ها در شکل ذیل مشاهده می شود.

شکل 2: نمونه هستی شناسی

معرفی موتورهای جست وجوی مفهومی

1. موتور جست و جوی وب مفهومی (اس.دابلیو.اس.ئی)(1):موتور جست وجویی است برای وب آر.دی.اف در وب، که خدماتی مشابه آنچه موتورهای جست وجوی فعلی برای وب اچ.تی.ام.ال ارائه می کند، ارائه می دهد. این سیستم، وب مفهومی را کاوش و نمایه نموده، یک رابط کاربری با کاربرد آسان فراهم می کند که از طریق آن کاربران می توانند اطلاعاتی را که در پی آن اند، بیابند. به سبب هماهنگی مفهومی آر.دی.اف و دیگر زبان وب مفهومی، قابلیت بازیابی جست وجو و اطلاعات اس.دابلیو.اس.ئی به صورت بالقوه بسیار قدرتمندتر از موتورهای جست وجوی فعلی است. اس.دابلیو.اس.ئی داده های آر.دی.اف را از منابع بسیار، شامل فایل های او.دابلیو.ال، آر.دی.اف و آر.اس.اس نمایه می کند.

شکل 3: موتور جست وجوی اس.دابلیو.اس.ئی

2. سیندیس(Sindice)(2): این موتور جستجوی مفهومی، نمایه برای اسناد وب مفهومی ساخته شده در توده فشرده ای از داده ها جست وجو می کند. سیندیس، وب مفهومی را نمایه می کند و می تواند منابع یو.آر.آی، آی.اف.پی یا کلیدواژگان را یادآوری نماید. این موتور جست وجو مفهومی، به تازگی بیش از دو میلیون سند آر.دی.اف را نمایه می کند.

شکل 4: موتور جست وجوی سیندیس

3. واتسون(Watson)(3): این موتور جست وجوی مفهومی، کاربران را به جست وجو از طریق هستی شناسی ها و اسناد مفهومی با استفاده از کلیدواژگان مجاز می کند. در عین حال، کاربران می توانند مجموعه ای از واژگان (مانند «گربه، سگ، خانم و پیر») را وارد کنند و به فهرستی از یو.آر.آی های اسناد مفهومی که در آن این کلیدواژگان به مثابه شناسنده یا در طبقات، اوصاف و افراد فراهم می کند، دست یابند. همچنین، می توان از ویلدکاردها نیز در کلیدواژگان استفاده کرد.

شکل 5: موتور جست وجوی واتسون

4. فالکنز(Falcons)(4): موتور جست وجوی مبتنی بر کلیدواژگان برای وب مفهومی است که مجهز به مرور قابلیت هاست. فالکنز، جست وجوهایی بر پایه کلیدواژه را برای یو.آر.آی هایی که مشخص کننده اشیا و مفاهیم (طبقات و ویژگی ها) در وب مفهومی است، فراهم می آورد. این موتور جست وجو همچنین، خلاصه ای برای هر چیز (شیء، طبقه، ویژگی) فراهم می کند تا فهم سریع را درباره آن ارائه دهد. در حال حاضر، این پایگاه هفت میلیون سند آر.دی.اف را نمایه می کند و کاربران را به جست وجو از طریق 34566728 شیء مجاز می کند.

شکل 6: موتور جست وجوی فالکنز

5. جست وجوی وب مفهومی(Search Web Semantic)(5): این پایگاه، موتور جست وجویی است که دقیقاً اطلاعاتی درباره وب جمع آوری می کند. این موتور جست وجو رابط کاربری جست وجوی استانداردی فراهم می کند که قادر به توصیف اطلاعاتی است که مردم به آن نیاز دارند. در موتورهای جست وجوی سنّتی، شما با واردکردن واژه های «مرتضی» و «مطهری» برای دریافت اطلاعاتی درباره یک شخص جست وجو می کردید که ممکن است نتایجی را از نقل های کتابشناختی مرتب کند؛ اما با موتور جست وجو وب مفهومی، کاربر می تواند نام نخست و نام خانوادگی واقعی اشخاص را وارد کند و اطلاعاتی دقیق به دست آورد و نیز جست وجوی دیگری کند و مقالاتی را که این شخص نوشته، دریافت کند. کاربران می توانند جست وجوهای خود را با استفاده از واژگانِ خوب تعریف شده توصیف کنند. فقط اطلاعاتی که دقیقاً به جست وجوی کاربر باز می گردد، در نتایج جست وجو آورده می شود. این پایگاه، در آغاز راه است و در نسخه آزمایشی ارائه شده است.

6. هاکیا(Hakia)(6): شرکت فناوری کاوش مفهومی است که در سال 2004م راه اندازی شد. هاکیا اکنون راه حل های جست وجوی مفهومی را برای رویارویی با چالش های کاربران در بازرگانی مفید و کاستن هزینه ها به کار می برد. هاکیا برای برخی کاوش ها، عموماً جستارهای عمومی و آن ها که کمی مبهم اند، تاریخچه و سوابقی ایجاد کرده است. اینها درگاهی به همه انواع اطلاعات مرتبط با این موضوع است. هر تاریخچه ای، نمایه ای از پیوندها به آن اطلاعات عرضه شده در صفحه برای ارجاع سریع دارد.

عناصر این سوابق، بسیار با ماهیت کاوش منطبق خواهد بود؛ مانند: زندگی نامه، کتابشناسی، دوره زندگی، برای یک شخص، دولت، اقتصاد، فرهنگ. سوابق برای جست وجوی یک موضوع بسیار سودمندند. هاکیا جست وجوهای مرتبط را نیز به کار می گیرد که برای تحقیق، بسیار مفید است؛ برای نمونه، اگر درباره باراک اوباما جست وجویی صورت گیرد، هاکیا پیشنهادهایی درباره مایکل اوباما، هیلاری کلینتون، دموکراسی، سارا پالین و یا جان ماک کین، ارائه می کند. در این موتور جست وجو، نتیجه در یک دسته بندیِ از پیش تعیین شده به کاربر ارائه می شود؛ به این گونه که نتایج در قالب های گوناگون: وب، گالری، پاب مد، اخبار، وبلاگ، تصاویر و فیلم ارائه می شود.

شکل 7: موتور جست وجوی هاکیا

7. سنس بُت(SenseBot)(7): موتور جست وجویی است که نتایج کاوش را به خلاصه فشرده در بالای نتایج جست وجو تلخیص می کند. این موتور جست وجو می کوشد تا آنچه صفحه نتایج درباره آن است، بفهمد. برای این منظور، از کاوش متن برای تحلیل صفحات وب و معرفی کلیدواژگان مفهومی ـ معنایی آن استفاده می کند.
روشی که سنس بت به کاربران کمک می کند، این است که درک بهتر از آنچه واژگان مرتبط درباره آن است، به کاربر می دهد. در این شیوه، کاربر نباید صفحات وب فراوانی را بگردد و نتایج را با تعاریف کارشناسی (یا مانند آن) غیرقابل درکی زیر و رو کند. این خلاصه، به منزله چکیده ای که در بالای صفحه نتایج ارائه می شود، آمیزه ای از با معناترین و مرتبط ترین جنبه های نتایج جست وجوست و دربردارنده ابر برچسب هایی است که جست وجوی کاربر را به دیگر مفاهیم وابسته مرتبط می کند و فهرستی از جملات را برای تعریف یا توصیف نتایج جست وجو که برای کاربر به کار می آید، ارائه می کند. این جملات، به منابع پیوند دارند.

شکل 8: موتور جست وجوی سنس بُت

8. پاورست(Powerset)(8): این پایگاه در حال حاضر، موتور جست وجوی عادی نیست و در نمونه مجموعه های کوچک تر و به گونه مرتبط ساخته شده، خوب عمل می کند. این فناوری، نگاهی قابل فهم از چنین اطلاعاتی ارائه می دهد. کاربر می تواند این فناوری را در ویکی پدیا و پاورست که به گونه متفاوتی گوی سبقت را ربودند، بیازماید؛ یعنی ساختارمندکردن اطلاعات و عرضه آن به شیوه ای که برای مقاصد تحقیقاتی، در موتور جست وجوی ویکی پدیا بسیار پیشرفته است.

کاربر می تواند کلیدواژگان، عبارت ها یا پرسش های ساده را در این نوار جست وجو وارد کند. در صفحه نتایج جست وجو، پاورست بیشتر به گونه مستقیم به پرسش ها پاسخ می دهد و همچنین، اطلاعاتی از مقالات مختلف را نیز پیشنهاد می کند. «Factz»، نواری است که معمولاً در صفحه نتایج جست وجو ظاهر می شود و عبارت از مجموعه ای از پیشنهادها برای ارجاع کاوش بر مبنای اطلاعات در دسترس است؛ برای نمونه، وقتی من برای واژه «اوباما» جست وجو می کنم، پایگاه پاورست پیوندهایی به اطلاعات درباره آنچه اوباما درباره رابرت گاس، خاور میانه و پاکستان گفته، عرضه می شود. با انتخاب این پیوندها، جعبه ای با همان واژگان که اوباما گفته و پیوند به مقالاتی که در آن این نقل قول ها آمده، در صفحه نتایج ایجاد می شود.

شکل 9: موتور جست وجوی پاورست

9. دیپ دایو(DeepDyve)(9): ابزار تحقیقاتی قدرتمند حرفه ای که به گونه رایگان به عموم عرضه می شود. این پایگاه، موتور جستاری است که کاربر را برای دسترسی به محتوای کارشناسی شده از «وب عمیق» مجاز می کند. این بخش از اینترنت، به وسیله موتورهای جست وجوی سنتی نمایه نمی شود.

محققان، دانشجویان، حرفه ای های فنی، کاربران تجاری و مشتریان دیگر اطلاعات، می توانند ویکی پدیا و یا دیگر منابع وب عمیق را در این طبقه بندی ها بکاوند؛ مانند: علوم زیستی و پزشکی، علوم فیزیکی، علوم انسانی و علوم اجتماعی، بازرگانی و اقتصاد، ثبت اختراعات، قضا، انرژی و فناوری پاک، آی تی و مهندسی.

موتور جست وجوی پایگاه های تحقیقاتی، بیشتر بر زبان بولین یا رده بندی رمزگذاری سخت تکیه می کنند که سرآغازی را تشکیل می دهد و آن ها را برای استفاده، دشوار یا حتی غیرقابل دسترس می سازد؛ اما نمونه های دیپ دایو، پیشرفته و در عین حال با رابط کاربری ساده، این منابع ارزشمند از اطلاعات را به کاربران ارائه می کند.

کاوش کاربران ممکن است از هر چیزی، از یک واژه گرفته تا 2500 نویسه تشکیل شده باشد، این نتایج جست وجو در یک حالت ترکیبی با گزینه های پیشرفته بسیار برای اصلاح، چینش یا ذخیره نتایج مطلوب، به کاربر عرضه می شود. باوجود پیچیدگی، این نتایج جست وجو به گونه نسبی ناوبری آسانی دارد.

شکل 10: موتور جست وجوی دیپ داو

10. کاگنیشن(Cognition)(10): جست وجوی بازرگانی مبنی بر نقشه مفهومی است و برای حمایت: تحلیل های بازرگانی، ترجمه ماشینی، جست وجوی اسناد، جست وجوهای پیچیده و بسیاری از نمونه های دیگر به کار می رود.

فناوری کاگنیشن، در جست وجوی یکی از چهار بدنه اطلاعات به کاربر کمک می کند:

Public.Resource.org: به تازگی 1858 جلد متشکل از 675704 فایل از نمونه های حقوق فدرال در قالب ایکس.ام.ال در این پایگاه ارائه شده است. این پایگاه از تصمیمات دادگاه عالی و دادگاه آپیلز از 1950م ترکیب یافته است.
MEDLINE (تحلیل و نظام بازیابی برخط نوشتجات پزشکی): شامل چکیده هایی برای اطلاعات علوم زیستی و زیست پزشکی از پایگاه داده بین المللی. این پایگاه حوزه هایی از: پزشکی، پرستاری، دارو، دندان پزشکی، دام پزشکی و مراقبت از سلامتی و زمینه هایی با ارتباط مستقیم با پزشکی، مانند ارزیابی مولکولی را پوشش می دهد.
نسخه انگلیسی ویکی پدیا.
ترجمه کامل انگلیسی جدید شامل متن و نکات ترجمه از: گاسپل آف ماتیو، لاک، جان و مارک.

شکل 11: موتور جست وجوی کاگنیشن

11. کازمیکس(kosmix)(11): شرکت جست وجو که مقوله بندی مفاهیم را بیشتر با مهیاکردن کاربران با یک پیشخوان محتوا که به حق «راهنمای شما برای وب خوانده می شود»، ارائه داده است.

تمرکز این شرکت بر جست وجوی اطلاعاتی است که آن را برای موضوعات، هنگامی که کاربر اطلاعاتی درباره آن بخواهد، مناسب تر می داند تا اینکه در پی پاسخ یا یو.آر.ال خاص بگردد؛ برای نمونه، جست وجو برای معاوضه اعتبار پیش فرض، مخلوطی از پیوندها، فیلم ها و توئیت های بسیار فراهم خواهد شد.

شکل 12: موتور جست وجوی کازمیکس

12. ایکسالید(Exalead)(12): موتور جست وجوی تصاویر، منحصراً برای میزبانی از گزینه هایی برای محدودکردن جست وجو به اندازه، رنگ، و محتوا. بسیاری از این ویژگی ها اکنون در دیگر موتورهای جست وجوی تصاویر ظاهر می شود. پایگاه ایکسالید، بیشترین کوشش را برای جست وجوی تصاویر می کند.

شکل 13: موتور جست وجوی ایکسا

این شرکت بر بازرگانی جست وجو تأکید دارد و اساساً برای حل مشکل جست وجو برای محتواهایی است که در آن تحلیل پیوندها راهنمایی کمتری دارند.

13. اسووگل(Swoogle)(13): پایگاه اسووگل، محدود به وب مفهومی است. این موتور، مدارکی را که بر اساس مفاهیم و استانداردها برای معانی، مانند قالب آر.دی.اف توسعه یافته، نمایه کرده است.

شکل 14: موتور جست وجوی اسوگل

14. فاکت بیتس(Factbites)(14): هدف این موتور، بازگرداندن جملات بامعنا برای نتایج جست وجوست. این فنی است که در وسط راه یک خلاصه پایگاه و خلاصه همه نتایج قرار می گیرد؛ برای نمونه، جست وجو برای داده پاسخ مناسب به وب مفهومی چیست؟

شکل 15: موتور جست وجوی فاکت بیتس

15. لگزه(Lexxe)(15): این موتور جست وجوی پرسش و پاسخ، از زبان شناسی برای پاسخ به پرسش ها استفاده می کند. این پایگاه برای خودکاوشی (16) خوب است؛ مانند اینکه شما تا چه اندازه در وب محبوب هستید. این موتور جست وجو همچنین، کلیدواژگانی را که مقوله هایی را برای نتایج نمایش می دهند، فراهم می کند که با انتخاب آن، موضوعات مرتبط بیشتر برای جستار کاربران ارائه می شود.

شکل 17: موتور جست وجوی لگزه

16. ولفرم آلفا (Wolfram Alpha): موتور محاسباتی دانش (Computational Knowledge Engine) یا موتور پاسخ (Answer Engine) است که توسط ولفرم ریسرچ (Wolfram Research) ایجاد شده است. این موتور جست وجو، حاصل تلاش فیزیکدانی به نام استفان ولفرام و تیم تحقیقاتی اوست. هسته اصلی ولفرام آلفا، نرم افزار محاسباتی متمتیکا است. به خلاف دیگر موتورهای جست وجو که معمولاً گزیده ای از وب را در اختیار کاربران می گذارند، ولفرام آلفا این اطلاعات را پردازش کرده و سپس به کاربر عرضه می کند. ولفرام آلفا قادر است به بسیاری از پرسش ها که دیگر موتورهای جست وجو قادر به جوابگویی آن ها نیستند، پاسخ دهد؛ برای نمونه، پرسشی مانند: «ملکه الیزابت دوم در سال ۱۹۴۷ چند ساله بوده است؟» یا «پنجاه و چهارمین کشور کوچک از لحاظ سرانه تولید ناخالص ملی کدام کشور است؟» با وجود این، نمی توان انتظار هر نوع محاسبه ای را از این وب گاه داشت.

یکی از مهم ترین و کاربردی ترین قسمت های این موتور جست وجو، توانایی آن در حلّ مسائل ریاضی است. کاربران می توانند با این موتور جست وجو محاسبات ریاضیاتی را به راحتی و در عرض چند ثانیه حل کنند؛ برای نمونه، می توان معادله ای پیچیده را به ولفرام آلفا داده و جواب آن را گرفت یا می توان برای به دست آوردن پاسخ های معادلات پیچیده ماتریسی از آن استفاده کرد.