پردازش هوشمند متن

پردازش هوشمند متن (27)

چکیده

در فرایند بهره‌برداری از روایات، اساسی‌ترین نیاز، شناخت و فهم قطعات مختلف یک داده حدیثی و تحلیل آن با دیگر احادیث است که از دیرباز، به‌صورت دستی انجام می‌گرفته است. معجم‌های لفظی و موضوعی، با پشتوانه پژوهش انسانی، آماده‌سازی مطالب را با هدف دسترسی آسان فراهم نموده‌اند و آنچه در فرمت تخصّصی به‌عنوان یک فرایند خاصّ، مورد توجّه است، بارور نمودن و ارزش‏دارکردن کلمات و جملاتی است که هیچ یک از آنها، به جز در حروف و ساختار لفظی، تفاوتی با یکدیگر ندارند و رایانه به طور عادی، قابلیت فهم معنای آنها را ندارد. فرمت‌گذاری تخصّصی و ایجاد شبکه ارتباطی معنایی میان کلمات و به دنبال آن، بانک بزرگ‌داده‌های روایی، به‌عنوان پشتوانه‌ای غنی برای تغذیه و پردازش داده به شمار رفته و خروجی‌های جدیدی را در راستای زمینه‌سازی برای تولید علم و توسعه حدیث‌پژوهی و فراهم‌سازی بستری جامع برای مطالعه، تحقیق و دانش‌افزایی مخاطبان ارائه خواهد داد.

  • نویسنده: مرتضی اسدی* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اشاره

مرکز تحقیقات کامپیوتری علوم اسلامی (نور)، در حوزه متن‌کاوی فعّالیّت‌ها و دستاوردهای متعدّد و ارزنده‌ای داشته است. متن‌کاوی در سه مرحله: آماده‌سازی، پردازش و تحلیل متون، در روند تولید محصولات نور جلوه دارد. در این میان، پردازش متون عربی، به سبب دشواری‌ها و پیچیدگی‌های خاصّی که این زبان برخوردار است، همواره با چالش‌های جدّی مواجه است. ازاین‌رو، تحلیل‌گرهای صرفی در دنیا، با مشکلات و کاستی‌هایی جدّی روبه‌رو بوده‌اند. این امر، مرکز نور را بر آن داشت تا از سال 1389 اقدام به تولید یک تحلیل‌گر صرفی بومی نماید.

در این راستا، هشتمین نشست از سلسله نشست‌های علمی علوم اسلامی و انسانی دیجیتال با موضوع «پردازش هوشمند زبان عربی (جلسه اوّل) با محوریت تحلیل‌گر صرفی نور»، در 19 خرداد 1401ش در سالن اجتماعات مرکز تحقیقات کامپیوتری علوم اسلامی (نور) برگزار گردید. دکتر حبیب سریانی (پژوهشگر گروه علمی قرآن و لغت نور) و حجّت‌الاسلام سید محمد دانش (توسعه‌دهنده متن‌کاوی نور) به عنوان کارشناس، و جناب دکتر محمود شکراللهی (عضو هیأت علمی دانشگاه تبریز) و حجّت الاسلام و المسلمین محمدرضا مدرسی (پژوهشگر حوزه علمیه) به عنوان ناقد در این نشست علمی حضور داشتند. در ذیل، خلاصه‌ای از این نشست علمی، به همراه دسته‌بندی و تیترگذاری جدید، از نظر خوانندگان عزیز می‌گذرد. گزارش تفصیلی این نشست، در وبگاه نورسافت انعکاس یافته است.

  • نویسنده: به کوشش: هیأت تحریریه فصلنامه ره‌آورد نور

اشاره

نرم‌افزار «پاک‌نویس» که در معاونت تهران مرکز تحقیقات کامپیوتری علوم اسلامی (نور) توسعه داده شده، ابزاری است که خطاهای متون فارسی را به‌صورت خودکار پیدا کرده و پیشنهادهایی برای اصلاح آنها ارائه می‌کند. این نرم‌افزار که در حال حاضر، در قالب افزونه وُرد عرضه گردیده است، به کاربران خود کمک می‌کند که با سرعت و دقت مناسب، متنِ مورد نظر خویش را ویراستاری کنند. در مقاله پیشِ رو، به معرفی نرم‌افزار پاک‌نویس و امکانات آن خواهیم پرداخت.

  • نویسنده: گروه توسعه نرم‌افزار پاک‌نویس این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اشاره

آنچه در این نوشتار می‌خوانید، برگرفته از سخنرانی مهندس احمد ربیعی‌زاده، مدیر آزمایشگاه هوش مصنوعی و علوم اسلامی دیجیتال نور است که در سلسله نشست‌های تخصصی هفته پژوهش در سالن اجتماعات مرکز ارائه شده است. مهندس ربیعی‌زاده، ضمن اشاره به روند تکامل موضوع هوش مصنوعی در این مرکز، به بیان اهداف، دستاوردها و چشم‌اندازهای این مبحث در تولید محصولات نور پرداخت که به‌روشنی نشانگر آن است، مرکز نور در طی بیش از سه دهه فعالیت خویش، روند روبه‌رشدی را در حوزه هوش مصنوعی علوم اسلامی و انسانی پشت سر گذاشته و برنامه‌های کاربردی و ابزارهای ارزشمندی را در این باره عرضه نموده و مسیر پژوهش در علوم و معارف اسلامی و انسانی را هموار ساخته است.

  • نویسنده: مهندس احمد ربیعی‌زاده* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

هوش مصنوعی؛ چیستی، فلسفه و اهمیت

متن سخنرانی حجت‌الاسلام والمسلمین دکتر سید سعید رضا عاملی، دبیر شورای عالی انقلاب فرهنگی در مرکز تحقیقات کامپیوتری علوم اسلامی

اشاره

امروزه، یکی از مباحث مهم و مطرح در حوزه فناوری اطلاعات و ارتباطات، موضوع هوش مصنوعی است. فناوری‌های نوینِ پردازش هوشمند محتوا، از همان ابتدای تأسیس مرکز تحقیقات کامپیوتری علوم اسلامی، مورد توجه مسئولان و در شمار وظایف اصلی این مرکز بوده است. از زمان راه‌اندازی مرکز نور تا کنون، افزون بر 30 دستاورد در این زمینه به نتیجه رسیده است. تحلیل‌گر صرفی و ریشه‌یاب هوشمند کلمات، سامانه‌های پیشنهاددهی محتوای احادیث و مقالات، سرویس‌های آیه‌یاب و حدیث‌یاب، سامانه تقلب‌یابی سمیم نور و تحلیل استنادات مقالات و پیونددهی پاورقی کتب، برخی از این نتایج ارزشمند و کاربردی است.

نظر به اهمیت بحث هوش مصنوعی، متن سخنرانی حجت‌الاسلام والمسلمین دکتر سید سعید رضا عاملی، دبیر محترم شورای عالی انقلاب فرهنگی که در آستانه هفته پژوهش و مراسم افتتاح «آزمایشگاه هوش مصنوعی و علوم اسلامی و انسانی» در مرکز تحقیقات کامپیوتری علوم اسلامی بیان شده، جهت استفاده علاقه‌مندان ارائه می‌گردد.

مرکز نور، از پیشتازان نوآوری دیجیتالی در حوزه کتاب

گزارش بازدید وزیر فرهنگ و ارشاد اسلامی از مرکز تحقیقات کامپیوتری علوم اسلامی

اشاره

هم‌زمان با روز کتاب، کتابخوانی و کتابدار (24 آبان‌ماه سال 1400) و رونمایی از نسخه جدید پایگاه کتابخانه دیجیتالی نور، دکتر محمدمهدی اسماعیلی، وزیر محترم فرهنگ و ارشاد اسلامی، ضمن حضور در مرکز تحقیقات کامپیوتری علوم اسلامی، از نزدیک با فعالیت‌ها و تولیدات این مرکز، از جمله نسخه جدید پایگاه نورلایب، آشنا شدند و با حجت‌الاسلام والمسلمین دکتر محمدحسین بهرامی، رئیس مرکز نور دیدار و گفت‌وگو نمودند. آنچه می‌خوانید، گزارشی است اجمالی از این بازدید.

  • نویسنده: به کوشش: هیئت تحریریه ره آورد نور

اشاره

آنچه در این مقاله از نظر شما خوانندگان محترم می‌گذرد، گزیده‌ای از متن وبینار مهندس احمد ربیعی‌زاده، مدیر محترم اداره پردازش هوشمند مرکز تحقیقات کامپیوتری علوم اسلامی است که در 24 آذرماه 1399 مصادف با هفته پژوهش ارائه شده بود. از آنجا که این وبینار، مشتمل بر نکات مفید در خصوص کاربرد هوش مصنوعی در پژوهش‌های علوم اسلامی است، مناسب دیده شد در فصلنامه ره آورد نور انعکاس یابد. طی این وبینار، با مقوله هوش مصنوعی و کاربردهای آن در پژوهش‌های علوم اسلامی و نمونه‌هایی از این دستاوردها در تولیدات وبی و نرم‌افزارهای ویندوزی مرکز نور آشنا می‌شوید.

  • نویسنده: مهندس احمد ربیعی‌‌زاده* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

صرف و نحو و اعراب گذاری ماشینی متون، نتیجه هوشمندسازی تولیدات نور است

گفت‌وگو با محمد حبیب‌زاده بیژنی، پژوهشگر گروه ادبیات و متن‌کاوی نور

اشاره

مرکز تحقیقات کامپیوتری علوم اسلامی را می‌توان نهادی دانست که با وارد شدن به مسیری نوین، جایگاهی ویژه در میان پژوهشگران عرصه دین یافته و در اندک زمانی تقریباً تمام آنان را مخاطب خود ساخته است و این، نیست جز با پیوند توانایی‌های رایانه‌ای و مجموعه دانش‌های دینی. بدیهی است که این جایگاه، تنها زمانی حفظ خواهد شد که این نهاد همچنان همگام با پیشرفت‌ها، به‌ویژه در عرصه هوشمندسازی گام بردارد؛ وگرنه جایگاه خود را به دیگران خواهد سپرد. در این شماره گفت‌وگویی با یکی از همکاران پُرسابقه مرکز نور انجام دادیم که از پژوهشگران «گروه متن‌کاوی و ادبیات» معاونت پژوهشی می‌باشد که به نظرتان می‌رسد.

اشاره

در طول چند سال گذشته، برخی از حوزه های پردازش زبان طبیعی کار خود را با به کارگیری فنون تصویرمبنا آغاز کرده اند. این حوزه ها در کنار سایر موارد، شامل: خلاصه سازی متن، تجزیه نحوی، عدم ابهام معنای کلمه، ایجاد هستی شناسی، تجزیه و تحلیل احساسات، تجزیه و تحلیل ذهنیت و خوشه بندی متن می باشد. در این مقاله، برخی از موفّق ترین بازنمون ها و الگوریتم های تصویرمبنا را که در پردازش زبان مورد استفاده قرار می گیرد، ارائه می دهیم و سعی می کنیم ساز و کار عمل آنها را شرح دهیم.

  • نویسنده: دراگومیر رادف، دانشگاه میشیگان، این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ؛ رادا میهالسی، دانشگاه تگزاس شمالی، این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ؛ ترجمه: بهروز یل، کارشناسی ارشد علم اطلاعات و دانش شناسی دانشگاه خوارزمی تهران

مقدمه

استفاده از رایانه در امور مختلف، باعث شده تا داده های بسیاری با سرعت های زیاد در پایگاه داده ها انباشته و ذخیره شوند. پردازش این داده های حجیم، خارج از توان انسان است. تلاش های فراوانی تاکنون انجام شده است تا نرم افزارها و سخت افزارها توسعه پیدا کنند و تولید، ذخیره و انتقال داده ها انجام گردد؛ اما تجزیه و تحلیل این حجم از داده ها توسط رایانه ها، بعد از ذخیره و پردازش، تاکنون انجام نشده است. داده ها در عصر حاضر، قلب تپنده هر سازمان را تشکیل می دهند و هر روز به میزان داده ها در سیستم های اطلاعاتی افزوده می شود. در واقع، سازمان ها در اطلاعات غرق شده اند؛ درحالی که تشنه دانش هستند. این امر، نشانگر آن است که سازمان ها نتوانسته اند از دانش درون داده ها به نحو مناسب استفاده نمایند. در درون حجم عظیمی از داده ها، الگوها و روابط بسیاری میان پارامترهای مختلف به صورت پنهان باقی می ماند که برای برنامه ریزی های استراتژیک و طولانی مدت می تواند حیاتی باشد. بنابراین، نیاز به ابزاری است تا داده ها را به گونه ای پردازش کند تا دانش حاصل از آن را در اختیار تصمیم گیران سازمان قرار دهد. یکی از راهکارهایی که امروزه در این زمینه ایجاد و در حال گسترش است، داده کاوی(1) است. داده کاوی، فرآیند کشف دانش پنهان درون داده هاست که با توصیف، تشریح، پیش بینی و کنترل پدیده های گوناگون پیرامونی، دارای کاربرد بسیار وسیعی در حوزه های مختلف است؛ به گونه ای که مرز و محدودیتی برای کاربرد آن در نظر گرفته نشده و زمینه های کاربردی آن را از ذرات کف اقیانوس تا اعماق فضاء می دانند (شهرابی، 1386).

  • نویسنده: خدیجه مرادی* این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

سازمان دهی دانش و متن کاوی، در بازیابی دقیق اطلاعات کاربرد بسیاری دارند. از این رو، متن کاوی می تواند کارکردهای بسیاری در بهبود سازمان دهی دانش داشته باشد. اگرچه متن کاوی، به ویژه در بخش یادگیری ماشینی و به دست آوردن اسناد و نمونه های آموزشی، نیازمند نظام های اصطلاح نامه، طبقه بندی، فهرست نویسی و نمایه سازی است، سازمان دهی برای تسریع کار خود، نیازمند فنون متن کاوی و نتیجه کارهای آن خواهد بود تا هم سرعت کار خویش را افزایش دهد و هم هزینه هایش را بکاهد. در این نوشتار، به کارکردهای متن کاوی در حوزه سازمان دهی دانش پرداخته خواهد شد.

  • نویسنده: مصطفی علیمرادی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

با گسترش روزافزون حجم اطلاعات، نیاز به سیستم‌های کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس می‌شود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیر ساختار یافته(1) و نیمه‌ساختار یافته(2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، به‌شدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستم‌هایی که در تحلیل و پردازش متون وجود دارد، سیستم‌های خلاصه‌ساز متن(3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتم‌ها و تکنیک‌های مختلف، آن را خلاصه می‌نماید. این مقاله به معرفی فرآیند خلاصه‌سازی متون فارسی می‌پردازد.

  • نویسنده: دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، احسان براتی؛ کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

 

چکیده

در این مستند، به یکی از دغدغه‏ های بزرگ در زمینه زبان‏شناسی محاسباتی(1) با نام برچسب‏گذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسب‏گذاری ادات سخن که یکی از پایه‏ای‏ترین نیازهای پردازش هوشمند متن به شمار می‏آید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسب‏گذاری قوی برای زبان فارسی، جزو اولویت‌های کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه‏ های برچسب‏گذاری به کاربرده می‏شود؛ برای نمونه، در برچسب‏گذار TNT[2] که یکی از قوی‌ترین برچسب‏گذارها در زبان‏های مختلف است[4, 5, 8]. طبق آزمایش‌های انجام شده ما، با استفاده از این برچسب‏گذار می‏توان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.

  • نویسنده: محمدحسین الهی‌منش؛ دانشجوی‌ کارشناسی‌ ارشد هوش مصنوعی دانشکده‌ مهندسی کامپیوتر دانشگاه آزاد اسلامی قزوین/ کارشناس گروه پژوهشی متن‌کاوی نور این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم وصنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اشاره

نرم‌افزار «ویراستیار»، یک خطایاب املایی متن‌باز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را می‌دهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرم‌افزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگی‌ها و قابلیت‌های آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاع‌رسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب هم‌افزایی در این حوزه را باز کند.

  • نویسنده: امید کاشفی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

در این گزارش، سعی شده است تا یکی از تکنیک‌های موفق در زمینه رده‌بندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از رده‌بندی متون، می‌توان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش رده‌بندی K نزدیک‌ترین همسایه(1) و دو معیار فاصله متون، آزمایش‌های خودمان را انجام داده‌ایم. یکی از این دو معیار، الگو گرفته از نوعی رده‌بندی متون زبان عربی[4]‌ بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایش‌ها بر روی پیکره همشهری[1] است. این دو نوع فاصله‌سنجی، هر کدام با الگوریتم نزدیک‌ترین همسایه ترکیب شده و رده‌بند 1 تا 20 نزدیک‌ترین همسایه را برای آزمایش‌های ما آماده کرده‌اند. نتایج ما نشان می‌دهد که این روش می‌تواند با دقت(2) 89% عمل رده‌بندی را انجام دهد.

  • نویسنده: محمد حسين الهي‌منش؛ دانشجوی ارشد هوش مصنوعی دانشکده مهندسی برق و کامپیوتر دانشگاه آزاد اسلامی قزوین/کارشناس گروه پژوهشی متن‌کاوی نور، دکتر بهروز مينايي؛ استادیار دانشکده مهندسی کامپیوتر دانشگاه علم وصنعت ایران/دبیر هیأت علمی مرکز تحقیقات كامپيوتري علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

خطایابی،(1) شامل دو بخش اصلی است: بخش اول، بهره‌گیری از یک واژه نامه(2) است و بخش دوم، مجموعه‏ ای از الگوریتم‏ ها و شگردها(Techniques) می‏باشد که این واژه ‏نامه برای خطایابی استفاده می‏کند. این شگردها‏  به سه دسته‏ اصلی تقسیم می‏شود: 1. جستجو در واژه‏ نامه؛ 2. یافتن لغت صحیح جایگزین در واژه ‏نامه؛ 3. رتبه‌بندی اصلاحات.

  • نویسنده: دکتر بهروز مینایی؛عضو هیأت علمی دانشگاه علم و صنعت ایران/دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ،محمّدحسین شیخ‏ الاسلام؛مرکز تحقیقات کامپیوتری علوم اسلامی نور این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرن‌ها مورد توجه مؤلفان، نسخه‌برداران و ناشران قرار گرفته است. همچنین، فهرست‌برداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهه‌های اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرم‌افزارهای تولیدی حفظ نماید که این تلاش‌ها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روش‌های ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» می‌باشد.

  • نویسنده: محمد حبیب‌زاده بیژنی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه اول‌: با بررسی کوتاهی در طول زندگانی انسان‌ها می‌فهمیم که همیشه نیاز‌ها‌، علت ساخت ابزار‌ها بوده است‌. نقاط ضعف و مشکلات حل نشدنی‌، انسان‌ها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه حل‌هایی برای رفع آن بیابند‌. همین روند، صاحب نظران را به این رساند که «نیاز، عامل ایجاد علوم بود»‌.

  • نویسنده: حامد مقیسه این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار می‌گیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهم‌ترین موضوعاتی که می‌توان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط می‌سازد. یکی از دلایلی که بررسی عطف را در اولویت قرار می‌دهد، میزان استفاده و فراوانی آن در متون است. مشخص شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیدا کردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحله‌های بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد.

  • نویسنده: محمدرضا جوان آراسته؛ کارشناس گروه پژوهشی متن‌کاوی نور مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

 

مقدمه

متن‌کاوی (Text Mining)، دانش استخراج خودکار الگوهای پنهان از متون حجیم است. یکی از علوم مرتبط با متن‌کاوی، پردازش زبان طبیعی (NLP) نام دارد. از مهم‌ترین ابزارهای پردازش زبان طبیعی نیز می‌توان به برچسب‌گذاری ادات سخن (Part of Speech Tagging) اشاره کرد. برچسب‌گذاری خودکار متن، در هر زبانی در دو حوزه مهم پیگیری می‌شود. اول حوزه ریخت‌شناسی (Morphology) (صرف) و دوم گرامر(نحو). در صرف،(1) کلمات جدای از هم، مستقل از یکدیگر و تنها با توجه به ساخت‌شان مورد بررسی قرار می‌گیرند؛ اما در نحو،(2) جایگاه هر کلمه در کنار سایر کلمات مد نظر قرار می‌گیرد. جایگاه صرف نسبت به مباحث نحوی، جایگاه تقدمی است. در واقع، تا زمانی که ساختار صرفی کلمات در یک متن مشخص نشده باشد، ورود به حوزه نحو کاری بی‌سرانجام می‌نماید.

  • نویسنده: محمد‌رضا جوان آراسته؛ کارشناس گروه پژوهشی متن‌کاوی نور مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ،دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید
صفحه1 از2
شما اينجا هستيد:خانه پردازش هوشمند متن