پردازش هوشمند متن

پردازش هوشمند متن (28)

چکیده

در این مستند، به یکی از دغدغه‏ های بزرگ در زمینه زبان‏شناسی محاسباتی(1) با نام برچسب‏گذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسب‏گذاری ادات سخن که یکی از پایه‏ای‏ترین نیازهای پردازش هوشمند متن به شمار می‏آید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسب‏گذاری قوی برای زبان فارسی، جزو اولویت‌های کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مسأله، استفاده ازمدل مخفی مارکوف(2) بوده است. این تکنیک در بسیاری از شیوه‏ های برچسب‏گذاری به کاربرده می‏شود؛ برای نمونه، در برچسب‏گذار TNT[2] که یکی از قوی‌ترین برچسب‏گذارها در زبان‏های مختلف است[4, 5, 8]. طبق آزمایش‌های انجام شده ما، با استفاده از این برچسب‏گذار می‏توان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.

  • نویسنده: محمدحسین الهی‌منش؛ دانشجوی‌ کارشناسی‌ ارشد هوش مصنوعی دانشکده‌ مهندسی کامپیوتر دانشگاه آزاد اسلامی قزوین/ کارشناس گروه پژوهشی متن‌کاوی نور این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم وصنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اشاره

نرم‌افزار «ویراستیار»، یک خطایاب املایی متن‌باز (open source) فارسی است که نسخۀ اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را می‌دهد که متن نگاشته شدۀ فارسی در محیط مایکروسافت وُرد را اصلاح کند. اگر چه این نرم‌افزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگی‌ها و قابلیت‌های آن افزوده شده است، اما نهاد توسعه دهندۀ آن، یعنی دبیرخانۀ شورای عالی اطلاع‌رسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب هم‌افزایی در این حوزه را باز کند.

  • نویسنده: امید کاشفی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

در این گزارش، سعی شده است تا یکی از تکنیک‌های موفق در زمینه رده‌بندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از رده‌بندی متون، می‌توان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش رده‌بندی K نزدیک‌ترین همسایه(1) و دو معیار فاصله متون، آزمایش‌های خودمان را انجام داده‌ایم. یکی از این دو معیار، الگو گرفته از نوعی رده‌بندی متون زبان عربی[4]‌ بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایش‌ها بر روی پیکره همشهری[1] است. این دو نوع فاصله‌سنجی، هر کدام با الگوریتم نزدیک‌ترین همسایه ترکیب شده و رده‌بند 1 تا 20 نزدیک‌ترین همسایه را برای آزمایش‌های ما آماده کرده‌اند. نتایج ما نشان می‌دهد که این روش می‌تواند با دقت(2) 89% عمل رده‌بندی را انجام دهد.

  • نویسنده: محمد حسين الهي‌منش؛ دانشجوی ارشد هوش مصنوعی دانشکده مهندسی برق و کامپیوتر دانشگاه آزاد اسلامی قزوین/کارشناس گروه پژوهشی متن‌کاوی نور، دکتر بهروز مينايي؛ استادیار دانشکده مهندسی کامپیوتر دانشگاه علم وصنعت ایران/دبیر هیأت علمی مرکز تحقیقات كامپيوتري علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

خطایابی،(1) شامل دو بخش اصلی است: بخش اول، بهره‌گیری از یک واژه نامه(2) است و بخش دوم، مجموعه‏ ای از الگوریتم‏ ها و شگردها(Techniques) می‏باشد که این واژه ‏نامه برای خطایابی استفاده می‏کند. این شگردها‏  به سه دسته‏ اصلی تقسیم می‏شود: 1. جستجو در واژه‏ نامه؛ 2. یافتن لغت صحیح جایگزین در واژه ‏نامه؛ 3. رتبه‌بندی اصلاحات.

  • نویسنده: دکتر بهروز مینایی؛عضو هیأت علمی دانشگاه علم و صنعت ایران/دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ،محمّدحسین شیخ‏ الاسلام؛مرکز تحقیقات کامپیوتری علوم اسلامی نور این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

چکیده

برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرن‌ها مورد توجه مؤلفان، نسخه‌برداران و ناشران قرار گرفته است. همچنین، فهرست‌برداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهه‌های اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرم‌افزارهای تولیدی حفظ نماید که این تلاش‌ها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روش‌های ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» می‌باشد.

  • نویسنده: محمد حبیب‌زاده بیژنی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه اول‌:  با بررسی کوتاهی در طول زندگانی انسان‌ها می‌فهمیم که همیشه نیاز‌ها‌، علت ساخت ابزار‌ها بوده است‌. نقاط ضعف و مشکلات حل نشدنی‌، انسان‌ها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه حل‌هایی برای رفع آن بیابند‌. همین روند، صاحب نظران را به این رساند که «نیاز، عامل ایجاد علوم بود»‌.

  • نویسنده: حامد مقیسه این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار می‌گیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهم‌ترین موضوعاتی که می‌توان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط می‌سازد. یکی از دلایلی که بررسی عطف را در اولویت قرار می‌دهد، میزان استفاده و فراوانی آن در متون است. مشخص شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیدا کردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحله‌های بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد.

  • نویسنده: محمدرضا جوان آراسته؛ کارشناس گروه پژوهشي متن‌کاوي نور مرکز تحقيقات کامپيوتري علوم اسلامي این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ،دکتر بهروز مينايي عضو هيأت علمي دانشگاه علم وصنعت ايران/ دبير هيأت علمي مرکز تحقيقات کامپيوتري علوم اسلامي این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

متن‌کاوی (Text Mining)، دانش استخراج خودکار الگوهای پنهان از متون حجیم است. یکی از علوم مرتبط با متن‌کاوی، پردازش زبان طبیعی (NLP) نام دارد. از مهم‌ترین ابزارهای پردازش زبان طبیعی نیز می‌توان به برچسب‌گذاری ادات سخن (Part of Speech Tagging) اشاره کرد. برچسب‌گذاری خودکار متن، در هر زبانی در دو حوزه مهم پیگیری می‌شود. اول حوزه ریخت‌شناسی (Morphology) (صرف) و دوم گرامر(نحو). در صرف،(1) کلمات جدای از هم، مستقل از یکدیگر و تنها با توجه به ساخت‌شان مورد بررسی قرار می‌گیرند؛ اما در نحو،(2) جایگاه هر کلمه در کنار سایر کلمات مد نظر قرار می‌گیرد. جایگاه صرف نسبت به مباحث نحوی، جایگاه تقدمی است. در واقع، تا زمانی که ساختار صرفی کلمات در یک متن مشخص نشده باشد، ورود به حوزه نحو کاری بی‌سرانجام می‌نماید.

  • نویسنده: محمد‌رضا جوان آراسته؛ کارشناس گروه پژوهشی متن‌کاوی نور مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ،دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

انسان‌ها برای انتقال مقصود خود به مخاطب، از راه‌های مختلفی استفاده می‌کنند. یکی از متداول‌ترین روش‌ها، استفاده از تکلّم (گفتاری و نوشتاری) است. در پردازش سخن، گوینده با به کارگیری کلمات، در قالبی به نام جمله، هدف خود را به مخاطب می‌فهماند. برای فهم هدف متکلّم لازم است مخاطب، جملات او را از جنبه‌های گوناگون مانند: محدوده، معنا،(1) اعراب و ... مورد بررسی قرار دهد و تنها بهره‌‌گیری از تجزیه کلمات و تکیه بر نقش آنها برای تشخیص جمله کافی نیست. شناخت محدوده جمله که تعیین ابتدا و انتهای جملات است، نخستین مرحله پردازش جمله به شمار می‌آید. پس از آن، اعراب و لایه‌ معنا‌شناسی قرار دارد.

  • نویسنده: محمد امین الهی منش؛ کارشناس گروه پژوهشی متن‌کاوی نور مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

پردازش زبان‌ها و مکالمات طبیعی، یکی از اموری ا‌ست که با ورود فناوری رایانه‌ای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشه‌ای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبان‌های طبیعی می‌شد. تلاش‌های زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاش‌ها ماشین «الیزا»  بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال می‌نمود. پردازش زبان طبیعی، یکی از عرصه های مهم در علم هوش مصنوعی است.

  • نویسنده: دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، محمد رضا وفائی؛ کارشناس گروه پژوهشی متن‌کاوی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

مقدمه

جهت فهم زبان عربی، سه دانش مهم، نقش اساسی را بر عهده دارند که عبارت‌اند از: علم لغت، صرف و نحو. علم لغت، یعنی فهم معنای حقیقی یک کلمه و همچنین آشنایی با برخی معانی مجازی و کنایی یک کلمه یا یک عبارت.

در کنار علم لغت، علم صرف و نحو نیز وجود دارد که مبتنی بر قواعدی است که فهم هوشمند از آنها را امکان‌پذیر می‌کند. بدون تردید، علم صرف را باید پیش‌نیاز علم نحو دانست. اینکه یک کلمه چه جایگاهی را در یک کلام دارد، ابتدا وابسته به این است که کلمه به خودی خود قابلیت کدام یک از نقوش نحوی را دارد؛ به طور مثال، فاعل یا مفعول شدن یک کلمه، در ابتدا وابسته به این است که آن کلمه اسم باشد و نه فعل یا حرف.

  • نویسنده: حبيب سرياني؛ کارشناس پژوهشکده متن‌کاوي نور مرکز تحقيقات کامپيوتري علوم اسلامي این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مينايي؛ عضو هيأت علمي دانشگاه علم وصنعت ايران/ دبير هيأت علمي مرکز تحقيقات کامپيوتري علوم اسلامي این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

اشاره

مرکز تحقیقات کامپیوتری علوم اسلامی به‌زودی در چارچوب ساختار پژوهشی مورد تأیید وزارت علوم، تحقیقات و فناوری یک نهاد پژوهشی جانبی تأسیس خواهد کرد. آنچه در پی می‌آید، توضیحاتی درباره زمینه‌های فعالیت این نهاد نوپا است که در گام اول، در قالب یک گروه پژوهشی و در گام‌های بعد و توسعه یافته خود، در قالب یک پژوهشکده زیر نظر «مرکز نور» فعالیت خواهد کرد. در اینجا ابتدا با توضیحاتی درباره زمینه علمی فعالیت آن و سپس درباره ساختار سازمانی آن مواجه می‌شوید.

  • نویسنده: دکتر مهدی بهنیا ‌فر؛ معاونت تهران مرکز تحقیقات کامپیوتری علوم اسلامی (نور) این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی؛ عضو هیأت علمی دانشگاه علم و صنعت ایران/ دبیر هیأت علمی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

داده‌کاوی چیست؟

«داده‌کاوی» یا فرایند کشف دانش در پایگاه داده، زمینه‌ای نسبتاً نوظهور است. داده‌کاوی، پل ارتباطی میان علوم آمار، مهندسی کامپیوتر، هوش مصنوعی، شناسایی آماری الگو، یادگیری ماشین و محاسبات رایانشی نرم است. داده‌کاوی، فرآیند یا پروژه‌ای نسبتاً پیچیده برای شناسایی الگوها و مدل‌های صحیح، قابل استناد و مفید در حجم وسیعی از داده است؛ ‌به گونه‌ای که این الگوها و مدل‌ها برای انسان‌ها قابل درک باشند.

  • نویسنده: حسین عابدینی؛ کارشناس گروه پژوهشی متن‌کاوی مرکز تحقیقات کامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید ، دکتر بهروز مینایی* ؛عضو هیأت علمی دانشگاه علم و صنعت ایران و دبیر هیأت علمی مرکز تحقیقات كامپیوتری علوم اسلامی این آدرس ایمیل توسط spambots حفاظت می شود. برای دیدن شما نیاز به جاوا اسکریپت دارید

فناوری پردازش هوشمند متون اسلامی، نتایج ارزشمندی را به دنبال دارد

گفتگو با دکتر بهروز مینایی، دبیر علمی سمینار فناوری های پردازش هوشمند متون اسلامی

اشاره

در دنیای امروز، رشد چشمگیر متون دیجیتالی ایجاب می کند تا با بهره گیری بهینه از فناوری های نوین «متن‌کاوی» و ایجاد سامانه های هوشمند «پردازش زبان طبیعی» برای زبان عربی و فارسی، استخراج اطلاعات علوم اسلامی را از دادگان متنی دیجیتالی کارآمدتر سازیم.

اولین سمینار کامپیوتر و علوم اسلامی، در 18 دیماه سال 1371 در سالن اجتماعات مدرسه عالی دارالشفاء قم با حضور جمعی از بزرگان حوزه، مهندسان و متخصصان، فضلا و دانشجویان رشته‌های کامپیوتر، به همت مرکز تحقیقات کامپیوتری علوم اسلامی برگزار شد.

  • نویسنده: سردبیر - محمد مهدی نمازی

اشاره

آنچه در ذیل می‌خوانید گفتگوی ره‌آورد نور با جناب آقای دکتر احمد مینایی دبیر هیئت علمی مرکز تحقیقات کامپیوتری علوم اسلامی است که به مناسبت بزرگداشت بیستمین سال تأسیس مرکز انجام شده است.

♦ آقای دکتر، لطفاً خودتان را معرفی کنید و پیشینه کارتان در مرکز را نیز برای خوانندگان توضیح دهید.

احمد مینایی هستم. اینجانب به همراه آقایان طالب‌پور، سید جواد شبیری و جعفر سلطان‌پور از بانیان مرکز هستیم که چندی بعد آقای سمیعی هم به ما پیوست.  با توجه به این‌که در آن زمان کامپیوتر تازه وارد ایران شده بود، این موضوع به ذهن ما خطور کرد که از کامپیوتر کمک بگیریم و یک پردازش قوی روی متون انجام بدهیم تا بتواند متون اسلامی را به شکل سریع‌تر، دقیق‌تر و عمیق‌تر در اختیار پژوهشگران قرار بدهد.

صفحه2 از2
شما اينجا هستيد:خانه فهرست موضوعی پردازش هوشمند متن