کاربرد شیوه‌های متن‌کاوی در تشخیص دست‌برد فکری

دوشنبه, 31 شهریور 1393 ساعت 15:27
    نویسنده: مصطفی علیمرادی

 چکیده

دست‌برد فکری، از معضلات عمده در مؤسسه‌های علمی و محیط‌های دانشگاهی به شمار می‌رود. دست‌برد فکری، شکل‌های گوناگونی دارد و راه‌های مختلفی نیز برای تشخیص آن پیشنهاد شده است. راه حل‌های موجود، برای تشخیص  این تخلفات در متون ساختاریافته مانند کد منابع، محدود به مقایسه‌های مشابهت متنی دو بخش از اثر است. در این نوشته، اسناد تألیف به مثابه وسیله‌ای برای تشخیص سرقت فکری بررسی شده و برخی از راه‌ حل‌های دیگر نیز معرفی می‌شوند.

 کلیدواژگان: اسناد تألیف، تشخیص سبک، یادگیری ماشینی، دست‌برد فکری، مشابهت‌یابی.

مقدمه

دست‌برد فکری (plagiarism)، عبارت است از قلمداد کردن ایده‌ها، جملات یا اثر شخص دیگر، به مثابه ایده، جمله یا اثر خود. این کار، شکلی از فریب‌کاری و  خیانت در امانت علمی است. (Ballard, 2010, p. 1) باز استفاده از متن، عبارت از استفاده عمدی یا غیر عمدی از متن موجود برای ایجاد یک متن جدید است که اگر در این باز استفاده، مستند‌سازی به‌درستی صورت نگیرد، دست‌برد فکری رخ خواهد داد. مؤسسات آموزشی و صنعتی، اغلب با دست‌برد فکری و نقض حق نشر مواجه‌اند. چنان‌که گفته شد، دست‌برد فکری، عرضه و نمایش ایده‌ها یا اثر یک شخص از سوی شخص دیگر به مثابه اثر و ایده خود است. این عرضه، ممکن است در شکل یک متن صریح، آن گونه که در مقالات و گزارش‌ها دیده می‌شود باشد، یا در یک متن ساختار یافته، مانند معادلات و برنامه‌نویسی رایانه‌ای رخ دهد.

حق نشر، حق چاپ انحصاری برای ناشران برای محافظت ایده‌ها و اطلاعات به دست می‌دهد. مؤلفان ممکن است استفاده رایگان از آثار تحت حق نشر خود را مجاز کنند؛ اما باز تولید نامجاز دیگران، به مثابه نقض حق نشر به شمار می‌رود و هرگز نمی‌توان آن را مجاز شمرد. (Burrows & Tahaghoghi, 2007)

شکل‌های دست‌برد فکری

هر شکل از دست‌برد فکری، به گونه صریح ادعای اصیل بودن دارد؛ اما در واقع، بر پایه واژگان یا ایده‌هایی از دیگران شکل گرفته است. شکل‌های گوناگون سرقت علمی را می‌توان در دو دسته کلی جای داد:

الف- دست‌برد فکری به شکل رونوشت مستقیم

رونوشت واژه به واژه از اثر شخصی دیگر بدون استناد، شکل واضح سرقت فکری است. حد نهایی سرقت فکری، رونوشت عین یک مقاله به شکل کامل است.

ب- دست‌برد فکری به عنوان رونوشت قسمتی از یک اثر

سرقت فکری، تنها شامل رونوشت عین یک اثر نیست؛ بلکه شامل شکل‌های ذیل نیز می‌شود:

  1. دست‌برد فکری تفسیری/ تعبیری (Paraphrase plagiarism): یک اثر ممکن است تفسیر شود؛ یعنی انگاره و معنایی که در اثری وجود دارد، با تغییر اندک واژگان آن اخذ شود. در این نوع دست‌برد، اگرچه واژگان متن برگرفته‌شده از متن اصلی متفاوت‌اند، اما دیدگاه و مفهومی که در متن اصلی است و بدون استناد در متن دیگر آورده شده، مصداق دست‌برد فکری است.
  2. سرقت فکری موزاییکی (Mosaic plagiarism): چینش و به اصطلاح، موزاییک‌کاری متون و تفاسیر برگرفته از آثار گوناگون بدون استناد به منبع اصلی، شکل دیگری از دست‌برد فکری است.
  3. دست‌برد فکری به منبع (Source plagiarism): ذکر منابع آورده‌شده در اثر نویسنده‌ای دیگر به منزله منابع خود، بدون این‌که استنادی به منبع دست دوم شود، مصداقی از دست‌برد فکری است. در این شکل از دست‌برد، نویسنده به منابعی استناد کرده که هرگز آن‌ها را نخوانده است. گاه نیز ممکن است، نویسنده فهرستی از ارجاعات ساختگی به منابعی ایجاد کند که آن‌ها را نخوانده یا به آن‌ها استناد نکرده است.
  4. دست‌برد فکری به منزله استناد ناکامل (Incomplete-citation plagiarism): هنگامی که یک منبع، تنها به بخشی از مواد ذکرشده از منبع دیگر استناد کند، دست‌برد فکری رخ داده است. وقتی نویسنده یک پاراگراف از منبعی می‌آورد و فقط یک جمله یا عبارت به عنوان نقل قول مستند می‌کند، در حالی که کل پاراگراف باید استناد داده شود، نویسنده به دست‌برد فکری مبادرت ورزیده است.
  5. دست‌برد فکری عبارت (Phrase Plagiarism): گاه عبارت‌هایی بدون استناد به منبع در متن آورده می‌شود. پر بسامد‌ترین این گونه از دست‌برد، در آثار تفسیری رخ می‌دهد. ( Claremont Graduate University, 2014)
  6. دست‌برد به ایده ها (Idea Plagiarism): هر گاه اندیشه ها، صرف نظر از شکل و ساختار آن، بدون استناد دادن رونویسی شوند، دست‌برد فکری رخ‌ داده است.

تشخیص دست‌برد فکری

از راه‎‏های گوناگون می‏توان فهمید، یک اثر از منابع دیگر دست‌برد فکری کرده ‌است یا نه؛ برای نمونه، با مشاهده ویژگی‌های ذیل در متن می‌توان گفت که یک اثر به دست‌برد فکری دچار شده است:

  • استفاده از لغت‏ها بدون داشتن مهارت نویسندگی (مانند استفاده نکردن از اصطلاح‏های فنی و پیشرفته)؛
  • تغییرات فراوان در کیفیت نوشتار یک نویسنده در مقایسه با نوشته عرضه‌شده پیشین؛
  • سبک یا واژگان ناهماهنگ با یک متن؛
  • متن مشوش که فاقد انتقال معنا و روان بودن است، نشان‏ دهنده اثری رونویسی‌ شده است؛
  • شباهت معنادار میان چند مقاله عرضه و ارسال‌شده؛
  • خطاهای مشابه میان چند مقاله عرضه و ارسال‌شده، مانند خطاهای املایی یا دستوری؛
  • ارجاعاتی که در متن مشاهده می‏شود؛ اما در کتاب‌نامه وجود ندارد؛
  • فقدان انسجام سبک کتاب‌شناختی درون پیکره یا بخش ارجاعات متن.

اما بررسی و واکاوی آثار برای پی‌بردن به دست‌برد فکری توسط ناظر انسانی، بسیار زمان‌بر بوده و برای مجموعه‌های بزرگ از آثار، غیر عملی است. ابزارهای تشخیص سرقت فکری، مانند ترنتین (1)، برای متون ساده، اغلب برای تشخیص آثار ناقض و متخلف به کار می‌رود؛ هرچند رویکردها برای تشخیص سرقت فکردی در متن ساده، برای تشخیص سرقت فکری در متون ساختاریافته مناسب نیستند؛ زیرا آن‌ها از جنبه‌های مهم اسناد متون ساختاریافته، مانند ساختار برنامه‌نویسی در منبع کد، چشم‌پوشی می‌کنند. (Burrows & Tahaghoghi, 2007, p. 1)

یک اثر یا به‌تنهایی ملاحظه می‌شود، یا در قیاس با آثار دیگر. در هر یک از این حالات، تشخیص دست‌برد فکری شیوه‌هایی گوناگون می‌طلبد که در ذیل به آن می‌پردازیم:

الف ـ‌ تشخیص دست‌برد فکری در یک متن تنها، و بدون مقایسه آن با متون دیگر، به دو گونه است:

  1. شناسایی تناقضات درون متن: در نگاه نخست و صرف نظر از هر امر دیگر، با مشاهده تناقض‌ها، ناهمسانی و ناسازگاری عناصر یک اثر، می‌توان آن اثر را متهم به دست‌برد فکری کرد؛ به عبارت دیگر، تناقض‌های موجود در متن، از نشانه‌هایی است که می‌تواند احتمال وجود دست‌برد فکری در اثر را مطرح کند.
  2. یافتن منابعی برای این تناقضات: با مشاهده یک اثر یا بخش‌هایی از آن، و وجود مشابهت‌هایی میان آن و اثر دیگری که پیش‌تر دیده شده و نیز مشاهده تناقض‌ها و عدم انسجام متن، می‌توان احتمال وقوع دست‌برد فکری را داد. یافتن بخش‌هایی از آثار در یک متن، این احتمال را که منشأ تناقض‌ها، دست‌برد فکری است، قوت می‌بخشد.

ب ـ تشخیص دست‌برد فکری از میان چندین متن نیز بر دو گونه ممکن است:

  1. شناسایی هم‏ دستی‏ های غیر قابل قبول: گاه نویسنده به شکل غیر مجاز اثری را با همکاری شخص دیگر تولید می‌کند. گاهی نیز شخصی نوشتن اثری را به شخص دیگری می‌سپارد. این کار بیشتر در پایان‌نامه‌های دانشگاهی رخ می‌دهد که در آن دانشجویان کارشناسی ارشد یا دکتری، نوشتن پایان‌نامه یا رساله خود را به دیگران سفارش می‌دهند، یا تهیه بخش اعظمی از آن را به دیگران می‌سپارند. این امر با مقایسه آثار مقالات و نوشته‌های دیگری که از دانشجو وجود دارد، یا مقایسه توانایی‌ها و کارنامه علمی او، قابل تشخیص خواهد بود.
  2. شناسایی رونویسی مستقیم: شناخت رونویسی مستقیم، از طریق یافتن منبع اصلی قابل تشخیص است.(Markus Dickinson,2007,pp 4-3)

شیوه های تشخیص خودکار دست‏برد فکری

اِسناد تألیف (Authorship attribution) یا شناسایی تألیف (Authorship identification)، فرایند تعیین این امر است که چه کسی از میان نویسندگان محتمل، یک متن را نوشته است؛ به عبارت دیگر، کار پیش‌بینی شبیه‌ترین مؤلف متن خاص، با عرضه مجموعه‌ای از پیش‌معرفی‌شده از مؤلفان و شماری از نمونه متون هر مؤلف را «شناسایی مؤلف» گویند. اِسناد تألیف، در واقع، عمل طبقه‏بندی متن است. از نظر یادگیری ماشینی، شناسایی مؤلف، مبحث دسته‌بندی متنِ یک‌سطحیِ چند‌طبقه‌ای است. طبقه‏بندی متن، عبارت از این امر است که اسناد و مجموعه هایی از دسته های مرتبط را برگیریم و اسنادی را که متعلق به یک دسته است، تعیین کنیم. از دیگر کاربردهای مرتبط با طبقه‏بندی، عبارت است از تشخیص زبان، موضوع و مؤلف یک متن.

از جمله شیوه هایی که برای تشخیص نویسنده می‏توان استفاده کرد، سبک‏سنجی است. سبک‏سنجی، ویژگی‏هایی از سبک یک نویسنده را تعریف می‌کند و این ویژگی‏ها را در دو یا چند متن اندازه می‏گیرد تا مشابهت میان این دو متن را تعیین نماید. بر این اساس، می‏توان گفت شبیه‏ترین سبک، یعنی دو متن که بیشترین شبهات را از دید سبک به هم دارند، توسط یک مؤلف نوشته شده‏اند. این ایده که سبک در یک سطح ناخودآگاه عمل می‏کند، آن را بهتر قابل اندازه‏گیری می‏سازد. در واقع، می‏توان گفت که سبک نوشتار، به منزله یک اثر انگشت است.

رهیافت‏هایی که برای سنجش و ارزیابی سبک به کار می‏ روند، عبارت‏ اند از:

  • ـ استخراج نشان‏گرهای متن، مانند ویژگی‌های: لغوی، نویسه‌های متن، نحوی، معنایی و ساختاری(طول پاراگراف، استفاده از فرورفتگی متن و...).
  • ـ استفاده از نشان‏گرها برای طبقه‏ بندی متن: از ویژگی‌های نوشتاری هر نویسنده می‌توان ابزاری برای دسته‌بندی متون بر حسب نویسنده استفاده کرد. این کار، دست‌مایه‌ای برای تشخیص نویسنده و در نتیجه، شناخت دست‌برد فکری خواهد بود.

نشان‌گرهای متن ممکن است مبتنی بر واژگان، دستور زبان یا ترکیبی از این دو باشد.

نشان‌گرهای متن مبتنی بر لغات، واژگانی هستند که کلیدهایی درباره مؤلفان به دست می‏دهد.

دو گونه از نشان‏گرها موجودند:

  1. غنای لغات (vocabulary richness)؛
  2. بسامد واژگان دستوری (function words).

اما واژگان دستوری، مانند «به» و «آن»، مستقلاً معنای اندکی دارند و اغلب در متن معنادار می‏شوند. لغات دستوری، مستقل از موضوع‏اند و هر جا که آن‌ها به کار برده شود،  برای شناسایی سبک یک مؤلف کافی به نظر می‏رسد.

اهمیت تشخیص نویسنده، در روزگار کنونی قابل توجه‌تر شده است. شمار پژوهشگرانی که با این مسأله چالش‌انگیز درگیرند و نیز کاربردها و حوزه‌های گوناگون آن، بسیار است. کارشناسان زبان‌های گوناگون در سراسر جهان به این کار مشغول‌اند. هر زبان بر پایه خصوصیاتی که دارد، واجد فرصت گوناگون برای موضوع تشخیص نویسنده است. به همین سبب، بسیار روشن است که مسأله تشخیص نویسنده، بر حسب زبان‌های گوناگون نیز متفاوت خواهد بود.

انواع تحلیل مؤلف

مسأله تحلیل مؤلف را می‌توان چنین دسته‌بندی کرد:

  1. اِسناد تألیف: در این‌جا شباهت تکه‌ای از نوشته تولیدشده به وسیله نویسنده‌ای خاص با آزمایش کردن دیگر نوشته‌هایی که آن مؤلف نوشته است، تعیین می‌شود؛
  2. تعیین خصوصیت نویسنده: در این بخش، خصوصیت یک نویسنده تلخیص می‌شود و نمایه مؤلف بر پایه نوشته‌هایش، مانند جنس، تحصیلات، زمینه فرهنگی، و سبک نوشتار او، ایجاد می‌گردد؛
  3. تشخیص شباهت: در اینجا بخش‌های گوناگون نوشته‌ها مقایسه و اینکه آیا این نوشته‌ها را یک نویسنده بدون تعیین واقعی مؤلف، مانند تعیین دست‌برد فکری، نوشته است یا نه، تعیین می‌شود.

برای استخراج سبک نوشتاری واحد از تعدادی از پیام‌های برخط، لازم است ویژگی‌های گوناگونی ملاحظه شود؛ ویژگی‌هایی مانند: لغوی، رها از محتوا، نحوی، ساختاری و محتوای خاص باشند.

اگرچه بحث اسناد تألیف در طول تاریخ بسیار مطالعه و بررسی شده است، اما در دهه‌های اخیر، اسناد تألیف، حوزه‌ای است که در آن پژوهش‌های عمیق‌تر و گسترده‌تری در حال انجام است؛ به گونه‌ای که نقطه تلاقی حوزه‌های گوناگون پژوهش، مانند یادگیری ماشینی، بازیابی اطلاعات و پردازش زبان طبیعی است. در نگاه نخست، این مبحث، به مثابه مسأله اصلی تعیین نویسنده متون گمنام مطرح شد؛ اما اکنون در حوزه‌هایی چون تحلیل‌های قضایی و تجارت الکترونیک نیز گسترش یافته است.

هنگامی که مؤلف اثری می‌نویسد، به شکل ناخودآگاه از واژگان خاص بهره می‌برد و باید قادر به یافتن الگوهای موجود در این نوشته‌ها برای تعیین سبک یک مؤلف باشیم. این، فرض اساسی اسناد تألیف است که هر مؤلف، عادت به استفاده از واژگان مشخصی دارد که نوشته او را یگانه می‌سازد. استخراج ویژگی‌هایی از متن که نویسنده را از دیگر نویسندگان متمایز می‌کند، شامل استفاده از فنون آماری یا یادگیری ماشینی می‌شود.

فنون اسناد تألیف

در یک تقسیم‌بندی می‌توان فنون اسناد تألیف را به دو دسته کلی تقسیم کرد:

1. فنون تک‌متغیری مبتنی بر آمار

فنون تک‌متغیری آماری، خود به چند شیوه گوناگون تقسیم می‌شود (2):

ـ طبقه‌بندی‌کننده بیز ساده (Naive Bayes classifier): در این شیوه، یادگیری طبقه‌بندی و شیوه‌های طبقه‌بندی، مبتنی بر نظریه احتمال است. الگوی بیزین، یادگیری و طبقه‏بندی بر پایه نظریه احتمال به شمار می‌رود و الگویی تولیدی می‏سازد که بدانیم دادگان چگونه ایجاد شده‏اند. کاربر پیش از عرضه احتمال هر طبقه خاص، اطلاعاتی درباره یک فقره ندارد. در این روش، متن به مثابه مجموعه‏ای از واژگان مستقل از یکدیگر و بدون لحاظ محل قرار گرفتن در متن، در نظر گرفته می‏شوند. از این رو، تعریف تابع احتمال هر متن، از حاصل ضرب احتمال کلمات آن و احتمال رخداد متنی با آن اندازه به دست می‏آید. احتمال هر دسته نیز از تعداد متن‏های متعلق به آن دسته در قیاس با تعداد کل متن‏ها حاصل می‏شود.

ـ شیوه آماری ‌سی‌یواس‌یوام ((CUSUM (or cumulative sum): این فن برای تشخیص ناهمسازی‌های سبک‌شناختی، از طریق ملاحظه تفاوت‌ در تناسب رخدادهای تمایزات خاص مؤلف یا عادت‌های مؤلف در متن به کار می‌رود. سی‌یواس‌یوام، دربردارنده محاسبه یک مجموعه انباشته است. سی‌یو‌اس‌یو‌ام، فن تحلیل متوالی‌ای است که دانشگاه کمبریج آن را عرضه کرده است و نوعاً برای رصد کردن تشخیص تغییرات به کار می‌رود. این فن در دادگاه‌های بریتانیا، به مثابه شاهدی برای اثبات یا رد مؤلف بودن، مانند بیانات شاهدان و اظهارات حضار، به کار برده شده است. فن سی‌یو‌اس‌یو‌ام، مطمئناً در تشخیص ناهمسانی درون متن واحد مفید است؛ اما برخی کارشناسان نشان داده‌اند که در تشخیص دست‌برد فکری سودمند نیست. (Clough, 2003, p. 10)

ـ تحلیل خوشه (clustering analysis): تحلیل خوشه، ابزار تحلیل داده اکتشافی برای حل معضلات طبقه‏بندی است. هدف آن، دسته‏بندی نمونه ها مانند: مردم، اشیا و وقایع، به گروه‌ها یا خوشه‌ها است؛ به گونه‌ای که بر پایه آن، درجه‌ای از پیوستگی میان اعضای یک خوشه، قوی است و میان اعضای خوشه‌های دیگر، ضعیف است.

2.  فنون یادگیری ماشینی

فنون یادگیری ماشینی نیز خود به شیوه‌های ذیل است:

ـ شبکه عصبی پیش‌خورد (Feed-Forward Neural Networks): یک شبکه عصبی پیش‌خورد، شبکه عصبی مصنوعی است که میان واحدهایی که یک چرخه مستقیم را نمی‌سازند، ارتباط ایجاد می‌کند. این شبکه عصبی مصنوعی، از شبکه‌های دیگر متمایز است. شبکه عصبی پیش‌خورد، نخستین و ساده‌ترین گونه شبکه‌های عصبی مصنوعی اختراع‌شده است.

ـ شبکه تابع مبتنی بر شعاع (Radial basis function network): شبکه تابع مبتنی بر شعاع، یک شبکه عصبی مصنوعی است که از توابع مبتنی بر شعاع به مثابه توابع و کارکردهای فعال‌ساز استفاده می‌کند. خروجی این شبکه، ترکیب خطی کارکردهای مبتنی بر شعاع ورودی و پارامترهای عصب است. شبکه‌های تابع مبتنی بر شعاع، برای تقریب کارکردها، پیش‌بینی مجموعه زمان‌ها و کنترل نظام کاربرد دارند.

ـ ماشین بردار پشتیبان (support vector machines): الگوی یادگیری ماشینی نظارت‌شده، با الگوریتم‌های یادگیری مرتبط است که دادگان را تحلیل و الگوها را تشخیص می‌دهد. این الگوی یادگیری ماشینی، برای طبقه‌بندی و تحلیل بازگشتی به کار می‌رود. ماشین بردار پشتیبان بنیادین، مجموعه‌ای از دادگان ورودی را می‌گیرد و پیش‌بینی می‌کند که کدام‌یک از ورودی‌های خاص، تشکیل‌دهنده طبقاتی هستند که در خروجی مشخص خواهند شد.

رهیافت‌های تشخیص خودکار دست‌برد فکری

رهیافت‏های تشخیص دست‏برد فکری، بر پایه نوع ارزیابی شباهت جزئی و کلی‏ای است که آن‌ها دارند. رهیافت ارزیابی شباهت کلی، از نویسه هایی که از بخش‏های بزرگ‌تر متن یا سند به منزله یک کل گرفته شده است، استفاده می‏کند تا شباهت را محاسبه نماید؛ در حالی که شیوه ارزیابی شباهت جزئی، تنها آن بخش از متن را که پیش‏تر برگزیده شده، به منزله ورودی محاسبه می‏کند.

1. انگشت‌نگاری (Fingerprinting):

در ادبیات بازیابی اطلاعات، اثر انگشت یک سند، ممکن است مجموعه‌ای از زیررشته‌های رمزگذاری شده باشد که از یک سند اخذ می‌شود و برای مشخص کردن یگانگی و منحصر بودن آن به کار می‌رود. انگشت‌نگاری، به‌تازگی رهیافتی شایع برای تشخیص دست‌برد علمی است. این شیوه، با انتخاب مجموعه‌ای از زیررشته‌ها (ان-گرام) گوناگون از آن‌ها، خلاصه بازنماینده سند را شکل می‌دهد. این مجموعه‌ها، نشان‌گر اثر انگشت و عناصر آن (فرعیات) است. انگشت‌نگاری یک سند، با تقسیم به زیررشته‌ها و انتخاب یک زیرمجموعه از همه زیررشته‌های ساخته‌شده، انجام می‌شود.

نظام‌های تشخیص دست‌برد فکری، اغلب توابع ریاضی را برای انتقال فرعیات به گونه محاسباتی به رشته‌ بایت‌های مؤثر به کار می‌برند. نظام تشخیص دست‌برد فکری، سندی را با محاسبه اثر انگشت سند و پرس‌وجوی هر یک از فرعیات با نمایه از پیش‌تعیین‌شده از اثر انگشت‌ها برای همه اسناد در مجموعه‌ای مرجع، مقایسه می‌کنند. فرعیاتی که با دیگر اسناد انطباق دارند، نشان از این دارند که بخش‌هایی از متن در آنها مشترک است و پیشنهاد می‌دهد که هنگامی که از آستانه شباهت گزینش شده فراتر رود، احتمال دست‌برد فکری وجود دارد.

2. تطبیق رشته (String matching):

در رهیافت تطبیق رشته برای معضل تشخیص دست‌برد فکری، اسناد برای همپوشانی لفظ به لفظ مقایسه می‌شوند. تطبیق رشته، به جستجو برای به دست آوردن بسامد نویسه‌ها در متن باز می‌گردد. نظام تشخیص دست‌برد فکری که رهیافت تطبیق رشته را به کار می‌برد، از الگوی پیشوند سند استفاده می‌کند که هر زیررشته از یک متن را ذخیره می‌کند. این نظام تشخیص دست‌برد فکری، باید الگوهای پیشوند اسناد را برای اسناد مجعول مقایسه و کل مجموعه مرجع محاسبه کند. چون رشته برای جستجو در تنظیمات تشخیص دست‌برد فکری ناشناخته است، نظام تشخیص دست‌برد فکر باید بخش‌هایی از متون مشکوک را برگزیند و آن‌ها را در مقابل همه دیگر الگوها کنترل کند.

قوت شیوه‌ تطبیق رشته، دقت آن در تشخیص انطباق لفظ به لفظ متن است. الگوهای سند پیشوند، کل نویسه‌های اطلاعات یک متن را رمزگذاری می‌کند که آن‌ها را از الگوهای سند که بیشتر شیوه‌های انگشت‌نگاری به کار می‌برند، متمایز کند. اگر دو سند، زیررشته‌ای مشترک داشته باشند، الگوهای پیشوند سند قادر به تشخیص این همپوشانی خواهد بود.

3. کیف واژگان (Bag of words):

تحلیل کیف واژگان، انطباق بازیابی فضای برداری (vector space retrieval) را که در مفهوم سنتی بازیابی اطلاعات وجود دارد، در حوزه تشخیص دست‌برد فکری نشان می‌دهد. اسناد به مثابه یکی از چند بردار، عرضه شده است. مثلاً برای بخش‌های اسناد گوناگون که برای، محاسبه شباهت دو به دو به کار می‌روند. محاسبه مشابهت ممکن است مبتنی بر مقیاس مشابهت  کوسینوسی، یا بر پایه مقیاس‌های پیچیده‌تر مشابهت باشد.

4. تحلیل استنادی (Citation analysis):

تشخیص دست‌برد فکری بر پایه استناد، بر تحلیل استنادی مبتنی است و تنها رهیافت به تشخیص دست‌برد فکری است که  بر مشابهت متنی تکیه ندارد. تشخیص دست‌برد فکری بر پایه استناد، اطلاعات ارجاعات و استنادهای در متن را برای تعیین الگوهای مشابهت در بسامدهای استنادها می‌آزماید. این رهیافت، برای متنون علمی  یا دیگر اسناد دانشگاهی که دربردارنده استنادها است، مناسب است. تحلیل استنادی برای تعیین دست‌برد فکری، تا حدودی مفهوم جدیدی است.

5. سبک‌سنجی (Stylometry):

سبک‌سنجی، شیوه‌های آماری برای تعیین کمیّت سبک نوشتار یک نویسنده واحد را دسته‌بندی می‌کند و عمدتاً برای اِسناد تألیف یا شیوه تشخیص نویسنده به کمک رایانه به کار می‌رود. با الگوهای سازنده و محاسبه‌کننده سبک‌سنجی برای بخش‌های گوناگون متن، عباراتی که به گونه سبکی متفاوت از دیگر عبارات است و از همین رو، در مظان دست‌برد ادبی است، قابل تشخیص خواهد بود. (Wikipedia, the free encyclopedia, 2014)

سمیم نور(3) ابزاری ماشینی برای تشخیص دست‌برد فکری

یکی از راه های پی بردن به آثاری که در آن‌ها دست‏برد فکری صورت گرفته است، استفاده از پایگاه «سمیم نور» مرکز تحقیقات کامپیوتری علوم اسلامی است. این پایگاه که بر پایه شیوه های یادگیری ماشینی به یافتن متون مشابه اقدام می‏کند، از بانک اطلاعات پایگاه مجلات تخصصی نور (4) برای مقایسه مشابهت میان مقالات عرضه‌شده کاربر بهره می‏برد که در آینده از منابع پایگاه کتابخانه دیجیتال نور (5) و نیز کتاب‌هایی که در بخش خدمات فرهنگی این مرکز و با همکاری تولیدکنندگان محتوا تبدیل به نرم‌افزارهای نور شده، در بانک دادگان پایگاه استفاده خواهد شد. شاید نقطه قوت مرکز تحقیقات کامپیوتری علوم اسلامی نور در انجام این کار، دارا‌بودن انبوهی از متون  و واژگان ماشین‌خوان در حوزه علوم انسانی و اسلامی است. این پشتوانه، ابزارها و مواد اولیه بسیار مناسبی در یادگیری ماشینی و نیز نمونه‌های غنی برای تطبیق و مشابهت به دست می‌دهد.

کارهای مشابه

پیشینه عرضه پایگاهی در زمینه مشابهت‏یابی در دنیا، شاید سابقه‏ای طولانی نداشته باشد؛ اما چندین پایگاه مطرح در این زمینه وجود دارند که شاید یکی از مشهورترین آن‌ها تِرنیتین باشد.

پیشینه استفاده از مشابهت‎‏یابی در نرم‏افزارها و پایگاه های مرکز نور، به برنامه جامع‏ الأحادیث بازمی‏گردد که در آن امکان یافتن احادیث مشابه با حدیث منتخب کاربر وجود دارد. همچنین پایگاه اینترنتی textmining.noorsoft.org به شکل آزمایشگاهی در زمینه داده‌کاوی متون به عرضه خدمات می‏پردازد که یکی از این خدمات، یافتن احادیث و مقالات مشابه است.

مخاطبان پایگاه سمیم

مخاطبان هدف این پایگاه، را می‌توان این چنین برشمرد:

  • ـ صاحبان نشریات علمی، برای بررسی مقالات رسیده، از نظر یافتن نمونه‌های احتمالی انتحال؛
  • ـ بخش‏های تحصیلات تکمیلی برای بررسی پایان‏نامه ها، از نگاه تشخیص دست‏برد علمی؛
  • ـ معاونت‏های آموزشی و پژوهشی مراکز آموزش عالی برای سنجش طرح‏های تحقیقاتی و پژوهش‏های دانشجویان، برای تشخیص دست‏برد فکری احتمالی؛
  • ـ استادان، برای ارزیابی مقالات و پژوهش‏های دانشجویان، از نگاه درستی استنادها و میزان تلاش آن‌ها؛
  • ـ پژوهشگران و دانشجویان برای یافتن مقالات مشابه در حوزه موضوع انتخابی خود، جهت استفاده در نگارش مقالات،  تحقیقات علمی، پایان‏نامه‌ها و کتاب‌ها.

پی‌نوشت‌ها:

منابع:

اطلاعات تکميلي

  • تاریخ انتشار نسخه چاپی: چهارشنبه, 26 شهریور 1393
  • صفحه در فصلنامه: صفحه 25
  • شماره فصلنامه: فصلنامه شماره 47
بازدید 9706 بار
شما اينجا هستيد:خانه آرشیو فصلنامه فصلنامه شماره 47 کاربرد شیوه‌های متن‌کاوی در تشخیص دست‌برد فکری