منبع اصلی نوشتار حاضر، مقاله «BigData» نوشته: Min Chen، Shiwen Mao و Yunhao Liu می باشد که در وب گاه Springer (ناشر بین المللی منابع علمی، فنی و پزشکی) منتشر گردیده است. گفتنی است، نگارنده علاوه بر ترجمه مقاله مذکور، جهت روشن شدن بحث، نکات و مطالب لازم را نیز به متن افزوده است.
کلیدواژگان: داده های بزرگ، محاسبات ابری، اینترنت اشیاء، مرکز داده، هادوپ، تحلیل های داده های بزرگ.
مقدمه
امروزه داده های حجیم در مرکزِ توجه علوم مدرن و کسب و کار است. این داده ها از تراکنش های آنلاین، ایمیل ها، ویدیوها، صوت ها، متون، اسناد، تصاویر، کلیک بر روی لینک ها، گزارش خطاها، پست ها، گزارش های جستجو، رکوردهای اطلاعات سلامت، عملیات متقابل در شبکه های اجتماعی، داده های علمی، حسگرها، سوابق جزئیات تماس، اطلاعات اعتباری و شخصی، شناسایی فرکانس رادیویی، تلفن های همراه و نرم افزارهای نصب شده روی تلفن های همراه تولید می شوند.
برای شفاف شدن بیشتر، به چند مثال علمی در این خصوص اشاره می کنیم؛ حجم اطلاعاتی که تا سال 2003 توسط انسان ایجاد شد، تنها 5 اگزابایت (1018بایت) است؛ اما امروزه این حجم از اطلاعات، تنها در عرض دو روز ایجاد می شود. IBM در تحقیقی نشان داد هر روز 2/5 اگزابایت داده تولید می شود که حدود %90 داده های موجود، فقط در دو سال اخیر تولید شده است. شرکتی مانند گوگل، بیلیون ها سِروِر در سطح جهان دارد. حدود 6 بیلیون مشترک تلفن همراه در جهان همه روزه 10 میلیون پیام متنی ارسال و دریافت می کنند و تا سال 2020 حدود 50 بیلیون وسیله متصل به اینترنت و شبکه وجود خواهد داشت . از سال 2012، داده های حجیم، به عنوان یک پروژه مهم و جهانی مطرح شد؛ پروژه هایی که به جمع آوری، بصری سازی و آنالیز مقدار زیادی داده می پردازند.
تعریف و ویژگی های داده های بزرگ
برای داده های حجیم، تعاریف مختلفی ارائه شده است. داده های حجیم را می توان داده هایی که پردازش آنها خارج از حدّ توان سیستم های کنونی است، تعریف نمود و یا داده های حجیم را افزایش حجم داده دانست؛ به گونه ای که ذخیره، پردازش و آنالیز آن از طریق فناوری های قدیمی دیتابیس ها به سختی ممکن باشد.
داده های بزرگ، شامل یک مفهوم انتزاعی است؛ یعنی مجموعه داده هایی که قابل مشاهده، اکتسابی، مدیریت شده و فرآوری شده توسط IT سنّتی و ابزارهای نرم افزاری و سخت افزاری نباشند.
Apache Hadoop، داده های بزرگ را به عنوان مجموعه داده هایی تعریف کرده که نمی تواند captured یا گرفته شده مدیریت شوند و یا توسط رایانه های عمومی به طور قابل قبولی، پردازش شوند.
McKinsey & Company، یک آژانس مشاوره جهانی است که داده های بزرگ را به عنوان مرز بعدی نوآوری، رقابت و بهره وری بیان کرده است. از این رو، می توان گفت داده های بزرگ باید به معنای چنین مجموعه داده ای باشد که نمی توانند اکتساب شده ذخیره شوند و یا توسط نرم افزار بانک اطلاعاتیِ کلاسیک مدیریت شوند. این تعریف، شامل دو شرط است: اوّل، حجم پایگاه داده که با استاندارد داده های بزرگ مطابقت دارد، در حال تغییر است و می تواند در طول زمان و یا با پیشرفت های فناورانه ، رشد کند. دوم، نوع پایگاه داده که با استاندارد داده های بزرگ فرق دارند.
برای نمونه، به چند مثال کاربردی اشاره می کنیم؛ یک فروشگاه اینترنتی را در نظر بگیرید که می خواهد با بررسی کلیک بازدیدکنندگان بر روی لینک های مختلف وب سایت، به علایق و سلیقه مشتریان پی برده، بدین سان، کسب و کار خود را بهبود بخشد. یا دولت یک کشور می تواند با رصد شبکه های اجتماعی، به مقابله و پیشگیری از ناهنجاری های جامعه بپردازد. همچنین، در مثال دیگر، فرض نمایید برای انجام یک کار ضروری یا مسافرت از منزل خارج شده اید؛ در طول مسیر متوجه می شوید که یکی از دستگاه های موجود در خانه خاموش نشده است. در این صورت، به جای نگرانی یا بازگشت به منزل، کافی است با مراجعه به رایانه شخصی یا تلفن همراه خویش، وارد فضای شبیه سازی شده منزل خود شوید و دستگاه مذکور را تنظیم یا خاموش نمایید.
داگ لونی، یک تحلیلگر IT، چالش ها و فرصت هایی را که توسط داده های افزایش یافته، با مدل 3V تعریف می کند. در این مدل، سه معیار وجود دارد:
- - «حجم» که با تولید و جمع آوری توده ای از داده ها، مقیاس داده به طور فزاینده ای بزرگ می شود؛
- - «سرعت»، یعنی خط زمان داده های بزرگ که با جمع آوری و تحلیل داده ها، باید به طور زمانی انجام شود. پس، جریان داده به داده سازمان یافته تبدیل می شود تا ارزش آن به حداکثر برسد.
- - «تنوع» که انوع مختلف داده ها را نشان می دهند و شامل داده های غیرساخت یافته ، نیمه ساخت یافته و ساخت یافته است؛ مانند: صدا، تصویر، صفحات وب و متن. داده های ساخت یافته در انباره های داده، تگ خورده و به آسانی ذخیره می شوند؛ اما داده های غیرساخت یافته به صورت تصادفی بوده، آنالیز آنها دشوار است. داده های نیمه ساخت یافته نیز از فیلدهای ثابتی تشکیل نشده اند؛ اما تگ هایی برای جداسازی عناصر داده دارند.
از آنچه گفته شد، می توان به این نکته اشاره داشت که مشخصه های داده های بزرگ می تواند در چهار V خلاصه شود؛ Volume یا حجم (حجم بالا)، Variety یا تنوع (روش های متفاوت)، Velocity یا شتاب و سرعت (تولید سریع) و Value یا مقدار(مقدار بسیار زیاد؛ اما تراکم پایین). (شکل 1)
(شکل 1)
چالش های داده های بزرگ
کاربردهای متفاوت داده های بزرگ ، می تواند بر اساس این فناوری های خلاقانه یا پلتفرم ها ، توسعه یابند؛ اما در این میان، موانع بسیاری در راه توسعه کاربردها و برنامه های داده های بزرگ وجود دارد که به قرار ذیل اند:
- نمایش داده ها: بسیاری از داده ها در نوع، ساختار، معناشناسی، دانه دانه بودن و قابلیت دسترسی، ناهمگن هستند. از این رو، نمایش داده های ناهمگن ، بر حجم داده ها تأثیر می گذارد و حتی مانع تحلیل مؤثر داده ها نیز می شود. ازاین رو، باید گفت نمایش داده های مناسب و همگن ، باید بر ساختار، کلاس، نوع و همچنین فناوری های یکپارچه داده ها تأثیرگذار باشد؛ به طوری که عملیات کارآمدسازی را در مجموعه داده های مختلف مقدور سازد.
- کاهش افزونگی و فشرده سازی داده ها: عموماً، داده ها دارای یک سطح بالایی از افزونگی هستند. کاهش افزونگی و فشرده سازی داده ها، برای کاهش هزینه غیرمستقیم در کلّ سیستم مؤثر است؛ برای مثال، بیشتر داده هایی که با شبکه های حسگر تولید می شوند، به شدت افزونه دارند که می توانند فیلتر شده، به ترتیب بزرگی فشرده شوند.
- مکانیزم تحلیلی: سیستم تحلیلی داده های بزرگ باید توده هایی از داده های ناهمگن را در یک زمان محدود پردازش نمایند. سیستم مدیریت پایگاه داده رابطه ای یا RDBMS، غیرقابل گسترش طراحی شدند؛ اما پایگاه داده غیررابطه ای ، مزیت های منحصر به فردی را در پردازش داده های ساختاربندی شده نشان داده است.
- محرمانگی داده ها: صاحبان داده های بزرگ، در حال حاضر نمی توانند چنین مجموعه داده ای بزرگی را به دلیل ظرفیت محدودشان تحلیل کنند. آن ها باید به حرفه ای ها و ابزارهای پیشرفته برای تحلیل چنین داده هایی متکی باشند که خطرات بالقوه ای را افزایش می دهد و امنیت داده ها را مخدوش می کند.
- مدیریت انرژی: مصرف انرژی سیستم محاسباتی یک پردازنده، از نظر اقتصادی بسیار مهم است. با افزایش حجم داده ها و تقاضاهای تحلیلی، پردازش، ذخیره سازی و انتقال داده های بزرگ، به ناچار انرژی الکتریکی بسیاری مصرف می شود. از این رو، کنترل مصرف برق سیستم باید برای داده های بزرگ انجام شود تا قدرت گسترش و قابلیت دسترسی، تضمین شود.
- همکاری و تعاون: یک معماری شبکه داده های بزرگ و جامع، باید برای کمک به پژوهشگران و مهندسان در زمینه های مختلف ایجاد شود که بتوانند به انوع مختلفی از داده ها دسترسی پیدا کرده، از اطلاعات و دانش خودشان استفاده کنند؛ به طوری که برای تکمیل اهداف تحلیلی با یکدیگر همکاری نمایند.
فناوری های داده های بزرگ
الف. ارتباط بین محاسبات ابری و داده های بزرگ
رایانش ابری، نوعی فناوری قدرتمند برای اجرای محاسبات پیچیده و سنگین است که نیاز به استفاده از سخت افزارهای گران را حذف نموده، فضای محاسباتی و نرم افزار مورد نیاز را در اختیار کاربر قرار می دهد. همچنین، رایانش ابری، یک الگوی جدید زیرساخت محاسباتی محسوب می شود که روشی مناسب برای پردازش داده های حجیم در ابر فراهم می آورد و توسط همه انواع منابعِ در دسترس، قابل استفاده است.
محاسبات ابری، ارتباط نزدیکی با داده های بزرگ دارند؛ جزئیات کلیدی محاسبات ابری ، در شکل «2» نشان داده شده اند. داده های بزرگ، هدف عملیات محاسبه فشرده داده هاست و بر ظرفیت ذخیره سازی یک سیستم ابری تأکید دارد؛ در حالی که هدف اصلی محاسبات ابری، استفاده از محاسبات بزرگ و ذخیره منابع تحت مدیریت متمرکز می باشد؛ به طوری که برنامه های داده های بزرگ را با ظرفیت محاسباتی جزء، ارائه می کند. توسعه محاسبات ابری، راه حل هایی را برای ذخیره سازی و پردازش داده های بزرگ ارائه می نماید. از سوی دیگر، ظهور داده های بزرگ نیز به توسعه محاسبات ابری سرعت می بخشد. حتی اگر هر دو مفهوم محاسبات ابری و داده های بزرگ در جهات زیادی با یکدیگر هم پوشانی داشته باشند، ولی از دو منظر، دارای تفاوت هایی هستند:
- اوّل، محاسبات ابری ، معماری IT را تغییر می دهد؛ در حالی که داده های بزرگ بر تصمیم گیری تجاری تأثیر می گذارند؛ هر چند داده های بزرگ به محاسبات ابری وابسته هستند.
- دوم، داده های بزرگ و محاسبات ابری ، مشتریان متفاوتی دارند. محاسبات ابری، فناوری محصول مدیر ارشد فناوری اطلاعات را به عنوان یک راه حل IT پیشرفته بررسی می کند؛ اما داده های بزرگ، هدف مدیر عاملی است که بر عملیات های تجاری متمرکز است.
(شکل 2)
با پیشرفت داده های بزرگ و محاسبات ابری، این دو فناوری قطعاً و به طور فزاینده با همدیگر در هم پیچیده اند. محاسبات ابری ، با توابعی شبیه به آنهایی که در رایانه ها و سیستم عامل ها هستند، منابع سیستم را ارائه می کنند و داده های بزرگ در سطح بالاتری که توسط محاسبات ابری پشتیبانی می شود، عمل می کنند و توابعی را شبیه آنهایی که در پایگاه داده ها و ظرفیت پردازش داده های کارآمد هستند، ارائه می کنند. از این رو، می توان گفت برنامه های کاربردی داده های بزرگ باید بر اساس محاسبات ابری باشد. پس، محاسبات ابری، فقط محاسبات و پردازش داده های بزرگ نیست؛ بلکه به خودی خود نوعی خدمت است که توسعه داده های بزرگ را نیز ارتقاء می دهد.
ب. رابطه بین اینترنت اشیاء (IoT ) و داده های بزرگ
در مبحث IoT یا همان اینترنت اشیاء، تعداد بسیاری حسگر شبکه ای، در دستگاه های مختلف سخت افزاری تعبیه شده است. چنین حسگرهایی که در زمینه های مختلف گسترش یافته اند، می توانند انوع مختلفی از داده ها را جمع آوری کنند؛ مانند: داده های محیطی، داده های جغرافیایی، داده های نجومی و داده های منطقی یا رقمی. از این رو، تجهیزات تلفن همراه، وسایل حمل و نقل و کاربردهای خانگی، همگی می توانند تجهیزات اکتساب داده در IoT باشند. (شکل 3)
(شکل 3)
بر اساس فرآیندهای اکتساب داده ها و انتقال در IoT، معماری شبکه آن می تواند در سه لایه تقسیم شود: لایه سنجش ، لایه شبکه و لایه کاربردی. لایه سنجش ، مسؤول کسب داده هاست و اساساً شامل شبکه های حسگر می باشد. لایه شبکه، مسؤول انتقال اطلاعات و پردازش آنهاست که انتقال نزدیک، می تواند متکی بر شبکه های حسگر بوده و انتقال از راه دور باید وابسته به اینترنت باشد. در نهایت، لایه کاربردی ، کاربردهای خاص IoT را پشتیبانی می کند.
ج. رابطه بین مرکز داده (DataCenter) و داده های بزرگ
در بحث داده های بزرگ ، مرکز داده، نه فقط یک پلتفرم برای ذخیره سازی متمرکز داده هاست، بلکه مسؤولیت های بیشتری را به عهده دارد؛ مانند: اکتساب داده ها، مدیریت داده ها و سازمان دهی داده ها.
داده های بزرگ، الزام های سخت گیرانه ای در ذخیره سازی، پردازش و همچنین انتقال شبکه ای دارند. شرکت ها باید توسعه مراکز داده ای را برای بهبود ظرفیت سریع و مؤثر پردازش داده های بزرگ تحت نرخ عملکرد/قیمت محدود ، مورد بررسی قرار دهند. مرکز داده باید یک زیرساخت با تعداد زیادی گره ، یک شبکه داخلی سرعت بالا، دفع مؤثر گرما و داده پشتیبان مؤثر ، ارائه کند. فقط زمانی که یک مرکز داده با کارآمدی بالا، ثابت، امن و گسترش پذیر ساخته شود، می تواند عملیات عادی کاربردهای داده های بزرگ را تضمین نماید.
در بحث داده های بزرگ، مرکز داده نباید فقط با تجهیزات سخت افزاری بررسی شود؛ بلکه باید ظرفیت های نرم افزاری را نیز تقویت کند؛ مانند: ظرفیت های اکتساب، پردازش، تجزیه و تحلیل و برنامه های داده های بزرگ.
رابطه بین هادوپ (Hadoop) و داده های بزرگ
در حال حاضر، هادوپ، به طور گسترده در کاربردها و برنامه های داده های بزرگ در صنعت استفاده می شود؛ مانند فیلترینگ اسپم یا هرزنامه، جست و جوی شبکه ای و تحلیل کلیک ها. در واقع، Hadoop یک فناوری نرم افزاری رایگان است که مختص پردازش حجم انبوهی از اطلاعات بر روی ذخیره سازها و سِروِرها، طراحی گردیده است.
منابع تولید داده های بزرگ
- مدیای اجتماعی: اطلاعاتی است که از طریق به اشتراک گذاری و یا تبادل اطلاعات توسط نشانی های اینترنتی و یا ارتباطات مجازی و شبکه های مجازی به دست می آیند؛ نظیر اطلاعاتی که در پروژه های اشتراکی، بلاگ ها، میکروبلاگ ها، فیسبوک و توییتر تولید می شوند.
- داده های ماشین: اطلاعاتی است که به صورت خودکار توسط سخت افزار و نرم افزارهای ابزارهایی نظیر: رایانه ها، وسایل پزشکی یا دیگر ماشین ها بدون دخالت انسان تولید می گردد.
- حسگرها: وسایل حسگر مختلفی برای اندازه گیری کمیّت های فیزیکی و تبدیل آنها به سیگنال وجود دارد که بخشی از داده های حجیم را تولید می نماید.
- اینترنت اشیاء: IoT، مجموعه ای است از اشیاء که به صورت یکتا قابل تعریف هستند و به عنوان بخشی از اینترنت می باشند. این اشیاء، شامل: تلفن های کوچک، دوربین های دیجیتال و تبلت ها هستند. وقتی این وسایل از طریق اینترنت به یکدیگر متصل می شوند، قادرند بیشتر پردازش های کوچک و سرویس های پشتیبانی اقتصادی، محیطی و سلامت را فراهم آورند. تعداد زیاد وسایل متصل به اینترنت، انواع مختلفی از سرویس ها را فراهم می آورند و مقادیر زیادی داده و اطلاعات تولید می نمایند.
تولید و اکتساب داده های بزرگ
اگر داده ها را به عنوان مواد اوّلیه در نظر بگیریم، تولید و کسب داده ها ، یک فرآیند بهره بردای از این مواد خام هستند و ذخیره داده ها، یک فرآیند ذخیره سازی محسوب شده، تجزیه تحلیل داده ها، یک فرآیند تولید می باشد که مواد اوّلیه را برای تولید محصول جدید به کار می بندد. بنابراین، می توان گفت زنجیره مقادیر داده های بزرگ، به طور کلی، در چهار فاز دسته بندی می شود: تولید داده، کسب داده، ذخیره داده و تجزیه و تحلیل داده.
- تولید داده: تولید داده اوّلین مرحله داده های بزرگ است؛ به عنوان مثال، داده های اینترنتی را در نظر بگیرید که در آن حجم عظیمی از داده ها، مانند: ورودی های جست و جو، پست های انجمنی، رکوردها و سوابق چت و پیام های میکروبلاگ ، تولید می شوند. این داده ها مربوط به زندگی روزمره مردم می باشد و ویژگی های مشابهی با مقدار بالا و تراکم پایین دارد. چنین داده های اینترنتی، ممکن است به تنهایی بی ارزش باشند؛ اما در بهره برداری متراکم داده های بزرگ، اطلاعات مفیدی مانند عادات و سرگرمی های کاربران را می توان از آنها به دست آورد و حتی ممکن است حالات احساسی و رفتاری کاربران را پیش بینی کرد.
- جمع آوری داده ها: وقتی کسی به طور گسترده از روش جمع آوری داده ها استفاده می کند، logfiles (فایل های ثبت رخداد)، فایل هایی را که به طور خودکار با سیستم منبع داده تولید شده، ثبت نموده، سپس، فعالیت های انجام گرفته را در فرمت های تعیین شده برای تحلیل های بعدی ثبت می نماید؛ برای مثال، تعداد کلیک ها، دفعات بازدید از وب سایت ها و دیگر سوابق کاربران وب را ثبت می کند. برای ضبط فعالیت های کاربران در وب سایت ها، سِروِرهای وب اساساً شامل سه فرمت فایل ثبت رخداد می باشد: فرمت فایل ثبت رخداد عمومی (NCSA)، فرمت ثبت گسترده (W3C) و فرمت ثبت ISS ا(Microsoft). هر سه نوع فایل های ثبت رخداد، در فرمت متن اَسکی (ASCII) هستند.
- سنجش حس کردن یا Sensing: حسگرها معمولاً در زندگی روزمره برای اندازه گیری کمیّت های فیزیکی و تبدیل کمیّت های فیزیکی به سیگنال های دیجیتالیِ قابل خواندن، رایج می باشند. داده های حسی، می توانند به شکل هایی چون: امواج صوتی ، صدا، لرزش یا ویبره، شیمیایی، جریان، آب و هوا، فشار و یا دما دسته بندی شوند. اطلاعات این حسگرها توسط شبکه های سیمی و بی سیم، به یک نقطه جمع آوری داده انتقال می یابد.
- روش های اکتساب داده های شبکه: در حال حاضر، اکتساب داده های شبکه، با استفاده از Web crawler یا خزنده وب انجام شده است. Web crawler، برنامه ای است که با موتورهای جست و جو برای دانلود و ذخیره سازی صفحات وب استفاده می شود.
- تجهیزات موبایل: امروزه، دستگاه های موبایل به طور گسترده تری استفاده می شوند. همان طور که توابع و عملکردهای موبایل به طور فزاینده ای قوی تر می شوند، پیچیدگی بیشتر و امکانات متعددتر و همچنین، تنوع بیشتر داده ها را نمایان می کنند. دستیابی به اطلاعات موقعیت جغرافیایی از طریق سیستم های موقعیت یاب، دسترسی به اطلاعات صوتی از طریق میکروفن، دستیابی به تصاویر، فیلم ها، نماهای خیابان، بارکدهای دوبُعدی و دیگر اطلاعات چندرسانه ای از طریق دوربین، دسترسی به حرکات کاربر مانند لمس صفحه نمایش توسط انگشت، از ویژگی های این دستگاه هاست؛ برای مثال، iPhone به خودی خود یک جاسوس موبایل است و می تواند داده های بی سیم و اطلاعات موقعیت جغرافیایی را جمع آوری کند و سپس، آن ها را به شرکت Apple ، برای پردازش ارسال نماید که البته معمولاً کاربران از این مسأله بی خبرند. همچنین، سیستم های عامل تلفن های هوشمند مانند اندروید گوگل و ویندوز فون مایکروسافت نیز می توانند اطلاعات را با همین روش جمع آوری کنند.
- ذخیره داده ها: مکانیزم های ذخیره سازی داده های بزرگ را می توان در سه سطح: سیستم های فایل، پایگاه های داده و مدل های برنامه نویسی دسته بندی نمود. به محض تکمیل جمع آوری داده های خام، داده ها به یک زیرساخت ذخیره سازی برای پردازش و تجزیه و تحلیل انتقال می یابند که این انتقال می تواند در مرکز داده رخ دهد.
- تجزیه و تحلیل داده ها: به دلیل تنوع وسیع منابع داده ای ، مجموعه داده های جمع آوری شده با توجه به وجود نویز و یا افزونگی، متفاوت هستند و بی شک، ذخیره این گونه داده ها، بی معناست. به علاوه، بعضی روش های تحلیلی ، الزام های جدّی در کیفیت داده ها دارند. از این رو، به منظور فعال سازی تجزیه و تحلیل مؤثر، باید داده ها را تحت شرایطی برای مرتبط کردن آن ها با هم، از منابع مختلف پیش پردازش کنیم که این کار، فقط هزینه های ذخیره سازی را کاهش نمی دهد؛ بلکه دقت تحلیل را نیز بهبود می بخشد. از فنون پیش پردازش داده ای می توان به: یکپارچه سازی داده ها، پاک سازی داده ها و حذف افزونگی داده ها اشاره نمود.
ابزارهای کاوش و تحلیل داده های بزرگ
- (R (30.7%: یک زبان برنامه نویسی منبع باز و محیط نرم افزاری می باشد که برای کاوش، تحلیل و حالت بصری داده ها طراحی شده است.
- (Excel (29.8%: یک کامپوننت اصلی Microsoft Office می باشد که پردازش داده ها و قابلیت های تحلیل آماری قوی را ارائه می کند.
- (Rapid-I Rapidminer (26.7%: یک نرم افزار منبع باز است که برای داده کاوی، ماشین یادگیری و تحلیل های پیش بینی استفاده می شود. از جمله برنامه های داده کاوی و ماشین یادگیری که توسط رپیدماینر پیاده سازی می شوند، می توان به: استخراج، تبدیل و بارگذاری، پیش پردازش و بصری سازی، مدل سازی و گسترش داده اشاره نمود.
- (KNMINE (21.8%: یک پلتفرم کاربرپسند و هوشمند است که برای یکپارچه سازی داده های منبع باز غنی، پردازش داده ها، تحلیل داده ها و داده کاوی کاربرد دارد.
- (Weka/Pentaho(14.8%: وکا(Weka)، یک ماشین یادگیری است که عملیاتی چون: پردازش داده، انتخاب ویژگی، کلاس بندی، رگراسیون، کلاسترسازی، قانون مشارکت و تجسم سازی را ارائه می کند. Pentaho ، این نرم افزار، شامل یک پلتفرم وب سرویس و چندین ابزار برای اموری مانند: پشتیبانی گزارش گیری، تحلیل، چارت بندی، یکپارچه سازی داده و داده کاوی می باشد.
روش های تحلیل داده ها در داده های بزرگ
1. تحلیل داده های ساخت یافته
کاربرد های تجاری و پژوهش های علمی می توانند داده های ساخت یافته حجیمی را تولید کنند که مدیریت و تحلیل ها بر فناوری های تجاری-تبلیغاتی متکی باشند؛ برای مثال، ماشین یادگیری آماری مبتنی بر مدل های ریاضی دقیق و الگوریتم های قوی ، برای کشف وضعیت نامطلوب و کنترل انرژی به کار گرفته می شود که برگرفته از حفظ حریم شخصی در تجارت الکترونیک و دولت الکترونیک و کاربرد های پزشکی و بهداشتی است.
2. تحلیل داده های متن
رایج ترین فرمت ذخیره سازی اطلاعات، متن است؛ مانند: ایمیل ها، اسناد تجاری، صفحات وب و رسانه اجتماعی. معمولاً تحلیل متن، یک فرآیند برای استخراج اطلاعات و دانش مفید از متن ساختارنیافته می باشد. متن کاوی به طور خاص ، بین رشته ای، شامل بازیابی اطلاعات، ماشین یادگیری، آمار و ارقام، زبان شناسی محاسباتی و داده کاوی می باشد. بیشتر سیستم های متن کاوی، بر اساس توصیف متن و پردازش زبان طبیعی (NLP) با تأکید بیشتر بر حروف می باشد.
3. تحلیل داده های وب
تحلیل داده های وب، به عنوان یک رشته پژوهشی فعال ظهور پیدا کرد. هدف این تحلیل، بر بازیابی، استخراج و ارزیابی اطلاعات از اسناد و خدمات وب به طور خودکار استوار است که دانش مفید را کشف می کند. تحلیل وب، مربوط به چند رشته پژوهشی می باشد؛ از جمله: پایگاه داده، بازیابی اطلاعات، NLP و متن کاوی . کاوش محتویات وب ، فرآیندی برای کشف دانش مفید در صفحات وب می باشد که معمولاً شامل چند نوع از داده ها، همچون: متن ، تصویر ، صوت، ویدیو، کد ، فراداده و لینک می باشد.
4. تحلیل داده های چندرسانه
چون داده های چندرسانه، ناهمگون و بیشتر شامل اطلاعات غنی تر نسبت به داده های ساخت یافته ساده یا داده های متنی هستند، استخراج اطلاعات، با چالش بزرگی از تفاوت های معنایی رو به رو می شود. تحقیق بر تحلیل چندرسانه ، بسیاری از رشته ها را پوشش می دهد. بعضی از اولویت های پژوهشی اخیر، عبارت است از: خلاصه سازی چندرسانه، حاشیه نویسی چندرسانه، نمایه سازی و بازیابی چند رسانه ای.
5. تحلیل داده های شبکه
تحلیل داده های شبکه، از تحلیل مقدار اوّلیه در تحلیل شبکه اجتماعی آنلاین در اوایل قرن 21 میلادی تکامل یافت. بسیاری از خدمات شبکه اجتماعی آنلاین، از قبیل: Twitter, Facebook و Linkedin به طور فزاینده ای در این سال ها محبوب و مشهور شده اند. این شبکه های اجتماعی، عموماً شامل داده های لینکی حجیم و داده های محتوایی می باشند. داده های لینکی، اساساً در قالب ساختارهای گرافیکی هستند که ارتباطات میان دو موجودیت را توصیف می کنند. داده های محتوایی شامل: متن، تصویر و دیگر داده های چندرسانه ای شبکه می باشند. محتوای غنی در این شبکه ها، چالش های بی سابقه و نیز فرصت هایی برای تحلیل داده ها به ارمغان آورده اند.
6. تحلیل داده های موبایل
با رشد تعداد کاربران موبایل و بهبود عملکرد آنها، تلفن های همراه اکنون برای ساخت یک جامعه کارآمد، مفیدند؛ مانند جامعه هایی با موقعیت های جغرافیایی و جامعه های مبتنی بر پس زمینه فرهنگی و علایق. جوامع شبکه سنّتی یا جوامع SNS، در تعامل آنلاین کوتاه مدت میان اعضاء نقش دارند. این جوامع، فقط زمانی که اعضاء پشت رایانه خود هستند، فعال می باشند. در مقابل، تلفن های همراه می تواند تعامل غنی ای در هر زمان و مکان را پشتیبانی نمایند.
کاربردهای مهم داده های بزرگ
1. کاربرد داده های بزرگ در سازمان ها و شرکت ها
کاربرد داده های بزرگ در شرکت ها، می تواند بهره وری تولید و رقابت پذیری را از جنبه های بسیاری بالا ببرد. به طور خاص، در بازاریابی، با تحلیل داده های بزرگ، شرکت ها می توانند با دقت بیشتری رفتار مشتری را پیش بینی نمایند و شرایط همکاری بهتری را در تجارت پیدا کنند. شرکت ها می توانند در برنامه ریزی و معرفی طرح های فروش، بعد از مقایسه داده های حجیم، قیمت کالاهای خودشان را بهینه سازند تا کارآمدی، بهره وری و رضایت بخشی تجاری، بهینه سازی نیروی کار، پیش بینی درست و دقیق تخصیص الزام های پرسنلی، پرهیز و دوری از ظرفیت تولید اضافی و کاهش هزینه انجام کار را بهبود بخشند. همچنین، این شرکت ها می توانند در زنجیره تأمین نیازهای اساسی خود و با استفاده از داده های بزرگ، بهینه سازی موجودی انبار و نیازهای ضروری خویش را برای کاهش توقف بین تأمین و تقاضا، کنترل بودجه و بهبود خدمات اداره کنند.
امروزه سازمان ها و شرکت ها، از جمله مراکز و سازمان هایی که در زمینه علوم اسلامی فعالیت دارند، می توانند از داده های حجیم خود استفاده های گوناگونی ببرند. مرکز تحقیقات کامپیوتری علوم اسلامی، در شمار مراکزی است که بعد از گذشت نزدیک به سه دهه از تحقیقات نرم افزاری خود، حجم عظیمی از داده های علوم و معارف اسلامی را در اختیار دارد؛ گنجینه ای که پاسخگوی نیاز جامعه علمی ایران و دست مایه ای بزرگ برای تولید علم در کشور به شمار می رود.
از دیگر کاربردهای داده های بزرگ، تولید محصولات نرم افزاری هوشمند است که بر اساس داده های موجود یا اطلاعات دریافت شده از تعامل با کاربران سامان می یابد؛ برای مثال، وقتی یک محقق علوم اسلامی در جستجوی موضوعی خاص است، داده های بزرگ در این زمینه او را در دستیابی به مطالب منسجم، جامع و دقیق یاری می رسانند و همه منابع و محتواهای معتبر، میان رشته ای و مرتبط با موضوع را در اختیار او قرار خواهد داد.
2. کاربرد داده های بزرگ مبتنی بر اینترنت اشیاء (IoT)
برای مثال، کامیون های UPS به حسگرها ، آداپتورهای بی سیم و GPS مجهز هستند که دفتر مرکزی می تواند موقعیت های کامیون را دنبال کند و از خرابی موتور یا مشکلات احتمالی در طول مسیر جلوگیری نماید. در همین حال، این سیستم به UPS کمک می کند که کارمندانش را نیز مدیریت و نظارت کند و مسیر های تحویل را بهینه سازد. مسیر های تحویل بهینه که مختص به کامیون های UPS است، از سابقه تجربه رانندگی آنها استخراج شده است.
همچنین، شهر هوشمند، یک محدوده پژوهشی بر اساس کاربرد داده های IoT می باشد؛ برای مثال، همکاری پروژه شهر هوشمند بین Miami-Dade در فلوریدا و IBM نزدیک به 35 نوع دپارتمان دولتی را در آنها به هم متصل می کند و در نتیجه، دولت، می تواند اطلاعات بهتری برای پشتیبانی و تصمیم گیری برای مدیریت منابع آبی، کنترل ترافیک و بهبود امنیت عمومی به دست آورد.
3. کاربرد داده های بزرگ در شبکه های اجتماعی آنلاین
SNS آنلاین، یک ساختار اجتماعی تشکیل شده از افراد اجتماعی و اتصالات میان افراد بر اساس یک شبکه اطلاعاتی می باشد. داده های بزرگ SNS آنلاین، از پیام های فوری و آنلاین، میکروبلاگ و یا فضای اشتراک می باشد که فعالیت های مختلف کاربر را اداره می کند. تحلیل های داده های بزرگ در SNS آنلاین، روش تحلیلی محاسباتی ارائه شده را برای فهم روابط جامعه انسانی توسط نظریات و روش ها بیان می نماید که شامل: ریاضیات، انفورماتیک، جامعه شناسی و یا علم مدیریت است و از آنها در سه بُعد: ساختار شبکه، تعامل گروهی و گسترش اطلاعات استفاده می کند. این برنامه، شامل توانایی هایی همچون: تحلیل هوش شبکه ای، بازاریابی اجتماعی، پشتیبانی تصمیم گیری های دولتی و تحصیل آنلاین می باشد. (شکل 4)
(شکل 4)
امروزه، فضای مجازی از جمله شبکه های اجتماعی، شرایط خوبی را برای گسترش و آموزش علوم و معارف دینی پدید آورده و به یقین، داده های بزرگ در این فضا می تواند بسیاری از علاقه مندان این گونه مطالب و مباحث را پاسخ دهد؛ برای مثال، راه اندازی پروژه های ملی در این زمینه، همچون شبکه ملی اطلاعات و جستجوگر قوی در منابع فارسی فضای مجازی، گامی مؤثر و مفید در این راستا می باشد.
امنیت داده های بزرگ
نگران کننده ترین مسأله دوران کنونی، حریم خصوصی و امنیت اطلاعات می باشد. از آنجا که حریم خصوصی برای فرد و انواع داده های سازمانی بسیار ضروری ا ست، تبدیل به یک چالش عمده برای کلان داده ها شده است. جلوگیری از نشت داده ها در هنگام پردازش و دفاع از حملات بیرونی، نیازمند نوعی مدل امنیت داده محور قابل اعتماد است. این فناوری، همچنین باید از تهدیدات امنیتی که ممکن است در هنگام ذخیره سازی چنین داده های بزرگی رخ می دهد، مراقبت کند.
در عصر داده های بزرگ، همان طور که حجم داده ها به سرعت رشد می کند، خطرات امنیتی شدیدتری وجود دارد؛ در حالی که ثابت شده روش های حفاظت داده های سنّتی، برای داده های بزرگ کارآمد نیستند؛ به خصوص حریم خصوصی داده های بزرگ که با چالش های امنیتی زیر مواجه می شود:
- - حفاظت از حریم خصوصی حین کسب داده: علایق و ویژگی های شخصی و عادات کاربران می تواند به راحتی کسب شود و کاربران متوجه نخواهند شد.
- - داده های حریم خصوصی می توانند حین ذخیره سازی، انتقال و استفاده، نشتی پیدا کنند؛ حتی اگر با تأیید کاربران به دست آید. از این رو، می توان نتیجه گرفت که حریم خصوصی کلان داده ها می تواند به وسیله دو رویکرد مختلف حفظ شود: یکی، تحمیل قوانین به فرد و سازمان، و روش دیگر، توسعه حریم خصوصی.
بنابراین، داده های بزرگ، چالش هایی برای رمزگذاری داده های با مقیاس بزرگ و تراکم بالا به ارمغان می آورد. عملکرد روش های رمزگذاری در داده های کوچک و متوسط، نمی تواند تقاضای داده های بزرگ را برآورده کند؛ چرا که باید روش های رمزنگاری داده های بزرگ کارآمد شود و توسعه یابد. ازاین رو، در این خصوص باید طرح های مؤثر مدیریت امنیت، کنترل دسترسی و ارتباطات امن برای داده های ساخت یافته، نیمه ساخت یافته و غیرساخت یافته ، مورد بررسی و تحقیق قرار گیرد.
پی نوشت:
منابع:
1. (11.03.2013)." An introductory session on Big Data".Available: http://www.humanfaceofbigdata.com2. A. vailaya, "What's All the Buzz Around "BigData?"," IEEE Women in Engineering Magazine, pp. 24-31, December 2012.
3. C. Eaton, et al., "Understanding Big Data: Analytic for Enterprise Class Hadoop and Streaming Data: Mc Graw-Hill companies", 2012.
4. D. J. Abadi, et al., "Harizopoulos,Column-oriented database systems," Processing VLDB Endow, vol. 2, pp. 1664-1665, 2009.
5. H. Rathod and T. Chauhan, "A Survey on Big Data Analysis Techniques," IJSRD - International Journal for Scientific Research & Development, vol. 1, pp. 1806-1808, 2013.
6. I. A. T. Hashem, et al., "The Rise of "Big Data" on Cloud Computing:Review and Open Research Issues," Information System, vol. 47, pp ,115-98 .Agust 2014.
7. M. Minelli, et al., "Data, Big Data Analytics:Emerging Business Intelligence and Analytic Trend for Today's Businesses": John Wiley & Sons, 2013.
8. Min Chen , Shiwen Mao , Yunhao Liu," Big Data: A Survey",© Springer Science+Business Media New York 2014.
9. P. Neubauer, "Graph databases, NOSQL and Neo4j," 2010.
10. R. D. Schnieder, "Hadoop for Dummies Special" Edition: John Widly&Sons Canada, 2012.
11. S. M. Seeger, Comput.Sci.Media, "Ultra-Large-Sites,Key-Value stores:a practical overview," computer sciences Media, 2009.
12. S. Sagirogolu and D. Sinanc, "Big Data: A Review," IEEE, 2013.
13. S. Singh and N. Singh, "Big Data Analytics," presented at the International Conference on Communication, Information & Computing Tecnology, Mumbai india, 2012.
14. Shrivasta, K., Rizvi, M., & Singh, S. "Big Data Privacy Based on Differential Privacy a Hope for Big Data". Computational Intelligence and Communication Networks (CICN) (pp. 776-781). Bhopal: IEEE, 2014.