فرآیند استخراج دانش از داده های پیوسته و سریع
تصور کنید کارخانه ای 500 سنسور جمع آوری داده داشته باشد و این سنسور ها قابلیت دریافت 10 کیلوبایت داده در هر ثانیه ، در یک ساعت نزدیک به 36 گیگابایت داده و روزانه 432 گیگابایت داده را داشته باشد.
این حجم عظیم اطلاعات برای شناسایی بی نظمی یا خطا های سیستم و انجام واکنش مناسب و سریع ، نیاز به پردازش بی وقفه (یا در کوتاهترین زمان ممکن) را دارد. Stream Mining ( کاوش جریان داده ها) امکان تجزیه و تحلیل بی وقفه مقادیر زیادی از داده ها را فراهم می کند. در ادامه با انواع این داده های Stream ، تکنیک ها و روش های پیاده سازی آن آشنا می شویم.
مقدار زیادی از داده ها در یک جریان نامتناهی تولید می شوند و به هیچ عنوان نمی توان یک مجموعه داده جدا و دارای مرزبندی از آن را پیدا کرد.
در گذر زمان تغییر پیدا می کند و یا تکامل می یابد.
سیستم داده های دریافت شده را ذخیره نمی کند. وقتی داده ها تجزیه و تحلیل می شوند ، دور انداخته می شوند و یا خلاصه ای از آن ها باقی می ماند.
وجود سنسورها در وسایل نقلیه ، تجهیزات صنعتی و ماشین آلات مزرعه، داده ها را به صورت یک جریان داده برای پردازش به یک سامانه ارسال می کنند. سامانه نظارت بر عملکرد را بر عهده دارد و قبل از وقوع نقصی، آن را ردیابی می کند. برای نمونه اگر جلوگیری ازاین نقص با تعویض یک قطعه مکانیکی صورت گیرد سامانه دستور انجام این کار را به تجهیز می دهد و از خرابی احتمالی جلوگیری می کند.
یک شرکت بازی سازی آنلاین، جریان داده های مربوط به تعامل بازیکن و بازی را جمع می کند و داده ها را در پلتفرم بازی خود مورد استفاده قرار می دهد، سپس داده ها را در زمان واقعی تجزیه و تحلیل می کند و مراحل بازی، پیشنهادات و الگوریتم هایی متناسب با سلیقه هر بازیکن را ارائه می دهد تا افراد مدت زمان بیشتری با بازی درگیر باشند و پول بیشتر در بازی خرج کنند.
یک موسسه مالی ، تغییرات در بورس سهام را بدون وقفه و فوری ردیابی می کند ، ارزش در معرض خطر را محاسبه می کند و به طور خودکار سبد سهام خود را بر اساس حرکت قیمت سهام ایجاد می کند تا بیشترین سود را ببرد.
در یک نیروگاه برق ، توان عملیاتی را بی وقفه رصد می کند و در صورت رسیدن به آستانه های خاص ، هشدارهایی ایجاد می کند.
یک سایت تجارت الکترونیک از طریق تحلیل جریان داده های کلیک کاربران در نقاط مختلف سایت ، رفتارهای غیر عادی را پیدا می کند و در صورت نمایش رفتار غیرعادی یک هشدار امنیتی ایجاد می کند.
طیف گسترده ای از الگوریتم ها (طبقه بندی ، رگرسیون ، تشخیص داده های پرت، سیستم های توصیه کننده و …) برای کار با Stream Mining وجود دارد.
این الگوریتم ها باید با شناور بودن داده ها (تولید پیوسته داده ها) ، مقادیر عظیمی آن ها و منابع محدود ذخیره سازی داده های شناور ، مقابله کنند.
برخی از الگوریتم ها با استفاده از تکنیک های مبتنی بر داده های قبلی نیاز به پیش پردازش اولیه دارند. به عنوان مثال ، نمونه هایی از الگوریتم های طبقه بندی عبارتند از Naive Bayes ، تصمیم گیری Stump ، Hoeffding Tree یا ADWIN.