رده:کاوش فرآیند

از دانشنامه فناوری وب
پرش به: ناوبری، جستجو

کاوش فرآیند(Process Mining)

کاوش فرآیند موضوع نسبتا جوانی می باشد که بین هوش محاسباتی و داده کاوی از یک سو و مدل سازی فرآیند و آنالیز از دیگر سو قرار می گیرد. هدف کاوش فرآیند کشف، مانیتور و ارتقای فرآیند های واقعی از طریق استخراج دانش از داده های ذخیره شده ی قابل خوانش از سیستم های اطلاعاتی امروزه می باشد. کاوش فرآیند یا processmining بیشتر به آنالیز فرآیند ها با استفاده از داده های رویداد می پردازد [FIS01,AAL00,AAL02,LAW97]. تکنیک های کلاسیک داده کاوی نظیر خوشه بندی، طبقه بندی، کاوش قانون و ... برروی مدلهای فرآیندی کسب و کار تمرکز ندارند و فقط برای آنالیز گام مشخصی در فرآیند کلی استفاده می شوند. کاوش فرآیند برروی فرآیندهای انتها به انتها تمرکز داشته و امکان پذیر هم می باشد چراکه داده های در دسترس رویداد، روز به روز بیشتر می شوند و تکنیک های کشف فرایند جدید و همچنین تکنیک های چک کردن همخوانی هم در حال توسعه روز افزون می باشند. تکنیک های کاوش فرایند از داد ههای وقایع ثبت شده برای کشف و آنالیز و ارتقای فرآیندهای کسب و کار استفاده می شود. کاوش فرآیند، به معنای کشف و مانیتورینگ و ارتقای فرایندهای واقعی با استفاده از دانش استخراج شده از event log های موجود در سیستم های اطلاعاتی امروزه می باشد. هر رویداد در یک رویداد ثبت شده به یک فعالیت اشاره دارد و مرتبط با یک مورد (نظیر یک نمونه فرآیند) می باشد.

انواع روش های کاوش فرآیند

تکنیک های کاوش فرآیند، براساس داده های ثبت شده رویداد، به سه دسته کلی تقسیم‌بندی می‌شوند:

دسته اول یا همان تکنیک های کشف فرآیند، به عنوان ورودی، داده های ثبت شده رویداد را دریافت کرده و یک مدل بدون استفاده از هیچ اطلاعات پیشینی تولید می نمایند. تکنیک‌های چک کردن مطابعت بررسی می‌کنند که آیا فرآیند واقعی ایی که در حال اجرا در سازمان بوده و اطلاعات آن در فایل رویداد ثبت شده است منطبق با یک مدل هدف اولیه مدنظر می‌باشد و بلعکس. تکنیک‌های دسته سوم هم به این موضوع می پردازند که آیا می شود با استفاده از داده های رویداد ثبت شده یک فرآیندرا ارتقا یا توسعه داد. به عنوان مثال با استفاده از برچسب زمانی در داده های ثبت شده می توان مدل را طوری توسعه داد که گلوگاهها، لایه های سرویس و زمان توان عملیاتی را نشان دهد. برخلاف روش های آنالیز موجود، کاوش فرآیند، فرآیند محور می باشد و نه داده محور، کاملا هوشمند و مبتنی بر حقایق. همچنین مرتبط با داده کاوی می‌باشد. البته روش‌های سنتی داده کاوی مبتنی بر داده هستند ولی کاوش فرآیند مبتنی بر فرآیند می باشد.

یک مثال ساده از کاوش فرآیند در سیستم آموزش

به منظور آشنایی بیشتر با بحث کاوش فرآیند، سیستم آموزش را در نظر بگیرید. اکثر دانشگاهها دارای سیستم آموزشی می باشند. اما در بعضی از مواقع ممکن است چارت درسی به صورت مشخص و مدونی در دسترس نباشد. داده های سیستم اموزش حاوی اطلاعاتی از قبیل انتخاب واحدهای دانشجویان بهمراه درسی که انتخاب کرده اند و زمان و تعداد انتخاب ها در طول ترم های مختلف می باشد. با استفاده از یک سیستم کاوش فرآیند می توان از روی این دادهها، چارت درسی که به نوعی فرآیند تحصیلی یک دانشجو می باشد (کشف فرآیند) را استخراج نمود. از طرف دیگر می توان با استفاده از تکنیک های چک کردن مطابعت، میزان پیروی دانشجویان جدید از سرفصل های از پیش تعیین شده را مشخص نمود و مشخص نمود که آیا دانشجو در انتخاب درسها، پیش نیازها و هم نیازهای آن درس را رعایت کرده است یا خیر. همچنین با استفاده از تکنیک های کاوش سازمانی می توان گلوگاههای سیستم را شناسایی نموده و فرآیند را ارتقا داد. مثلا اینکه دانشجویان که در ترم خاصی درس مهندسی نرم افزار را پاس می کنند موفق تر هستند و بر مینای همین اطلاعات بدست آمده، چارت درسی را تغییر داد. همچنین می توان با استفاده از تکنیکها برخی از رویدادها را پیش بینی نموده و بر مبنای آن اقداماتی انجام داد. مثلا پیش بینی کرد که آیا این دانشجوی جدید الورود قادر هست که درس خود را به پایان برساند و یا چند ترمه به پایان خواهد رساند و سپس بر مینای این اطلاعات، مشاوره هایی را به بعضی از دانشجویان داد.

چالش های کاوش فرآیند

کاوش فرآیند مهمترین ابزار برای سازمانهای مدرنی است که نیاز به مدیریت مناسب فرآیندهای عملیاتی دارند. از یک سو با رشد باورنکردنی حجم داده روبرو هستیم و از دیگر سو فرآیندها و اطلاعات باید بطور مناسبی جمع آوری شوند تا نیازمندیهای مربوط به کارایی، انطباق و سرویس های مشتری پاسخ داده شود. علی رغم کاربردی بودن کاوش فرآیند، هنوز چالش های عمده ای پیش رو می باشد که باید مورد توجه قرار گیرد. در ذیل به این چالش ها اشاره شده است.

  • چالش اول : یافتن، ادغام کردن و تمیز کردن داده های رویداد
در سیستم‌های فعلی نیز انرژی زیادی باید صرف استخراج داده‌های رویداد مناسب برای کاوش فرآیند صورت گیرد. به طور معمول، در این زمنیه چند مشکل وجود دارد که باید مرتفع گردد. برخی از این مشکلات عبارتند از
  1. ممکن است داده ها برروی چندین منبع توزیع شده باشد. این اطلاعات باید ادغام گردند. این مشکل زمانی حادتر می شود که از چندین شناسه برای منابع مختلف استفاده شود. مثلا یک سیستم از نام و تاریخ تولد برای شناسایی افراد استفاده کند و سیستم دیگر از شماره امنیتی اجتماعی فرد.
  2. داده های سازمانی غالبا object محور می باشند و نه فرآیند محور. به عنوان مثال محصولات و ظرف ها می تواند تگ های RFID ایی داشته باشند که خودکار منجر به ثبت رکورد گردند. برای رصد کردن سفارش یک مشتری، این اطلاعات شی محور باید ادغام و پیش پردازش شوند.
  3. داده های رویداد ممکن است ناکامل باشند. یکی از رایج ترین مشکلات این است که رویدادها به صورت صریح به نمونه های فرایند اشاره نمی کنند.
  4. داده های رویداد ممکن است حاوی اطلاعات پرت باشد. منظور از داده های پرت نمونه هایی است که از الگوی عمومی پیروی نکرده و به ندرت اتفاق می افتند.
  5. لاگ ممکن است حاوی اطلاعاتی با سطوح مختلف دانه دانه شدن باشد. داده های لاگ بیمارستانی ممکن است به یک تست خون ساده اشاره کند و یا اینکه به یک رویه پیچیده جراحی اشاره نماید. همچنین برچسب زمانی هم می تواند از دقت میلی ثانیه (28-9-2011:h11m28s32ms342) تا اطلاعات درشتتر نظیر روز (28-9-2011) را شامل شود.
برای حل این مشکل نیاز به ابزارهای بهتر و متدولوژیهای مناسب تر می باشد. علاوه بر آن، همانطور که پیش تر نیز به آن اشاره شد، سازمانها باید با داده های لاگ همانند شهروندان درجه یک برخورد کنند و نه به عنوان یک محصول جانبی.
  • چالش دوم : استفاده از داده های رویداد پیچیده ای که ویژگی های گوناگونی دارند
داده های لاگ ممکن است که ویژگی های خیلی متنوعی داشته باشند. بعضی از داده های لاگ ممکن است که آنچنان بزرگ باشند که رسیدگی به آنها دشوار باشد و بعضی از آنها ممکن است آنقدر کوچک باشند که نتوان نتایج قابل اطمینانی از آنها استحصال کرد. ابزارهای موجود در مواجه با داده های با ابعاد پتابایت دشواری هایی دارند. در کنار تعداد رکوردهای رویدادهای ذخیره شده ویژگی های دیگری نظیر متوسط تعداد رویدادها در هر حالت، شباهت میان حالت ها، تعداد رویدادهای منحصر به فرد و تعداد مسیرهای واحد نیز هستند که باید مورد توجه قرار گیرند. به عنوان مثال فایل لاگ داده L1 با مشخصات ذیل را در نظر بگیرید: 1000 حالت، به طور متوسط 10 رویداد به ازای هر حالت. فرض کنید فایل لاگ L2 حاوی تنها 100 حالت باشد اما هر حالت حاوی 100 رویداد باشد و همه رویدادها از یک مسیر واحد تبعیت کنند. پر واضح است که آنالیز L2 بمراتب دشوار تر از آنالیز L1 می باشد، علی رغم اینکه هر دو فایل سایز برابر و یکسانی دارند.
از آنجایی که داده های لاگ تنها حاوی نمونه های مثال می باشند، بنابراین نباید اینطور فرض شود که آنها کامل هستند. تکنیک های کاوش متن باید با استفاده از "فرض جهان باز" با این عدم کامل بودن کنار بیایند: این واقعیت که اگر پدیده ای اتفاق نمی افتد به معنای عدم امکان رخداد آن نیست. این موضوع تعامل با داده های لاگ با سایز کم و حاوی تغییرات زیاد را دشوار می کند.
همانطور که پیش‌تر هم اشاره شد، بعضی از فایل‌های لاگ ممکن است حاوی رکوردهایی با سطح انتزاع بسیار پایین باشند. داده های با سطح پایین چندان مطلوب ذی نفعان نمی باشند. بنابراین عموما سعی می شود تا داده های سطح پایین با همدیگر تجمیع شوند تا داده های با سطح بالاتر تولید گردد. به عنوان مثال، زمانی که فرآیند تشخیص و درمان گروهی از بیماران آنالیز می شود، احتمالا دیگر علاقه مند به دانستن نتایج آزمایشات انفرادی افراد نیستیم.
در این گونه از موارد، سازمان ها لازم است که از روش سعی و خطا استفاده نمایند تا دریابند که آیا داده‌ها مناسب برای کاوش فرآیند می باشند. بنابراین ابزارها باید سرویس آزمایش امکان‌سنجی سریع برای یک پایگاه داده مشخص را فراهم نمایند.
  • چالش سوم : ایجاد شاخصه های ارزیابی
کاوش فرآیند تکنولوژی نوظهوری می باشد. همین امر نشان می دهد که چرا نیاز به شاخصه های ارزیابی می باشد. به عنوان مثال تاکنون دهها تکنیک کشف فرآیند ارائه شده است اما گزارش دقیقی از کیفیت این روش ها در دسترس نمی باشد. علی رغم اینکه تفاوت های زیادی در کارایی و عملکرد این تکنیک ها وجود دارد، ارزیابیشان کار دشوار و پیچیده ای می باشد.
بنابراین نیاز به داده های استاندارد و همچنین معیارهای کیفیت مناسب به شدت احساس می شود. البته در این زمینه کارهای محدودی انجام شده است. از جمله معیارهای ارزیابی ارائه شده به چهار معیار سازگاری، سادگی، دقت و عمومیت می توان اشاره نمود. همچنین داده های رویداد ثبت شده هم در سایت [کاوش فرآیند] موجود می باشد. از یک طرف باید شاخص ها براساس داده های واقعی باشد. از طرف دیگر نیاز به تولید پایگاه داده ترکیبی ایی می‌باشد که ویژگی های خاصی داشته باشد.
  • چالش چهارم : مواجه با رانش مفهومی (Concept Drift)
عبارت رانش مفهومی در حوزه کاوش فرآیند به موقعیتی اشاره می‌کند که در آن فرآیند در عین حال که در حال آنالیز شدن می باشد، تغییر نیز می کند. به عنوان مثال در ابتدای یک فایل لاگ، ممکن است که دو فعالیت همزمان باشند در حالیکه در ادامه در لاگ این دو فعالیت ترتیبی شوند. فرآیند ها به دلایل مختلفی ممکن است تغییر کنند. بعضی از این تغییرات بنابه دلایل تغییرهای دوره ای می باشد (مثلا در ماه مهر و اسفند خریدها بیشتر است و یا اینکه بعد از ظهر جمعه کارمندان کمتری در دسترس هستند). بعضی از تغییرات هم به واسط تغییر شرایط رخ می دهند (مثلا بازار رقابتی تر می شود). این تغییرات برروی فرآیند تاثیر می گذارند و ضرورت دارد که به آنها توجه شود.
پدیده رانش مفهومی با استفاده از شکستن فایل لاگ به قطعات کوچکتر و آنالیز رد پای(footprint) این قطعات قابل شناسایی می‌باشد. این آنالیز مرتبه دوم (second order) نیازمند داده های رویداد بیشتر می باشد. با این حال تعداد کمی از فرآیند‌ها در حالت ثابت می‌باشند و فهم رانش مفهومی دارای اولویت بالایی در مدیریت فرآیندها می‌باشد. بنابراین ابزارها و تحقیقات بیشتری برای آنالیز مناسب رانش مفهومی مورد نیاز می باشد.
  • چالش پنجم : ارتقای پیش فرض‌های نمایشی که در کشف فرآیند استفاده می شوند(Representational Bias)
یک تکنیک کشف فرآیند، با استفاده از یک زبان مشخص (BPMN، Petri Net و ...) یک مدل فرایند تولید می نماید. به هر حال مهم است که تجسم نتایج، مجزای از نمایی باشد که در کشف فرآیند مورد استفاده قرار می گیرد. انتخاب یک زبان هدف غالبا تعدادی فرض ضمنی را هم در‌بر می‌گیرد. این فرضیات فضای جستجو را محدود کرده و فرآیند هایی که نمی توانند با استفاده از زبان مقصد نمایش داده شوند، کشف نخواهند شد. این به اصطلاح پیش فرض‌های نمایشی که در کشف فرآیند استفاده می‌شوند باید با انتخاب آگاهانه همراه گردند و نباید (فقط) بر مبنای اولویت های نمایشی گرافیکی انتخاب شوند.
مثلا شکل ذیل را در نظر بگیرید. بسته به آنکه زبان مقصد اجازه همزمانی را بدهد و یا ندهد، می‌تواند برروی نمایش مدل کشف شده و کلاس مدلهایی که توسط الگوریتم استفاده می شود تاثیر داشته باشد. اگر پیش‌فرض‌های نمایشی اجازه همزمانی را ندهند (بخش a تصویر) و اجازه استفاده همزمان چند فعالیت از یک برچسب را ندهند ( بخش c از تصویر)، آنگاه شکل b تصویر که دارای مشکلات هم باشد تنها امکان پذیر خواهد بود.
  • چالش ششم : برقراری تعادل بین معیارهای کیفیت نظیر سازگاری، سادگی، دقت و عمومیت
غالبا داده های ثبت شده کامل نیستند. مدل های فرآیندی معمولا محدودیتی برای تعداد نامحدود نمونه فرآیند (درحالت وجود حلقه ها) ندارند. از طرفی، بعضی از نمونه ها هم نسبت به سایرین رخداد بمراتب کمتری دارند. بنابراین اینکه فکر کنیم هر نمونه فرآیند قابل رخدادی در فایل وقایع ثبت شده موجود می باشد، تصور نادرستی می‌باشد. برای اینکه نشان داده شود که تصور داشتن داده های کامل، در عمل امکان پذیر نمی باشد، فرآیندی را در نظر بگیرید که شامل 10 فعالیت بوده و این فعالیتها بتوانند به صورت موازی اجرا شوند. همچنین فرض کنید که فایل رویدادهای ثبت شده حاوی 10،000 نمونه فرآیند باشد. تعداد حالت های کلی (جایگشتها) در یک مدل با 10 فعالیت همزمان، 3،628،000=!10 می باشد. بنابراین امکان پذیر نمی‌باشد که تمامی این نمونه‌ها در فایل رویدادهای ثبت شده (تنها حاوی 10،000) وجود داشته باشد. وجود داده های نویز (داده های با رخداد کم) بر پیچیدگی ها می افزاید. ساخت مدل برای رفتارهایی که به ندرت رخ می دهند (داده های نویز) کار بسیار دشواری می باشد. در این گونه موارد، برای پردازش این دسته از رفتارها بهتر است که از چک کردن مطابعت استفاده شود.
نویز و ناکامل بودن، کشف فرآیند را به یکی از پرچالش ترین مسائل تبدیل کرده است. تعادل برقرار کردن بین معیارهای سادگی، سازگاری، دقت و عمومیت داشتن کار پرچالشی می باشد. به همین دلیل اکثر تکنیک های قدرتمند کاوش فرآیند پارامترهای متنوعی را فراهم می سازند. الگوریتم های جدیدی برای تعادل برقرار کردن بین این معیارها نیاز می باشد.
  • چالش هفتم: کاوش بین سازمانی
به طور سنتی، کاوش فرآیند در یک سازمان اجرا می گردد. اما با گسترش تکنولوژی وب سرویس، یکپارچگی زنجیره تامین و محاسبات ابری، سناریوهایی پیش می آید که در آن داده های چند سازمان برای آنالیز در دسترس می باشد. در حقیقت دو مشخصه برای کاوش فرآیندهای بین سازمانی موجود می باشد.
در سناریوی همکارانه، سازمان های مختلف همگی باهم در جهت رسیدن به اهداف مشخصی همکاری داشته و نمونه فرآیندها بین این سازمانها در جریان می باشد. در این مدل سازمان ها همانند قطعات یک پازل می باشند. فرآیند کلی به قطعاتی شکسته شده و بین سازمانها توزیع می شود تا هر سازمان وظیفه مربوط به خود را انجام دهد. آنالیز رویدادهای ثبت شده در تنها یکی از این سازمانها کافی نمی باشد. به منظور کشف فرآیندهای انتها به انتها، رویدادهای ثبت شده سازمانهای مختلف باید بایکدیگر ادغام گردد که کار ساده ای نمی باشد.
سناریوی دوم این است که سازمانهای مختلف در عین حال که از زیرساخت های مشترکی استفاده می نمایند، فرآیند یکسانی را اجرا نمایند. به عنوان مثال Saleforce.com را می توانید در نظر بگیرید. این شرکت فرآیند فروش شرکت های دیگر را بر عهده دارد و مدیریت می کند. از یک طرف شرکت ها از زیر ساخت این سایت استفاده می کنند و از طرف دیگر مجبور نیستند که دقیقا یک فرآیند قطعی را دنبال کنند (چراکه سیستم امکان تنظیمات اختصاصی در دنبال کردن فرآیند به آنها می دهد.
واضح است که آنالیز این تغییرات بین سازمانهای مختلف کار جذاب و جالبی می باشد. این سازمانها می توانند از همدیگر یاد بگیرند و فراهم کنندگان سرویس ممکن است که سرویس هایشان را ارتقا بخشند و سرویس های ارزش افزوده ای را برمبنای نتیجه کاوش های بین سازمانی ارائه نمایند.
  • چالش هشتم: ارائه پشتیانی عملیاتی
در ابتدا، تمرکز کاوش فرآیند برروی داده های قدیمی (که در پایگاه داده سیستم های اطلاعاتی موجود می باشد) بود. اما امروزه با گسترش تکنولوژی و افزایش پردازشهای روی خط، کاوش فرآیند نباید محدود به پردازش های برون خطی باشد. سه نوع پشتیبانی عملیاتی تعریف شده است: شناسایی، پیش بینی، توصیه. زمانی که نمونه ای از فرآیند مورد انتظار تخطی می کند، می تواند شناسایی گردد و سیستم می تواند یک اخطار دهد. داده های قدیمی می تواند به منظور تولید مدل پیش گوی استفاده گردد. مثلا می توان زمان به اتمام رسیدن یک نمونه را پیش‌گویی کرده و براساس آن تصمیماتی اخذ کرد.
استفاده از روش های کاوش فرآیند در مدل برون خطی، چالش های جدیدی را برحسب قدرت محاسباتی و کیفیت داده ایجاد می کند.
  • چالش نهم: ترکیب کاوش فرآیند با سایر روش های آنالیز
یکی از چالش‌ها نحوه ترکیب روش‌های آنالیز نظیر داده کاوی و یا تحقیقات عملیاتی با کاوش فرآیند می باشد. به عنوان مثال شبیه سازی را در نظر بگیرید. کاوش فرآیند برای یادگیری یک مدل شبیه سازی بر مبنای داده های قدیمی می تواند استفاده شود. متعاقبا، مدل شبیه سازی برای پردازش های روی خط می تواند استفاده شود.
همچنین خیلی مطلوبست که روشهای کاوش فرآیند را با آنالیزهای تصویری ترکیب نماییم. در پردازش داده‌های بزرگ، آنالیز‌های بصری می‌تواند از توانایی انسان برای شناسایی الگوها در داده‌های بدون ساختار استفاده نماید.

زیررده‌ها

این رده تنها حاوی زیرردهٔ زیر است.

صفحه‌های ردهٔ «کاوش فرآیند»

این ۲ صفحه در این رده قرار دارند؛ این رده در کل حاوی ۲ صفحه است.