آشنایی با مفاهیم انباره های داده (Data warehouse)
آشنایی با مفاهیم انباره های داده (Data warehouse)
آشنایی با مفاهیم انباره های داده (Data warehouse)
انباره داری / تحلیل زنده / داده کاوی
حیات بازرگانی نوین مبتنی بر داده هاست. در حال حاضر تقریبا حجم کل اطلاعات در کامپیوترها هر ۵ سال دو برابر می شود و با توجه به سرعت ایجاد برنامه های چند رسانه ای و بانکهای اطلاعاتی پیش بینی می شود که شتاب رشد اطلاعات به دو برابر در سال برسد.
تولید کنندگان این اطلاعات موسسات و شرکت های جدیدی هستند که امور خود را توسط کامپیوترها هدایت می کنند. سیستم های تولید مکانیزه ای که داده ها را جمع آوری نموده و به مصرف می رسانند سیستم هایOLTP نامیده می شوند. این سیستم ها تولید کنندگان واقعی داده ها هستند.
برنامه های کاربردی خادم و مخدوم بدو دسته تقسیم می شوند:
" سیستم های پشتیبانی تصمیم گیری (DSS)
" سیستم های پردازش زنده (OnLine) اطلاعات
این دو دسته هر یک راه های کاملا متفاوتی را جهت حل مسایل تجاری ارایه می کنند. قبل از آنکه به ارزش انباره های داده پی ببریم لازم است تفاونهای این دو را بشناسیم.
سیستم های OLTP در کلیه خدمات بازرگانی دیده می شوند از جملع سیستم های رزرواسیون، دستگاه های فروش ، کنترل انبار، سهام و فروش و … . این سیستم ها غالبا به زمان پاسخی بین ۱ تا ۳ ثانیه در ۱۰۰ در صد اوقات نیاز دارند. تعداد کاربران آنها در ساعات مختلف روز ، هفته و ماه می تواند بشدت متغیر باشد و درتمامی این اوقات به همان زمان پاسخ قبلی نیاز دارند. در این گونه سیستم ها معمولا مخدومین بجای ارتیاط با بانکهای اطلاعاتی(Database Servers) به خادمین تعاملی (Transaction Servers) متصل می شوند. البته این گونه ارتباط لازمه دستیابی به سرعت مورد نیاز مخدومین (Clients) است.
OLTP خود نیز به دو نوع عادی (Lite) و قوی (Heavy) تقسیم می گردد. خادمین عادی قادرند تعامل را در غالب پردازش های ثبت شده در بانک اطلاعاتی (StoredProcedures) به اجرا بگذارند و خادمین قوی از (TP Monitor) برای اجرای دستورات استفاده میکنند.در OLTP برای دستیابی به سرعت، سربار ارتباطی شبکه ها در حداقل ممکن نگاه داشته می شود و غالبا ارتباطات در حد انتقال یک دستور ((SQL سیکویل هستند.
امروزه حتی کوچکترین تجارتها هم قادرند بسرعت پایگاه های اطلاعاتی بزرگی یا با جمع آوری اطلاعات صندوق های فروش ایجاد کنند چه رسد به وب سرور ها که می توانند ظرف مدت بسیار کوتاهی چندین گیگا بایت اطلاعات جمع آوری نمایند.
زمانی برای هر کار مکانیزه ای نیاز به میلیونها پول و ده ها متخصص بود . اما امروزه هر کسی بسادگی با خرید چند کامپیوتر شخصی و استخدام یک برنامه نویس می تواند از امکانات رایانه ای بهره مند گردد. بعبارت دیگر دسترسی به خدمات رایانه ای برای ایجاد پایگاه های خصوصی از داده ها برای همگان آسانتر شده است.
در مجموع داده هایی که توسط سیستم های OLTP جمع آوری می شود مستقیما مورد استفاده افراد ایجاد کننده آن قرار دارد. آنها دقیقا می دانند این داده ها چیستند و همچنین می دانند چگونه نیاز های اطلاعاتی لحظه ای خود را که بطور روزمره بوجود می آید حل کنند.
سوالی که مطرح است اینست که اگر کسی خارج از مجموعه OLTP به این اطلاعات نیاز داشته باشد چه باید کرد. این افراد از کجا می دانند چه داده ای موجود است؟ کجا بایستی آنرا پیدا کرد و چگونه به آن دسترسی پیدا کنند؟ داده ها به چه شکلی (Format) است ؟ چه معنایی دارد؟ آخرین چیزی که افراد OLTP به آن رضایت خواهند داد آنست که اجازه دهند دیگران به اطلاعات گرانبهای آنان دسترسی داشته باشند. کسانی که حتی نمی دانند چه می خواهند، درخواستهای سیکویل زمانگیری را بر روی بانکهای اطلاعاتی اجرا می کنند که سرعت و قابلیت سیستم تولید کننده داده ها را پایین می آورد.
در گذشته افراد بیرون از سیستم ، از همکاران MIS خود می خواستند با همکاران مشابه خود در سیستم مربوطه تعامل داشته و نهایتا اطلاعات مورد نظر را از سیستم استخراج نمایند. اما امروزه حتی مجموعهMIS خود هم بدرستی نمی داند چه اطلاعاتی در سازمان موجود است. اطلاعات بشدت توزیع شده و پراکنده است و تقریبا روی هر کامپیوتری بخشی از اطلاعات سازمان وجود دارد.
یکی از ویژگیهای کامپیوتر های شخصی و همچنین معماری خادم/مخدوم موجب شده است که افراد اکثرا به اطلاعات سازمانی و کاربرد اطلاعات در سازمان علاقه ای نداشته و ترجیح می دهند اطلاعات را تحت مالکیت شخصی اداره کنند به این ترتیب بین اطلاعات سازمان و شخصی (یا واحد های متشکله) شکاف وجود خواهد داشت. از طرف دیگر بین داده های سیستمی و اطلاعات استخراج شده نیز شکاف دیگری مشاهده می شود. کسانی که از بیرون به این اطلاعات نگاه می کنند افرادی هستند که بدنبال یافتن طرحها، روالها و تمایلات در داده ها هستند بطوریکه بتوانند تصمیمات بهتری بگیرند. تنیدن حصار بدور اطلاعات بمعنی تنیدن حصار در برابر تجارت دیگران است و خیلی زود همگان بازنده جنگ این حصارها خواهند بود.
چگونه اطلاعات را در اختیار داریم اگر بدیگران اجازه دسترسی به آنرا بدهیم.
سولات زیادی مطرح هستند که بایستی پاسخ داده شوند و از آن جمله اند:
چگونه مطمین شویم که عملکرد بیرونی ها (غریبه ها) عملکرد سیستم ما را کند نمی کند؟
چه اطلاعاتی را بایستی در اختیار بیرونی ها قرار دهیم؟
چه اطلاعاتی درونی و شخصی (فقط مربوط به سیستم تولید کننده داده) است؟
چه کسی مالک اطلاعات به اشتراک گذاشته شده است؟
چه کسی این اطلاعات را بروز میکند؟
آیا بایستی بگذاریم دسترسی به اطلاعات مستقیم باشد یا آنرا در بانک دیگری کپی کنیم؟
اطلاعات استخراج شده چگونه نگهداری شده و چگونه بروز می شود؟
برای پاسخ به سوالات فوق بایستی نیاز های استفاده کنندگان از این اطلاعات را بشناسیم و تفاوتهای میان سیستمهای پشتیبان تصمیم گیری و OLTP را درک کنیم.
در مقایسه با سیستم های تولید داده، این ابزارها از انعطاف بیشتری در زمان پاسخگویی برخوردار هستند. معمولا کنترل یکپارچگی در آنها رعایت نشده است و قابلیت دسترسی همزمان کاربران به آن غالبا محدود است. جستجوی اطلاعات و یا بروز رسانی اطلاعات غالبا بمعنی پردازش روی تمامی اطلاعات خواهد بود. این برنامه ها برای غیر برنامه نویسان تهیه شده و بیشتر فعالیت ها در آن از طریق نشان بده و کلیک کن (Point and Click) انجام می شود.
.ابزارهای DSS/ESS بطور خلاصه ابزارهای (OLAP) OnLine Analytical Processing یا ابزارهای(MDA) Multidimensional Analysis نامیده می شوند و در لایه های بالاتر به آنها ابزارهای داده کاوی (Data Mining) و کارآگاهان شخصی (Intelligent Agent) گفته می شود.
قابلیت نیاز بانک اطلاعاتی OLTP نیاز بانک اطلاعاتی DSS
چه کسی از آن استفاده می کند کارکنان سیستم تولید کننده اطلاعات شکارچی اطلاعات
ارزش زمانی اطلاعات به مقدار فعلی اطلاعات نیاز دارد و گزارش ها قابل باز سازی نیستند به اطلاعات پایدار نیاز دارد . اطلاعات هر از گاه به وقت می شوند. گزارش ها قابل بازسازی هستند
تعداد دسترسی ها به اطلاعات پیوسته در طول روز کاری با نقاط پیک کاری هر از گاه
شکل داده داده خام است. استخراج و تبدیلی صورت نگرفته در چندین لایه تبدیل صورت گرفته است. استخراج و فشرده سازی داده ها انجام شده
جمع آوری داده ها از یک برنامه از چندین محل داخلی و خارجی
آیا محل تولید داده مشخص است بلی بیشتر داده توسط یک برنامه تولید می شود خیر از برنامه های مختلف و بانک های اطلاعات و وب می آید
آیا اطلاعات نگارش بندی شده هستند خیر. داده ها پیوسته و در یک نگارش هستند بلی هر مجموعه از داده دارای تاریخ برداشت است
نوع دسترسی به داده چندین کاربر اطلاعات را به وقت می کنند بیشتر اوقات یک کاربر
آیا داده قابل به وقت رسانی است مقدار کنونی مدام در حال تغییر است فقط خواندنیست
انعطاف در دسترسی انعطاف ندارد. فقط از طریق برنامه ها ممکن است. منعطف از طریق یک تولید کننده درخواست و OLAP
راندمان سرعت پاسخ بالا مورد نیاز است. فعالیت ها همگی مکانیزه و سریع نسبتا کند
نیازهای اطلاعاتی بخوبی فهمیده شده اند ناپایدار و نسبی. به مقدار زیادی کار کشف و تحقیق و جستجوی موضوعی نیاز است.
دامنه اطلاعات محدود. آن چیزی که در بانک موجود است داده ها ممکن است از هر جایی بیایند
رکورد های پردازش شده کمتر از ۱۰ رکورد صدها / هزاران و میلیونها رکورد
این فرآیند از عناصر زیر تشکیل شده است :
۱. مدیریت انتشار اطلاعات انباره که وظیفه نسخه برداری و توزیع اطلاعات را بر روی بانک های مختلف (آنگونه که شکارچی اطلاعات تعریف می کند) به عهده دارد. شکارچی اطلاعاتی را که بایستی کپی شود، مبدا و مقصد اطلاعات، تعداد بوقت رسانی ها و تبدیلات لازم روی اطلاعات را تعریف می کند. اصطلاح تازه سازی (Refresh) بمفهوم کپی کامل آخرین وضعیت اطلاعات و اصطلاح بوقت رسانی (Update) بمفهوم اعمال آخرین تغییرات بکار گرفته شده اند. همه کارها می تواند بصورت خودکار و یا دستی انجام پذیرد. اطلاعات ممکن است از بانکهای رابطه ای و غیر رابطه ای تهیه شود. توجه کنید که کلیه اطلاعات خارجی قبل از ورود به سیستم، تبدیل شده و پاک سازی می شوند.
۲. بانک اطلاع رسانی یک بانک اطلاعاتی رابطه ایست که وظیفه سازماندهی و ذخیره نمودن یک نسخه از اطلاعات و همچنین تبدیلات و جمع بندی و افزودن ارزش به اطلاعات حاصله از منابع مختلف و با فرمت های مورد نظر بعهده دارد. نگهداری فراداده (اطلاعات در مورد اطلاعات) نیز به عهده این بانک است . فراداده های سیستمی روابط بین جداول و ایندکس ها و غیره را بیان می کنند و فراداده های محتوایی (semantic) ارزش اطلاعات را برای یک شکارچی اطلاعات روشن می سازند.
۳. راهنمای اطلاعات (Informational Directory) ترکیبی از یک راهنمای فنی و راهنمای تجاری و یک پویشگر اطلاعات است. هدف اصلی این راهنما کمک به شکارچی برای دانستن محل وجود اطلاعات ،شکل آن و روش دسترسی به آن است
۴. پشتیبانی ابزارهای DSS/EIS از طریق انواع دستورات SQL انجام می گیرد. بسیاری از فروشندگان پروتکل ODBC و سایرین انواع دیگر پروتکل ها را سرویس می دهند.
ابزارهای DSS/EIS از خواسته ها (Queries) تا تحلیل زنده (OLAP) و تا داده کاوی (DataMining)
این ابزارها دیدگاههای چند بعدی از داده ها را توسط بانکهای اطلاعاتی دو بعدی (و یا بانکهای خاص چند بعدی) تولید کرده و در اختیارما می گذارند. توان دسترسی چند بعدی به داده ها در OLAP قدرت فرموله کردن خواسته های پیچیده تر را بما می دهد.
برای سادگی فرض کنید OLAP یک صفحه گسترده با چند محور است (در صفحات گسترده متعارف فقط دو محور افقی با اختصار A, B, C, … و عمودی با ایندکس های ۱و۲و۳,… داریم) در این صورت مثلا می توانیم اطلاعات فروش یک سازمان را از دیدگاه های منطقه فروش، تاریخ، مشتری، فروشگاه، قیمت و میزان فروش بررسی کنیم. و پاسخ سولاتی نظیر میزان فروش به ازای یک محصول و فروشگاه در یک ماه مشخص را خواهیم داشت.
مدل چند بعدی OLAP طریقه نمایش دادن داده ها را در مقایسه با بانک های اطلاعاتی رابطه ای تسهیل می کند.ROLAP با ایجاد یک لایه محافط روی یک بانک اطلاعاتی رابطه ای سرویس فوق را ارایه میدهد. از دیدگاه فنی OLAP فقط راهی برای ذخیره سازی و محاسبه اطلاعات چند بعدی برای پاسخوگویی به سناریوهای کاربر است. یک خادم OLAP، داده ها را از پیش روی چندین محور جمع می زند. توجه کنید که اطلاعات قبل از وارد شدن به OLAP بایستی پاک سازی شوند . غالبا OLAP داده ها را از یک انباره داده استخراج می کند.
ابزارهای OLAP را به چند دسته تقسیم می کنند:
OLAP رو میزی:
ابزارهای ساده و مستقل که روی کامپیوتر های شخصی نصب شده و مکعب های کوچکی می سازند و آنها را نیز بر روی سیستم به شکل فایل ذخیره می کنند. بیشتر این ابزارها با صفحات گسترده ای نظیر Excel کار می کنند.به این ترتیب کسانی که در سفر هستند قادر به استفاده از این دسته از محصولات هستند.(در حال حاضر Web OLAP در حال جایگزین کردن این محصولات است)
MOLAP چند بعدی
بجای ذخیره کردن اطلاعات در رکورد های کلید دار، این دسته از ابزارهای بانکهای اطلاعاتی خاصی را برای خود طراحی کرده اند بطوریکه داده ها را به شکل آرایه های مرتب شده بر اساس ابعاد داده ذخیره می کنند (HyperCubes) در حال حاضر نیز دو استاندارد برای این تیپ ابزار وجود دارد. سرعت این ابزار بالا ولی سایز بانک اطلاعاتی آن نسبتا کوچک است.
OLAP رابطه ای (ROLAP)
این ابزار ها با ایجاد یک بستر روی بانکهای رابطه ای اطلاعات را ذخیره و بازیابی می کنند. بطوریکه اساس بهینه سازی برخی بانکهای اطلاعاتی رابطه ای مانند Red Brick, MicreoStrategyبر همین اساس استوار است.
اندازه بانک اطلاعاتی این ابزار قابل توجه می باشد.
Hybrid OLAP (HOLAP)
در اینجا منظور از hybrid ترکیبی از ROLAP و MDBMS (طرح شده در MOLAP) است
ابزار دارای بانک اطلاعاتی بزرگ و رادمان بالاتر نسبت به ROLAP می باشد.
بازگشت هزینه صرف شده در این ابزارها غالبا بسیار سریع است. مثلا در بررسی داده های یک واحد ار یک فروشگاه متوجه شدند که میزان سرقت حین فروش از باتریها و فیلمها و قلم های با قیمت متوسط ماهانه حدود ۶۰۰۰۰ دلار برای فروشگاه هزینه داشته است که به این ترتیب با جابجاکردن اقلام و قرار دادن در قسمتهای با دید بهتر سالانه حدود ۷۰۰۰۰۰ دلار صرفه جویی بدنبال داشته است.
ابزارهای داده کاوی بدنبال طرحها و گروه بندی هایی در داده ها می گردد که ممکن است از دید ما پنهان مانده باشد.. ابزار تقریبا از کاربر هیچ کمکی نمی گیرد. بر خلاف ابزارهای OLAP که استفاده کنندگان راهنما و سازمان دهنده اطلاعات هستند در داده کاوی این ابزار است که استفاده کننده را هدایت می کند. ابزار فرض می کند که شما خود نیز دقیقا نمی دانید که چه می خواهید. بیشتر این ابزار ها از روش های جستجوی زیر استفاده میکنند:
۱- ارتباطات که اصطلاحا تحلیل سبد بازار خوانده می شود. ابزار بدنبال اثبات این موضوع است که وجود چیزی بمعنی وجود چیز دیگریست. مثلا بیشتر خریداران لوازم غواصی به تعطیلات تابستانی در استرالیا می روند. یا مصرف کننده یک کالای مشخص مصرف کرده خریدار کا لای دیگری نیز هست.
۲- ارتباطات متوالی ابزار بدنبال روابط متوالی بین موضوعات می گردد مثلا وقتی قیمت طلا ۱۰ درصد بالا می رود یک هفته بعد قیمت سهام ۱۵ درصد پایین می آید.
۳- دسته بندی بدنبال دسته بندی و طبقه بندی سطح بالای اطلاعات هستند. مثلا ۷۰ درصد رای دهندگانی که تصمیم نگرفته اند به که رای دهند درآمدی بالای ۶۰۰۰۰ دلار دارند بین ۴۰ تا ۵۰ سال سن دارند و در منطقه X اقامت دارند.
اگر اطلاعات جدول زیر در یک گراف دو بعدی به تصویر در آید متوجه می شویم که بنظر می رسید افراد بین ۲۳ تا ۲۹ به مکزیک و بین ۳۰ تا ۵۱ به کانادا سفر می کنند
سن مشتری کشوری که به آن سفر کرده
۲۳ مکزیک
۴۵ کانادا
۳۲ کانادا
۴۷ کانادا
۴۶ کانادا
۳۴ کانادا
۵۱ کانادا
۲۸ مکزیک
۴۹ کانادا
۲۹ مکزیک
۲۶ مکزیک
۳۱ کانادا
یک نکته جالب دیگر که بسادگی قابل دیدن نیست آنستکه افراد بین ۳۵ تا ۴۴ اصلا سفر نمی کنند بعبارت دیگر دو دسته آدم به کانادا سفر می کنند آنها که بین ۳۰ تا ۳۴ و آنها که بین ۴۵ تا ۵۱ سال سن دارند. گروه بندی در این مجموعه اطلاعات کوچک و دو بعدی بسادگی قابل رویت است . چنانچه ابعاد اطلاعات و حجم آن افزایش یابد موضوع به سادگی گذشته نخواهد بود. گفتنی است تعداد نمونه ها، تعداد ستونهای اطلاعاتی و مقادیری که هر یک از ستونها می گیرند در سرعت پردازش داده کاوی موثر هستند. مثلا برای پردازش ۱۰۰۰۰۰۰ نمونه با ۲۰۰ ستون اطلاعاتی که هر یک می توانند ۲۵ مقدار مختلف به خود بگیرند به حدود ۲ ساعت وقت نیازاست .
این ابزار ها در زمینه های مختلف کاربرد یافته اند.از جمله محققین بهداشت برای کشف میزان موفقیت جراحیها . بانکها برای ارزیابی اعتبار مشتریان، بورس بازان برای تشخیص جابجایی قیمتهای سهام و تشخیص طرحهای تجاری ، شرکتهای بیمه برای تشخیص ریسک مشتریان و رفتارهایشان و هتل ها برای تشخیص مشتریان بازگشتی خود از آن استفاده میکنند. همانطوریکه بنظر می آید ابزارهای داده کاوی از مجمیعه ابزارهای یک رده بالاتر هستند که استفاده های قابل توجهی برای آنها در صنعت قابل تصور است.
برخی از انواع تجاری این ابزار عبارتند از :
Intelligent Miner, Darwin, MineSet, KnowledgeStudio, DataMind, Clementine
هنوز کار های زیادی در این قسمت بایستی صورت پذیرد که از آن جمله اند :
درک داده ها بر اساس دانش درون ابزار (هوشمند شدن)، درک علایق کارفرما و جستجو دربانکهای اطلاعاتی مختلف برای اعلام تغییرات به کارفرما.
برنامه های کاریابی روی اینترنت با توجه به رزومه کاربر و یا برنامه های همسر یابی با توجه به مشخصات. برنامه هایی که تغییرات را در سایتهای Microsoft و سایر شرکتها اعلام می کنند و …. مثالهای ساده ای از این نوع برنامه ها هستند
منبع:http://www.academist.ir
/خ
مقدمه
OLTP چیست؟
حیات بازرگانی نوین مبتنی بر داده هاست. در حال حاضر تقریبا حجم کل اطلاعات در کامپیوترها هر ۵ سال دو برابر می شود و با توجه به سرعت ایجاد برنامه های چند رسانه ای و بانکهای اطلاعاتی پیش بینی می شود که شتاب رشد اطلاعات به دو برابر در سال برسد.
تولید کنندگان این اطلاعات موسسات و شرکت های جدیدی هستند که امور خود را توسط کامپیوترها هدایت می کنند. سیستم های تولید مکانیزه ای که داده ها را جمع آوری نموده و به مصرف می رسانند سیستم هایOLTP نامیده می شوند. این سیستم ها تولید کنندگان واقعی داده ها هستند.
برنامه های کاربردی خادم و مخدوم بدو دسته تقسیم می شوند:
" سیستم های پشتیبانی تصمیم گیری (DSS)
" سیستم های پردازش زنده (OnLine) اطلاعات
این دو دسته هر یک راه های کاملا متفاوتی را جهت حل مسایل تجاری ارایه می کنند. قبل از آنکه به ارزش انباره های داده پی ببریم لازم است تفاونهای این دو را بشناسیم.
سیستم های OLTP در کلیه خدمات بازرگانی دیده می شوند از جملع سیستم های رزرواسیون، دستگاه های فروش ، کنترل انبار، سهام و فروش و … . این سیستم ها غالبا به زمان پاسخی بین ۱ تا ۳ ثانیه در ۱۰۰ در صد اوقات نیاز دارند. تعداد کاربران آنها در ساعات مختلف روز ، هفته و ماه می تواند بشدت متغیر باشد و درتمامی این اوقات به همان زمان پاسخ قبلی نیاز دارند. در این گونه سیستم ها معمولا مخدومین بجای ارتیاط با بانکهای اطلاعاتی(Database Servers) به خادمین تعاملی (Transaction Servers) متصل می شوند. البته این گونه ارتباط لازمه دستیابی به سرعت مورد نیاز مخدومین (Clients) است.
OLTP خود نیز به دو نوع عادی (Lite) و قوی (Heavy) تقسیم می گردد. خادمین عادی قادرند تعامل را در غالب پردازش های ثبت شده در بانک اطلاعاتی (StoredProcedures) به اجرا بگذارند و خادمین قوی از (TP Monitor) برای اجرای دستورات استفاده میکنند.در OLTP برای دستیابی به سرعت، سربار ارتباطی شبکه ها در حداقل ممکن نگاه داشته می شود و غالبا ارتباطات در حد انتقال یک دستور ((SQL سیکویل هستند.
امروزه حتی کوچکترین تجارتها هم قادرند بسرعت پایگاه های اطلاعاتی بزرگی یا با جمع آوری اطلاعات صندوق های فروش ایجاد کنند چه رسد به وب سرور ها که می توانند ظرف مدت بسیار کوتاهی چندین گیگا بایت اطلاعات جمع آوری نمایند.
زمانی برای هر کار مکانیزه ای نیاز به میلیونها پول و ده ها متخصص بود . اما امروزه هر کسی بسادگی با خرید چند کامپیوتر شخصی و استخدام یک برنامه نویس می تواند از امکانات رایانه ای بهره مند گردد. بعبارت دیگر دسترسی به خدمات رایانه ای برای ایجاد پایگاه های خصوصی از داده ها برای همگان آسانتر شده است.
در مجموع داده هایی که توسط سیستم های OLTP جمع آوری می شود مستقیما مورد استفاده افراد ایجاد کننده آن قرار دارد. آنها دقیقا می دانند این داده ها چیستند و همچنین می دانند چگونه نیاز های اطلاعاتی لحظه ای خود را که بطور روزمره بوجود می آید حل کنند.
سوالی که مطرح است اینست که اگر کسی خارج از مجموعه OLTP به این اطلاعات نیاز داشته باشد چه باید کرد. این افراد از کجا می دانند چه داده ای موجود است؟ کجا بایستی آنرا پیدا کرد و چگونه به آن دسترسی پیدا کنند؟ داده ها به چه شکلی (Format) است ؟ چه معنایی دارد؟ آخرین چیزی که افراد OLTP به آن رضایت خواهند داد آنست که اجازه دهند دیگران به اطلاعات گرانبهای آنان دسترسی داشته باشند. کسانی که حتی نمی دانند چه می خواهند، درخواستهای سیکویل زمانگیری را بر روی بانکهای اطلاعاتی اجرا می کنند که سرعت و قابلیت سیستم تولید کننده داده ها را پایین می آورد.
در گذشته افراد بیرون از سیستم ، از همکاران MIS خود می خواستند با همکاران مشابه خود در سیستم مربوطه تعامل داشته و نهایتا اطلاعات مورد نظر را از سیستم استخراج نمایند. اما امروزه حتی مجموعهMIS خود هم بدرستی نمی داند چه اطلاعاتی در سازمان موجود است. اطلاعات بشدت توزیع شده و پراکنده است و تقریبا روی هر کامپیوتری بخشی از اطلاعات سازمان وجود دارد.
یکی از ویژگیهای کامپیوتر های شخصی و همچنین معماری خادم/مخدوم موجب شده است که افراد اکثرا به اطلاعات سازمانی و کاربرد اطلاعات در سازمان علاقه ای نداشته و ترجیح می دهند اطلاعات را تحت مالکیت شخصی اداره کنند به این ترتیب بین اطلاعات سازمان و شخصی (یا واحد های متشکله) شکاف وجود خواهد داشت. از طرف دیگر بین داده های سیستمی و اطلاعات استخراج شده نیز شکاف دیگری مشاهده می شود. کسانی که از بیرون به این اطلاعات نگاه می کنند افرادی هستند که بدنبال یافتن طرحها، روالها و تمایلات در داده ها هستند بطوریکه بتوانند تصمیمات بهتری بگیرند. تنیدن حصار بدور اطلاعات بمعنی تنیدن حصار در برابر تجارت دیگران است و خیلی زود همگان بازنده جنگ این حصارها خواهند بود.
چگونه اطلاعات را در اختیار داریم اگر بدیگران اجازه دسترسی به آنرا بدهیم.
سولات زیادی مطرح هستند که بایستی پاسخ داده شوند و از آن جمله اند:
چگونه مطمین شویم که عملکرد بیرونی ها (غریبه ها) عملکرد سیستم ما را کند نمی کند؟
چه اطلاعاتی را بایستی در اختیار بیرونی ها قرار دهیم؟
چه اطلاعاتی درونی و شخصی (فقط مربوط به سیستم تولید کننده داده) است؟
چه کسی مالک اطلاعات به اشتراک گذاشته شده است؟
چه کسی این اطلاعات را بروز میکند؟
آیا بایستی بگذاریم دسترسی به اطلاعات مستقیم باشد یا آنرا در بانک دیگری کپی کنیم؟
اطلاعات استخراج شده چگونه نگهداری شده و چگونه بروز می شود؟
برای پاسخ به سوالات فوق بایستی نیاز های استفاده کنندگان از این اطلاعات را بشناسیم و تفاوتهای میان سیستمهای پشتیبان تصمیم گیری و OLTP را درک کنیم.
چه کسانی از این داده ها استفاده میکنند؟
سیستم پشتیبانی تصمیم گیری چیست؟
در مقایسه با سیستم های تولید داده، این ابزارها از انعطاف بیشتری در زمان پاسخگویی برخوردار هستند. معمولا کنترل یکپارچگی در آنها رعایت نشده است و قابلیت دسترسی همزمان کاربران به آن غالبا محدود است. جستجوی اطلاعات و یا بروز رسانی اطلاعات غالبا بمعنی پردازش روی تمامی اطلاعات خواهد بود. این برنامه ها برای غیر برنامه نویسان تهیه شده و بیشتر فعالیت ها در آن از طریق نشان بده و کلیک کن (Point and Click) انجام می شود.
سیستم های اطلاعات مدیران اجرایی (Executive Information Systems)
.ابزارهای DSS/ESS بطور خلاصه ابزارهای (OLAP) OnLine Analytical Processing یا ابزارهای(MDA) Multidimensional Analysis نامیده می شوند و در لایه های بالاتر به آنها ابزارهای داده کاوی (Data Mining) و کارآگاهان شخصی (Intelligent Agent) گفته می شود.
مقایسه سیستم های DSS و OLTP
قابلیت نیاز بانک اطلاعاتی OLTP نیاز بانک اطلاعاتی DSS
چه کسی از آن استفاده می کند کارکنان سیستم تولید کننده اطلاعات شکارچی اطلاعات
ارزش زمانی اطلاعات به مقدار فعلی اطلاعات نیاز دارد و گزارش ها قابل باز سازی نیستند به اطلاعات پایدار نیاز دارد . اطلاعات هر از گاه به وقت می شوند. گزارش ها قابل بازسازی هستند
تعداد دسترسی ها به اطلاعات پیوسته در طول روز کاری با نقاط پیک کاری هر از گاه
شکل داده داده خام است. استخراج و تبدیلی صورت نگرفته در چندین لایه تبدیل صورت گرفته است. استخراج و فشرده سازی داده ها انجام شده
جمع آوری داده ها از یک برنامه از چندین محل داخلی و خارجی
آیا محل تولید داده مشخص است بلی بیشتر داده توسط یک برنامه تولید می شود خیر از برنامه های مختلف و بانک های اطلاعات و وب می آید
آیا اطلاعات نگارش بندی شده هستند خیر. داده ها پیوسته و در یک نگارش هستند بلی هر مجموعه از داده دارای تاریخ برداشت است
نوع دسترسی به داده چندین کاربر اطلاعات را به وقت می کنند بیشتر اوقات یک کاربر
آیا داده قابل به وقت رسانی است مقدار کنونی مدام در حال تغییر است فقط خواندنیست
انعطاف در دسترسی انعطاف ندارد. فقط از طریق برنامه ها ممکن است. منعطف از طریق یک تولید کننده درخواست و OLAP
راندمان سرعت پاسخ بالا مورد نیاز است. فعالیت ها همگی مکانیزه و سریع نسبتا کند
نیازهای اطلاعاتی بخوبی فهمیده شده اند ناپایدار و نسبی. به مقدار زیادی کار کشف و تحقیق و جستجوی موضوعی نیاز است.
دامنه اطلاعات محدود. آن چیزی که در بانک موجود است داده ها ممکن است از هر جایی بیایند
رکورد های پردازش شده کمتر از ۱۰ رکورد صدها / هزاران و میلیونها رکورد
انباره داده (DatawareHouse)
عناصر انباره داری
این فرآیند از عناصر زیر تشکیل شده است :
۱. مدیریت انتشار اطلاعات انباره که وظیفه نسخه برداری و توزیع اطلاعات را بر روی بانک های مختلف (آنگونه که شکارچی اطلاعات تعریف می کند) به عهده دارد. شکارچی اطلاعاتی را که بایستی کپی شود، مبدا و مقصد اطلاعات، تعداد بوقت رسانی ها و تبدیلات لازم روی اطلاعات را تعریف می کند. اصطلاح تازه سازی (Refresh) بمفهوم کپی کامل آخرین وضعیت اطلاعات و اصطلاح بوقت رسانی (Update) بمفهوم اعمال آخرین تغییرات بکار گرفته شده اند. همه کارها می تواند بصورت خودکار و یا دستی انجام پذیرد. اطلاعات ممکن است از بانکهای رابطه ای و غیر رابطه ای تهیه شود. توجه کنید که کلیه اطلاعات خارجی قبل از ورود به سیستم، تبدیل شده و پاک سازی می شوند.
۲. بانک اطلاع رسانی یک بانک اطلاعاتی رابطه ایست که وظیفه سازماندهی و ذخیره نمودن یک نسخه از اطلاعات و همچنین تبدیلات و جمع بندی و افزودن ارزش به اطلاعات حاصله از منابع مختلف و با فرمت های مورد نظر بعهده دارد. نگهداری فراداده (اطلاعات در مورد اطلاعات) نیز به عهده این بانک است . فراداده های سیستمی روابط بین جداول و ایندکس ها و غیره را بیان می کنند و فراداده های محتوایی (semantic) ارزش اطلاعات را برای یک شکارچی اطلاعات روشن می سازند.
۳. راهنمای اطلاعات (Informational Directory) ترکیبی از یک راهنمای فنی و راهنمای تجاری و یک پویشگر اطلاعات است. هدف اصلی این راهنما کمک به شکارچی برای دانستن محل وجود اطلاعات ،شکل آن و روش دسترسی به آن است
۴. پشتیبانی ابزارهای DSS/EIS از طریق انواع دستورات SQL انجام می گیرد. بسیاری از فروشندگان پروتکل ODBC و سایرین انواع دیگر پروتکل ها را سرویس می دهند.
سلسله مراتب انباره ها (غرفه های داده (DataMarts))
انواع کوچکتری از انباره های داده هستند. در عمل غرفه های داده دپارتمانی و غرفه های داده همراه (mobile) از ابتدا برنامه ریزی نمی شوند بلکه ابتدایا بوجود آمده و در صورت موفقیت تکثیر شده و در نهایت مدیر بانک اطلاعاتی سازمان ممکن است بتواند یک فدراسیون آزاد ار این غرفه ها تشکیل دهد و نهایتا یک انباره داده را پایه گذاری نماید.ابزارهای DSS/EIS از خواسته ها (Queries) تا تحلیل زنده (OLAP) و تا داده کاوی (DataMining)
ابزارهای گزارش گیری
OLAP و اطلاعات چند بعدی
این ابزارها دیدگاههای چند بعدی از داده ها را توسط بانکهای اطلاعاتی دو بعدی (و یا بانکهای خاص چند بعدی) تولید کرده و در اختیارما می گذارند. توان دسترسی چند بعدی به داده ها در OLAP قدرت فرموله کردن خواسته های پیچیده تر را بما می دهد.
برای سادگی فرض کنید OLAP یک صفحه گسترده با چند محور است (در صفحات گسترده متعارف فقط دو محور افقی با اختصار A, B, C, … و عمودی با ایندکس های ۱و۲و۳,… داریم) در این صورت مثلا می توانیم اطلاعات فروش یک سازمان را از دیدگاه های منطقه فروش، تاریخ، مشتری، فروشگاه، قیمت و میزان فروش بررسی کنیم. و پاسخ سولاتی نظیر میزان فروش به ازای یک محصول و فروشگاه در یک ماه مشخص را خواهیم داشت.
مدل چند بعدی OLAP طریقه نمایش دادن داده ها را در مقایسه با بانک های اطلاعاتی رابطه ای تسهیل می کند.ROLAP با ایجاد یک لایه محافط روی یک بانک اطلاعاتی رابطه ای سرویس فوق را ارایه میدهد. از دیدگاه فنی OLAP فقط راهی برای ذخیره سازی و محاسبه اطلاعات چند بعدی برای پاسخوگویی به سناریوهای کاربر است. یک خادم OLAP، داده ها را از پیش روی چندین محور جمع می زند. توجه کنید که اطلاعات قبل از وارد شدن به OLAP بایستی پاک سازی شوند . غالبا OLAP داده ها را از یک انباره داده استخراج می کند.
ابزارهای OLAP را به چند دسته تقسیم می کنند:
OLAP رو میزی:
ابزارهای ساده و مستقل که روی کامپیوتر های شخصی نصب شده و مکعب های کوچکی می سازند و آنها را نیز بر روی سیستم به شکل فایل ذخیره می کنند. بیشتر این ابزارها با صفحات گسترده ای نظیر Excel کار می کنند.به این ترتیب کسانی که در سفر هستند قادر به استفاده از این دسته از محصولات هستند.(در حال حاضر Web OLAP در حال جایگزین کردن این محصولات است)
MOLAP چند بعدی
بجای ذخیره کردن اطلاعات در رکورد های کلید دار، این دسته از ابزارهای بانکهای اطلاعاتی خاصی را برای خود طراحی کرده اند بطوریکه داده ها را به شکل آرایه های مرتب شده بر اساس ابعاد داده ذخیره می کنند (HyperCubes) در حال حاضر نیز دو استاندارد برای این تیپ ابزار وجود دارد. سرعت این ابزار بالا ولی سایز بانک اطلاعاتی آن نسبتا کوچک است.
OLAP رابطه ای (ROLAP)
این ابزار ها با ایجاد یک بستر روی بانکهای رابطه ای اطلاعات را ذخیره و بازیابی می کنند. بطوریکه اساس بهینه سازی برخی بانکهای اطلاعاتی رابطه ای مانند Red Brick, MicreoStrategyبر همین اساس استوار است.
اندازه بانک اطلاعاتی این ابزار قابل توجه می باشد.
Hybrid OLAP (HOLAP)
در اینجا منظور از hybrid ترکیبی از ROLAP و MDBMS (طرح شده در MOLAP) است
ابزار دارای بانک اطلاعاتی بزرگ و رادمان بالاتر نسبت به ROLAP می باشد.
استانداردهای OLAP
داده کاوی(Data Mining)
بازگشت هزینه صرف شده در این ابزارها غالبا بسیار سریع است. مثلا در بررسی داده های یک واحد ار یک فروشگاه متوجه شدند که میزان سرقت حین فروش از باتریها و فیلمها و قلم های با قیمت متوسط ماهانه حدود ۶۰۰۰۰ دلار برای فروشگاه هزینه داشته است که به این ترتیب با جابجاکردن اقلام و قرار دادن در قسمتهای با دید بهتر سالانه حدود ۷۰۰۰۰۰ دلار صرفه جویی بدنبال داشته است.
ابزارهای داده کاوی بدنبال طرحها و گروه بندی هایی در داده ها می گردد که ممکن است از دید ما پنهان مانده باشد.. ابزار تقریبا از کاربر هیچ کمکی نمی گیرد. بر خلاف ابزارهای OLAP که استفاده کنندگان راهنما و سازمان دهنده اطلاعات هستند در داده کاوی این ابزار است که استفاده کننده را هدایت می کند. ابزار فرض می کند که شما خود نیز دقیقا نمی دانید که چه می خواهید. بیشتر این ابزار ها از روش های جستجوی زیر استفاده میکنند:
۱- ارتباطات که اصطلاحا تحلیل سبد بازار خوانده می شود. ابزار بدنبال اثبات این موضوع است که وجود چیزی بمعنی وجود چیز دیگریست. مثلا بیشتر خریداران لوازم غواصی به تعطیلات تابستانی در استرالیا می روند. یا مصرف کننده یک کالای مشخص مصرف کرده خریدار کا لای دیگری نیز هست.
۲- ارتباطات متوالی ابزار بدنبال روابط متوالی بین موضوعات می گردد مثلا وقتی قیمت طلا ۱۰ درصد بالا می رود یک هفته بعد قیمت سهام ۱۵ درصد پایین می آید.
۳- دسته بندی بدنبال دسته بندی و طبقه بندی سطح بالای اطلاعات هستند. مثلا ۷۰ درصد رای دهندگانی که تصمیم نگرفته اند به که رای دهند درآمدی بالای ۶۰۰۰۰ دلار دارند بین ۴۰ تا ۵۰ سال سن دارند و در منطقه X اقامت دارند.
اگر اطلاعات جدول زیر در یک گراف دو بعدی به تصویر در آید متوجه می شویم که بنظر می رسید افراد بین ۲۳ تا ۲۹ به مکزیک و بین ۳۰ تا ۵۱ به کانادا سفر می کنند
سن مشتری کشوری که به آن سفر کرده
۲۳ مکزیک
۴۵ کانادا
۳۲ کانادا
۴۷ کانادا
۴۶ کانادا
۳۴ کانادا
۵۱ کانادا
۲۸ مکزیک
۴۹ کانادا
۲۹ مکزیک
۲۶ مکزیک
۳۱ کانادا
یک نکته جالب دیگر که بسادگی قابل دیدن نیست آنستکه افراد بین ۳۵ تا ۴۴ اصلا سفر نمی کنند بعبارت دیگر دو دسته آدم به کانادا سفر می کنند آنها که بین ۳۰ تا ۳۴ و آنها که بین ۴۵ تا ۵۱ سال سن دارند. گروه بندی در این مجموعه اطلاعات کوچک و دو بعدی بسادگی قابل رویت است . چنانچه ابعاد اطلاعات و حجم آن افزایش یابد موضوع به سادگی گذشته نخواهد بود. گفتنی است تعداد نمونه ها، تعداد ستونهای اطلاعاتی و مقادیری که هر یک از ستونها می گیرند در سرعت پردازش داده کاوی موثر هستند. مثلا برای پردازش ۱۰۰۰۰۰۰ نمونه با ۲۰۰ ستون اطلاعاتی که هر یک می توانند ۲۵ مقدار مختلف به خود بگیرند به حدود ۲ ساعت وقت نیازاست .
این ابزار ها در زمینه های مختلف کاربرد یافته اند.از جمله محققین بهداشت برای کشف میزان موفقیت جراحیها . بانکها برای ارزیابی اعتبار مشتریان، بورس بازان برای تشخیص جابجایی قیمتهای سهام و تشخیص طرحهای تجاری ، شرکتهای بیمه برای تشخیص ریسک مشتریان و رفتارهایشان و هتل ها برای تشخیص مشتریان بازگشتی خود از آن استفاده میکنند. همانطوریکه بنظر می آید ابزارهای داده کاوی از مجمیعه ابزارهای یک رده بالاتر هستند که استفاده های قابل توجهی برای آنها در صنعت قابل تصور است.
برخی از انواع تجاری این ابزار عبارتند از :
Intelligent Miner, Darwin, MineSet, KnowledgeStudio, DataMind, Clementine
کارآگاهان شخصی
هنوز کار های زیادی در این قسمت بایستی صورت پذیرد که از آن جمله اند :
درک داده ها بر اساس دانش درون ابزار (هوشمند شدن)، درک علایق کارفرما و جستجو دربانکهای اطلاعاتی مختلف برای اعلام تغییرات به کارفرما.
برنامه های کاریابی روی اینترنت با توجه به رزومه کاربر و یا برنامه های همسر یابی با توجه به مشخصات. برنامه هایی که تغییرات را در سایتهای Microsoft و سایر شرکتها اعلام می کنند و …. مثالهای ساده ای از این نوع برنامه ها هستند
منبع:http://www.academist.ir
/خ
مقالات مرتبط
تازه های مقالات
ارسال نظر
در ارسال نظر شما خطایی رخ داده است
کاربر گرامی، ضمن تشکر از شما نظر شما با موفقیت ثبت گردید. و پس از تائید در فهرست نظرات نمایش داده می شود
نام :
ایمیل :
نظرات کاربران
{{Fullname}} {{Creationdate}}
{{Body}}