خوشه بندی در یادگیری ماشین

در مبحث یاد گیری ماشین و هوش مصنوعی، دسته بندی‌های تجمعی داده‌ها یا همان خوشه بندی نقاط داده‌ای امری حیاتی محسوب می‌شود. در این مقاله به دسته بندی روش‌های مختلف این خوشه بندی پرداخته می‌شود.
جمعه، 9 اسفند 1398
تخمین زمان مطالعه:
موارد بیشتر برای شما
خوشه بندی در یادگیری ماشین
انسانها مدت‌ها قبل از وجود هوش مصنوعی به جستجوی الگوها می‌پرداختند. این ماهیت کنجکاوی انسان است که توجه دارد به شباهت‌ها در جهان و کشف معنای جدید و دانش پنهانی اساسی در عناصر آن. اما اکنون یک یاور جدید و قدرتمند پیدا کرده‌ایم که می‌تواند حجم باور نکردنی‌ای از داده‌های ایجاد شده در قرن بیست و یکم را کنترل کند و آن را با استفاده از تکنیک‌هایی مانند خوشه بندی در یاد گیری ماشین تفسیر کند.
 
خوشه بندی زمینه‌ای جالب از علوم داده است. از تجزیه و تحلیل خوشه‌ای مبتنی بر هوش مصنوعی توسط همه سازمان‌ها - از مشاغل گرفته تا محققان علمی - برای به دست آوردن بینش‌های ارزشمند در همه جنبه‌های زندگی استفاده می‌شود. در این مقاله، ما چگونگی کار خوشه بندی، چگونگی تولید و چگونگی استفاده از آن را بررسی خواهیم کرد.
 

به شباهت‌ها توجه کنید

خوشه بندی به گروه بندی داده‌ها با توجه به شباهت‌های جالب / مفید اشاره دارد. اعتبار این مفهوم اغلب به انسان شناسان آلفرد کروبر و هارولد داریور نسبت داده می‌شود. مقاله آنها در سال 1932 ، با  عنوان « بیان کمی از روابط فرهنگی » ، مربوط به این است که چگونه برخی از صفات فرهنگی (مانند اعتقادات مذهبی یا سبک‌های معماری) از قومیت‌ها و جوامع عبور می‌کند و در برخی موارد این صفات در خوشه‌های خاصی از فرهنگ‌ها یافت می‌شود. در اصل، آنها می‌خواستند از شناخت الگوها برای تجزیه و تحلیل داده‌های انسان شناسی و به دست آوردن بینش‌هایی که در حوزه‌های مختلف مربوط به بشریت است، استفاده کنند.
 
طولی نکشید که انجام تجزیه و تحلیل خوشه‌ای به حوزه دیگری از مطالعات کشیده شد: روان شناسی. روان شناس آموزشی جوزف زوبین در سال 1938  از آن به عنوان "روشی برای سنجش هم اندیشی" در مقاله‌ای از خود با همین عنوان یاد کرد. وی آن را به عنوان روشی برای تقسیم افراد به گروههایی توصیف کرد که از نظر معیارهای اجتماعی معینی به همان شیوه فکر می‌کنند. هر چه خوشه بندی یاد گیری ماشین پیشرفت بیشتری پیدا کند، بینش‌هایی که می‌تواند - برای تجارت، علم و جامعه - ارائه دهد بیشتر خواهد شد. خوشه بندی به سرعت توسط معاصرانی مانند روان شناس رفتاری روبرت تریون و نظریه پرداز شخصیت پیشگام ریموند کتل پذیرفته شد. از آن جا، مطالعات خوشه‌ای در بقیه علوم گسترش یافته است.
 

انواع الگوریتم‌های خوشه بندی

امروزه سیستم‌های یاد گیری ماشین از طیف وسیعی از روش‌ها برای تجزیه داده‌ها به گروه‌ها و زیر گروه‌ها در جستجوی معنی استفاده می‌کنند. در این جا چند مورد از انواع اصلی الگوریتم خوشه بندی ارائه می‌شود که مورد نیاز است بدانید:
 
* فاصله بین دیتابیس‌ها. وقتی نقشه‌های داده در مکانی ترسیم می‌شوند (بگذارید یک نمودار پراکندگی را تصور کنیم) فاصله بین آنها محاسبه می‌شود. مناطقی از داده‌هایی که در نزدیکترین گروه‌ نسبت به یک دیگر قرار گرفته‌اند، به عنوان گروه تعریف می‌شوند. این یک روش نسبتاً ساده است اما ممکن است برای آنالیز داده‌های بزرگ مناسب نباشد، زیرا به آن نیاز دارد که هر نقطه داده‌ای با هر نقطه داده‌ای دیگر مقایسه شود – و این کار به مقدار زیادی پردازش نیاز دارد. این روش همچنین به عنوان خوشه بندی سلسله مراتبی یا خوشه بندی مبتنی بر اتصال شناخته می شود، زیرا با سلسله مراتب داده کار می‌کند – که عبارت است از اتصالات بین نقاط مختلف داده.
 
* تراکم نقاط در یک منطقه. این خوشه‌ها توسط مناطقی از فضا تعریف شده‌اند که با نقاط داده‌ای به طور متراکم جمعیت بندی شده‌اند و از یک دیگر توسط مناطق کم پشت جدا می‌شوند. نقاط داده‌ای در خارج از خوشه‌ها به عنوان "نویز" شناخته شده و در نظر گرفته نمی‌شوند، از این رو در تجزیه و تحلیل حساب نمی‌شوند. این الگوریتم بر اساس این پایه کار می‌کند که در یک شعاع تعریف شده، باید چگالی خاصی از داده‌ها وجود داشته باشد تا یک خوشه در نظر گرفته شود. اگر نقاط داده‌ای به اندازه کافی نزدیک به خوشه برای شمول معیارهای آن باشند، آن گاه در داخل خوشه پذیرفته می‌شوند، تا زمانی که به ناحیه‌ای برسد که فاصله تا نقطه بعدی به اندازه کافی زیاد باشد که نتواند در خوشه پذیرفته شود. خوشه سپس تنظیم شده و قابل تجزیه و تحلیل است.
 
* خوشه بندی مبتنی بر توزیع احتمال. این الگوریتم با استفاده از یک مدل توزیع انتخاب شده، احتمال این که آیا نقاط داده در یک خوشه قرار دارند یا خیر را مشخص می‌کند. از مراکز ثقل برای تعریف نقطه مرکزی هر خوشه استفاده می‌کند و داده‌های پیرامون آنها را طبقه بندی می‌کند. هر چه نقاط داده بیشتر از مرکز خوشه دور باشند، احتمال آن که در این خوشه باشند کمتر است.
 
* خوشه ‌بندی مرکز ثقلی یا به روش k. این روش به طور تصادفی مجموعه‌ای از  k نقطه داده را به عنوان مراکز ثقل انتخاب می‌کند. نقاط داده اطراف هر مرکز ثقل که نزدیک‌ترین فاصله را با آن دارند، سپس به خوشه آن مرکز ثقل اختصاص می‌یابند. متوسط (یا میانگین) کلیه داده های داده داخل خوشه محاسبه می‌شود و مرکز ثقل در مرکز خوشه تعیین موقعیت مجدد می‌شود. از تجزیه و تحلیل خوشه‌ای مبتنی بر هوش مصنوعی توسط همه سازمان‌ها - از مشاغل گرفته تا محققان علمی - برای به دست آوردن بینش‌های ارزشمند در همه جنبه‌های زندگی استفاده می‌شود. این روند تا زمانی که تمام مراکز ثقل از حرکت باز ایستند و دیگر نیازی به تعیین موقعیت مجدد نداشته باشند تکرار می‌شود که در این حال خوشه‌ها کاملاً تعریف می‌شوند. با حرکت به جلو، هر داده جدیدی به این خوشه‌ها اختصاص داده می‌شود، و مرکز ثقل دو باره محاسبه می‌شوند. تعداد مراکز ثقل مورد استفاده با "k"  نشان داده می‌شود – و همین وجه تسمیه خوشه ‌بندی مرکز ثقلی یا به روش k است.
 

باز کردن بینش‌های تجاری

با استفاده از فن آوری یاد گیری امروزی ماشین و قدرت پردازش در دسترس، می‌توان تجزیه و تحلیل خوشه‌ای را برای حجم عظیمی از داده‌ها با درجه بالایی از کار برد انجام داد.
 
مدتهاست که از تکنیک‌های خوشه بندی برای بینش و استراتژی بازار استفاده شده است. استفاده از آنها در مورد مشتری ثروتمند و داده‌های معامله‌ای در دسترس خرده فروشان منجر به تقسیم بندی عمیق، ظریف و بسیار مؤثر در بازار می‌شود. موتورهای پیشنهادی که به طور مداوم بهبود می‌یابند، می‌توانند براساس الگوهای موجود در شرایط و هزینه‌های خود، محصولات و خدماتی را که مصرف کنندگان می‌خواهند و به آن نیاز دارند را نشان دهند.
 

انبوه امکانات

هر چه خوشه بندی یاد گیری ماشین پیشرفت بیشتری پیدا کند، بینش‌هایی که می‌تواند - برای تجارت، علم و جامعه - ارائه دهد بیشتر خواهد شد. سیستم‌های هوش مصنوعی حتی خوشه‌هایی از علائم سرطانی را نیز شناسایی می‌کنند، به طوری که در اسرع وقت درمان می تواند شروع شود.
 
منبع: Valérie Bécaert ٍELEMENT AI


مقالات مرتبط
ارسال نظر
با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.
متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.
مقالات مرتبط
موارد بیشتر برای شما
بررسی مرقع و قطاع در خوشنویسی
بررسی مرقع و قطاع در خوشنویسی
خیابانی: آقای بیرانوند! من بخواهم از نام بردن تو معروف بشوم؟ خاک بر سر من!
play_arrow
خیابانی: آقای بیرانوند! من بخواهم از نام بردن تو معروف بشوم؟ خاک بر سر من!
توضیحات وزیر رفاه در خصوص عدم پرداخت یارانه
play_arrow
توضیحات وزیر رفاه در خصوص عدم پرداخت یارانه
حمله پهپادی حزب‌ الله به ساختمانی در نهاریا
play_arrow
حمله پهپادی حزب‌ الله به ساختمانی در نهاریا
مراسم تشییع شهید امنیت وحید اکبریان در گرگان
play_arrow
مراسم تشییع شهید امنیت وحید اکبریان در گرگان
به رگبار بستن اتوبوس توسط اشرار در محور زاهدان به چابهار
play_arrow
به رگبار بستن اتوبوس توسط اشرار در محور زاهدان به چابهار
دبیرکل حزب‌الله: هزینۀ حمله به بیروت هدف قراردادن تل‌آویو است
play_arrow
دبیرکل حزب‌الله: هزینۀ حمله به بیروت هدف قراردادن تل‌آویو است
گروسی: فردو جای خطرناکی نیست
play_arrow
گروسی: فردو جای خطرناکی نیست
گروسی: گفتگوها با ایران بسیار سازنده بود و باید ادامه پیدا کند
play_arrow
گروسی: گفتگوها با ایران بسیار سازنده بود و باید ادامه پیدا کند
گروسی: در پارچین و طالقان سایت‌های هسته‌ای نیست
play_arrow
گروسی: در پارچین و طالقان سایت‌های هسته‌ای نیست
گروسی: ایران توقف افزایش ذخایر ۶۰ درصد را پذیرفته است
play_arrow
گروسی: ایران توقف افزایش ذخایر ۶۰ درصد را پذیرفته است
سورپرایز سردار آزمون برای تولد امیر قلعه‌نویی
play_arrow
سورپرایز سردار آزمون برای تولد امیر قلعه‌نویی
رهبر انقلاب: حوزه‌ علمیه باید در مورد نحوه حکمرانی و پدیده‌های جدید نظر بدهد
play_arrow
رهبر انقلاب: حوزه‌ علمیه باید در مورد نحوه حکمرانی و پدیده‌های جدید نظر بدهد
حملات خمپاره‌ای سرایاالقدس علیه مواضع دشمن در جبالیا
play_arrow
حملات خمپاره‌ای سرایاالقدس علیه مواضع دشمن در جبالیا
کنایه علی لاریجانی به حملات تهدیدآمیز صهیونیست‌ها
play_arrow
کنایه علی لاریجانی به حملات تهدیدآمیز صهیونیست‌ها