خوشه بندی در یادگیری ماشین

در مبحث یاد گیری ماشین و هوش مصنوعی، دسته بندی‌های تجمعی داده‌ها یا همان خوشه بندی نقاط داده‌ای امری حیاتی محسوب می‌شود. در این مقاله به دسته بندی روش‌های مختلف این خوشه بندی پرداخته می‌شود.

جمعه، 9 اسفند 1398

تخمین زمان مطالعه:

مترجم : فتانه خزاعی

موارد بیشتر برای شما

انسانها مدت‌ها قبل از وجود هوش مصنوعی به جستجوی الگوها می‌پرداختند. این ماهیت کنجکاوی انسان است که توجه دارد به شباهت‌ها در جهان و کشف معنای جدید و دانش پنهانی اساسی در عناصر آن. اما اکنون یک یاور جدید و قدرتمند پیدا کرده‌ایم که می‌تواند حجم باور نکردنی‌ای از داده‌های ایجاد شده در قرن بیست و یکم را کنترل کند و آن را با استفاده از تکنیک‌هایی مانند خوشه بندی در یاد گیری ماشین تفسیر کند.

خوشه بندی زمینه‌ای جالب از علوم داده است. از تجزیه و تحلیل خوشه‌ای مبتنی بر هوش مصنوعی توسط همه سازمان‌ها - از مشاغل گرفته تا محققان علمی - برای به دست آوردن بینش‌های ارزشمند در همه جنبه‌های زندگی استفاده می‌شود. در این مقاله، ما چگونگی کار خوشه بندی، چگونگی تولید و چگونگی استفاده از آن را بررسی خواهیم کرد.

به شباهت‌ها توجه کنید

خوشه بندی به گروه بندی داده‌ها با توجه به شباهت‌های جالب / مفید اشاره دارد. اعتبار این مفهوم اغلب به انسان شناسان آلفرد کروبر و هارولد داریور نسبت داده می‌شود. مقاله آنها در سال 1932 ، با عنوان « بیان کمی از روابط فرهنگی » ، مربوط به این است که چگونه برخی از صفات فرهنگی (مانند اعتقادات مذهبی یا سبک‌های معماری) از قومیت‌ها و جوامع عبور می‌کند و در برخی موارد این صفات در خوشه‌های خاصی از فرهنگ‌ها یافت می‌شود. در اصل، آنها می‌خواستند از شناخت الگوها برای تجزیه و تحلیل داده‌های انسان شناسی و به دست آوردن بینش‌هایی که در حوزه‌های مختلف مربوط به بشریت است، استفاده کنند.

طولی نکشید که انجام تجزیه و تحلیل خوشه‌ای به حوزه دیگری از مطالعات کشیده شد: روان شناسی. روان شناس آموزشی جوزف زوبین در سال 1938 از آن به عنوان "روشی برای سنجش هم اندیشی" در مقاله‌ای از خود با همین عنوان یاد کرد. وی آن را به عنوان روشی برای تقسیم افراد به گروههایی توصیف کرد که از نظر معیارهای اجتماعی معینی به همان شیوه فکر می‌کنند. هر چه خوشه بندی یاد گیری ماشین پیشرفت بیشتری پیدا کند، بینش‌هایی که می‌تواند - برای تجارت، علم و جامعه - ارائه دهد بیشتر خواهد شد. خوشه بندی به سرعت توسط معاصرانی مانند روان شناس رفتاری روبرت تریون و نظریه پرداز شخصیت پیشگام ریموند کتل پذیرفته شد. از آن جا، مطالعات خوشه‌ای در بقیه علوم گسترش یافته است.

انواع الگوریتم‌های خوشه بندی

امروزه سیستم‌های یاد گیری ماشین از طیف وسیعی از روش‌ها برای تجزیه داده‌ها به گروه‌ها و زیر گروه‌ها در جستجوی معنی استفاده می‌کنند. در این جا چند مورد از انواع اصلی الگوریتم خوشه بندی ارائه می‌شود که مورد نیاز است بدانید:

* فاصله بین دیتابیس‌ها. وقتی نقشه‌های داده در مکانی ترسیم می‌شوند (بگذارید یک نمودار پراکندگی را تصور کنیم) فاصله بین آنها محاسبه می‌شود. مناطقی از داده‌هایی که در نزدیکترین گروه‌ نسبت به یک دیگر قرار گرفته‌اند، به عنوان گروه تعریف می‌شوند. این یک روش نسبتاً ساده است اما ممکن است برای آنالیز داده‌های بزرگ مناسب نباشد، زیرا به آن نیاز دارد که هر نقطه داده‌ای با هر نقطه داده‌ای دیگر مقایسه شود – و این کار به مقدار زیادی پردازش نیاز دارد. این روش همچنین به عنوان خوشه بندی سلسله مراتبی یا خوشه بندی مبتنی بر اتصال شناخته می شود، زیرا با سلسله مراتب داده کار می‌کند – که عبارت است از اتصالات بین نقاط مختلف داده.

* تراکم نقاط در یک منطقه. این خوشه‌ها توسط مناطقی از فضا تعریف شده‌اند که با نقاط داده‌ای به طور متراکم جمعیت بندی شده‌اند و از یک دیگر توسط مناطق کم پشت جدا می‌شوند. نقاط داده‌ای در خارج از خوشه‌ها به عنوان "نویز" شناخته شده و در نظر گرفته نمی‌شوند، از این رو در تجزیه و تحلیل حساب نمی‌شوند. این الگوریتم بر اساس این پایه کار می‌کند که در یک شعاع تعریف شده، باید چگالی خاصی از داده‌ها وجود داشته باشد تا یک خوشه در نظر گرفته شود. اگر نقاط داده‌ای به اندازه کافی نزدیک به خوشه برای شمول معیارهای آن باشند، آن گاه در داخل خوشه پذیرفته می‌شوند، تا زمانی که به ناحیه‌ای برسد که فاصله تا نقطه بعدی به اندازه کافی زیاد باشد که نتواند در خوشه پذیرفته شود. خوشه سپس تنظیم شده و قابل تجزیه و تحلیل است.

* خوشه بندی مبتنی بر توزیع احتمال. این الگوریتم با استفاده از یک مدل توزیع انتخاب شده، احتمال این که آیا نقاط داده در یک خوشه قرار دارند یا خیر را مشخص می‌کند. از مراکز ثقل برای تعریف نقطه مرکزی هر خوشه استفاده می‌کند و داده‌های پیرامون آنها را طبقه بندی می‌کند. هر چه نقاط داده بیشتر از مرکز خوشه دور باشند، احتمال آن که در این خوشه باشند کمتر است.

* خوشه ‌بندی مرکز ثقلی یا به روش k. این روش به طور تصادفی مجموعه‌ای از k نقطه داده را به عنوان مراکز ثقل انتخاب می‌کند. نقاط داده اطراف هر مرکز ثقل که نزدیک‌ترین فاصله را با آن دارند، سپس به خوشه آن مرکز ثقل اختصاص می‌یابند. متوسط (یا میانگین) کلیه داده های داده داخل خوشه محاسبه می‌شود و مرکز ثقل در مرکز خوشه تعیین موقعیت مجدد می‌شود. از تجزیه و تحلیل خوشه‌ای مبتنی بر هوش مصنوعی توسط همه سازمان‌ها - از مشاغل گرفته تا محققان علمی - برای به دست آوردن بینش‌های ارزشمند در همه جنبه‌های زندگی استفاده می‌شود. این روند تا زمانی که تمام مراکز ثقل از حرکت باز ایستند و دیگر نیازی به تعیین موقعیت مجدد نداشته باشند تکرار می‌شود که در این حال خوشه‌ها کاملاً تعریف می‌شوند. با حرکت به جلو، هر داده جدیدی به این خوشه‌ها اختصاص داده می‌شود، و مرکز ثقل دو باره محاسبه می‌شوند. تعداد مراکز ثقل مورد استفاده با "k" نشان داده می‌شود – و همین وجه تسمیه خوشه ‌بندی مرکز ثقلی یا به روش k است.

باز کردن بینش‌های تجاری

با استفاده از فن آوری یاد گیری امروزی ماشین و قدرت پردازش در دسترس، می‌توان تجزیه و تحلیل خوشه‌ای را برای حجم عظیمی از داده‌ها با درجه بالایی از کار برد انجام داد.

مدتهاست که از تکنیک‌های خوشه بندی برای بینش و استراتژی بازار استفاده شده است. استفاده از آنها در مورد مشتری ثروتمند و داده‌های معامله‌ای در دسترس خرده فروشان منجر به تقسیم بندی عمیق، ظریف و بسیار مؤثر در بازار می‌شود. موتورهای پیشنهادی که به طور مداوم بهبود می‌یابند، می‌توانند براساس الگوهای موجود در شرایط و هزینه‌های خود، محصولات و خدماتی را که مصرف کنندگان می‌خواهند و به آن نیاز دارند را نشان دهند.

انبوه امکانات

هر چه خوشه بندی یاد گیری ماشین پیشرفت بیشتری پیدا کند، بینش‌هایی که می‌تواند - برای تجارت، علم و جامعه - ارائه دهد بیشتر خواهد شد. سیستم‌های هوش مصنوعی حتی خوشه‌هایی از علائم سرطانی را نیز شناسایی می‌کنند، به طوری که در اسرع وقت درمان می تواند شروع شود.

منبع: Valérie Bécaert – ٍELEMENT AI