خوشه بندی در یادگیری ماشین
در مبحث یاد گیری ماشین و هوش مصنوعی، دسته بندیهای تجمعی دادهها یا همان خوشه بندی نقاط دادهای امری حیاتی محسوب میشود. در این مقاله به دسته بندی روشهای مختلف این خوشه بندی پرداخته میشود.
خوشه بندی زمینهای جالب از علوم داده است. از تجزیه و تحلیل خوشهای مبتنی بر هوش مصنوعی توسط همه سازمانها - از مشاغل گرفته تا محققان علمی - برای به دست آوردن بینشهای ارزشمند در همه جنبههای زندگی استفاده میشود. در این مقاله، ما چگونگی کار خوشه بندی، چگونگی تولید و چگونگی استفاده از آن را بررسی خواهیم کرد.
به شباهتها توجه کنید
خوشه بندی به گروه بندی دادهها با توجه به شباهتهای جالب / مفید اشاره دارد. اعتبار این مفهوم اغلب به انسان شناسان آلفرد کروبر و هارولد داریور نسبت داده میشود. مقاله آنها در سال 1932 ، با عنوان « بیان کمی از روابط فرهنگی » ، مربوط به این است که چگونه برخی از صفات فرهنگی (مانند اعتقادات مذهبی یا سبکهای معماری) از قومیتها و جوامع عبور میکند و در برخی موارد این صفات در خوشههای خاصی از فرهنگها یافت میشود. در اصل، آنها میخواستند از شناخت الگوها برای تجزیه و تحلیل دادههای انسان شناسی و به دست آوردن بینشهایی که در حوزههای مختلف مربوط به بشریت است، استفاده کنند.طولی نکشید که انجام تجزیه و تحلیل خوشهای به حوزه دیگری از مطالعات کشیده شد: روان شناسی. روان شناس آموزشی جوزف زوبین در سال 1938 از آن به عنوان "روشی برای سنجش هم اندیشی" در مقالهای از خود با همین عنوان یاد کرد. وی آن را به عنوان روشی برای تقسیم افراد به گروههایی توصیف کرد که از نظر معیارهای اجتماعی معینی به همان شیوه فکر میکنند. هر چه خوشه بندی یاد گیری ماشین پیشرفت بیشتری پیدا کند، بینشهایی که میتواند - برای تجارت، علم و جامعه - ارائه دهد بیشتر خواهد شد. خوشه بندی به سرعت توسط معاصرانی مانند روان شناس رفتاری روبرت تریون و نظریه پرداز شخصیت پیشگام ریموند کتل پذیرفته شد. از آن جا، مطالعات خوشهای در بقیه علوم گسترش یافته است.
انواع الگوریتمهای خوشه بندی
امروزه سیستمهای یاد گیری ماشین از طیف وسیعی از روشها برای تجزیه دادهها به گروهها و زیر گروهها در جستجوی معنی استفاده میکنند. در این جا چند مورد از انواع اصلی الگوریتم خوشه بندی ارائه میشود که مورد نیاز است بدانید:* فاصله بین دیتابیسها. وقتی نقشههای داده در مکانی ترسیم میشوند (بگذارید یک نمودار پراکندگی را تصور کنیم) فاصله بین آنها محاسبه میشود. مناطقی از دادههایی که در نزدیکترین گروه نسبت به یک دیگر قرار گرفتهاند، به عنوان گروه تعریف میشوند. این یک روش نسبتاً ساده است اما ممکن است برای آنالیز دادههای بزرگ مناسب نباشد، زیرا به آن نیاز دارد که هر نقطه دادهای با هر نقطه دادهای دیگر مقایسه شود – و این کار به مقدار زیادی پردازش نیاز دارد. این روش همچنین به عنوان خوشه بندی سلسله مراتبی یا خوشه بندی مبتنی بر اتصال شناخته می شود، زیرا با سلسله مراتب داده کار میکند – که عبارت است از اتصالات بین نقاط مختلف داده.
* تراکم نقاط در یک منطقه. این خوشهها توسط مناطقی از فضا تعریف شدهاند که با نقاط دادهای به طور متراکم جمعیت بندی شدهاند و از یک دیگر توسط مناطق کم پشت جدا میشوند. نقاط دادهای در خارج از خوشهها به عنوان "نویز" شناخته شده و در نظر گرفته نمیشوند، از این رو در تجزیه و تحلیل حساب نمیشوند. این الگوریتم بر اساس این پایه کار میکند که در یک شعاع تعریف شده، باید چگالی خاصی از دادهها وجود داشته باشد تا یک خوشه در نظر گرفته شود. اگر نقاط دادهای به اندازه کافی نزدیک به خوشه برای شمول معیارهای آن باشند، آن گاه در داخل خوشه پذیرفته میشوند، تا زمانی که به ناحیهای برسد که فاصله تا نقطه بعدی به اندازه کافی زیاد باشد که نتواند در خوشه پذیرفته شود. خوشه سپس تنظیم شده و قابل تجزیه و تحلیل است.
* خوشه بندی مبتنی بر توزیع احتمال. این الگوریتم با استفاده از یک مدل توزیع انتخاب شده، احتمال این که آیا نقاط داده در یک خوشه قرار دارند یا خیر را مشخص میکند. از مراکز ثقل برای تعریف نقطه مرکزی هر خوشه استفاده میکند و دادههای پیرامون آنها را طبقه بندی میکند. هر چه نقاط داده بیشتر از مرکز خوشه دور باشند، احتمال آن که در این خوشه باشند کمتر است.
* خوشه بندی مرکز ثقلی یا به روش k. این روش به طور تصادفی مجموعهای از k نقطه داده را به عنوان مراکز ثقل انتخاب میکند. نقاط داده اطراف هر مرکز ثقل که نزدیکترین فاصله را با آن دارند، سپس به خوشه آن مرکز ثقل اختصاص مییابند. متوسط (یا میانگین) کلیه داده های داده داخل خوشه محاسبه میشود و مرکز ثقل در مرکز خوشه تعیین موقعیت مجدد میشود. از تجزیه و تحلیل خوشهای مبتنی بر هوش مصنوعی توسط همه سازمانها - از مشاغل گرفته تا محققان علمی - برای به دست آوردن بینشهای ارزشمند در همه جنبههای زندگی استفاده میشود. این روند تا زمانی که تمام مراکز ثقل از حرکت باز ایستند و دیگر نیازی به تعیین موقعیت مجدد نداشته باشند تکرار میشود که در این حال خوشهها کاملاً تعریف میشوند. با حرکت به جلو، هر داده جدیدی به این خوشهها اختصاص داده میشود، و مرکز ثقل دو باره محاسبه میشوند. تعداد مراکز ثقل مورد استفاده با "k" نشان داده میشود – و همین وجه تسمیه خوشه بندی مرکز ثقلی یا به روش k است.
باز کردن بینشهای تجاری
با استفاده از فن آوری یاد گیری امروزی ماشین و قدرت پردازش در دسترس، میتوان تجزیه و تحلیل خوشهای را برای حجم عظیمی از دادهها با درجه بالایی از کار برد انجام داد.مدتهاست که از تکنیکهای خوشه بندی برای بینش و استراتژی بازار استفاده شده است. استفاده از آنها در مورد مشتری ثروتمند و دادههای معاملهای در دسترس خرده فروشان منجر به تقسیم بندی عمیق، ظریف و بسیار مؤثر در بازار میشود. موتورهای پیشنهادی که به طور مداوم بهبود مییابند، میتوانند براساس الگوهای موجود در شرایط و هزینههای خود، محصولات و خدماتی را که مصرف کنندگان میخواهند و به آن نیاز دارند را نشان دهند.
انبوه امکانات
هر چه خوشه بندی یاد گیری ماشین پیشرفت بیشتری پیدا کند، بینشهایی که میتواند - برای تجارت، علم و جامعه - ارائه دهد بیشتر خواهد شد. سیستمهای هوش مصنوعی حتی خوشههایی از علائم سرطانی را نیز شناسایی میکنند، به طوری که در اسرع وقت درمان می تواند شروع شود.منبع: Valérie Bécaert – ٍELEMENT AI
مقالات مرتبط
تازه های مقالات
ارسال نظر
در ارسال نظر شما خطایی رخ داده است
کاربر گرامی، ضمن تشکر از شما نظر شما با موفقیت ثبت گردید. و پس از تائید در فهرست نظرات نمایش داده می شود
نام :
ایمیل :
نظرات کاربران
{{Fullname}} {{Creationdate}}
{{Body}}