مخروط بستنی قیفی (تصویر آرشیوی).
اعتبار: © fahrwasser / Adobe Stock
بیشتر ما این پدیده را خیلی خوب می شناسیم: به محض این که در بیرون هوا خیلی گرم شود ، شما اشتهایی را برای یک بستنی خنک کننده به دست می آورید. اما آیا فکر می کردید که ریاضیات می تواند در این مسأله درگیر شود؟
بگذارید توضیح دهیم: افزایش دما و افزایش مصرف بستنی دو متغیر آماری با وابستگی خطی به هم هستند.
در آمار ، همبستگی ها برای پیش بینی رفتارهای آینده متغیرها اهمیت دارند. چنین پیش بینی های علمیای مکرراً توسط رسانه ها خواسته می شود ، چه برای فوتبال و چه برای نتایج انتخابات و امثالهم.
برای سنجش وابستگی خطی ، دانشمندان از به اصطلاح ضریب همبستگی استفاده می کنند ، که نخستین بار توسط دانشمند طبیعی بریتانیا سر فرانسیس گالتون (1911-1822) در دهه 1870 معرفی شد. اندکی پس از آن ، کارل پیرسون ریاضیدان ، یک توجیه ریاضی رسمی برای ضریب همبستگی فراهم آورد. بنابراین ، ریاضیدانان همچنین از "همبستگی محصول - لحظه پیرسون" یا "همبستگی پیرسون" صحبت می کنند.
لکن اگر وابستگی بین متغیرها غیرخطی باشد ، ضریب همبستگی دیگر معیار مناسبی برای وابستگی آنها نیست.
رنه شیلینگ ، استاد احتمالات در درسدن TU ، تأکید می کند: " تاکنون تلاش محاسباتی زیادی برای تشخیص وابستگی ها بین بیش از دو متغیر چندین بعدی انجام شده است ، به ویژه هنگامی که روابط غیر خطی پیچیده ای درگیر است. اکنون ما یک راه حل کارآمد و عملی برای این مشکل پیدا کرده ایم. "
دکتر بیورن بوتچر ، پروفسور مارتین کلر رِسل و پروفسور رنه شیلینگ از انستیتو موارد اتفاقی ریاضی درسدن TU ، یک سنجش وابستگی به نام "چند متغیری فاصله" را ایجاد کرده اند. تعریف این معیار جدید و تئوری ریاضی زمینه ای در مجله بین المللی پیشرو سالنامه آمار با عنوان "چند متغیری فاصله: سنجش های وابستگی جدید برای بردارهای تصادفی" منتشر شد.
مارتین کلر-رسل توضیح می دهد: "برای محاسبه سنجش وابستگی ، نه تنها مقادیر خود متغیرهای مشاهده شده بلکه همچنین فاصله های متقابل آنها ثبت می شود و از این ماتریس های فاصله ، چند متغیری فاصله محاسبه می شود. این مرحله واسطه اجازه آشکار سازی وابستگی های پیچیده ای را می دهد که ضریب همبستگی معمول به سادگی آن را نادیده می گیرد. روش ما می تواند برای سؤالات موجود در بیوانفورماتیک ، جایی که مجموعه داده های بزرگی نیاز به تجزیه و تحلیل دارند ، اعمال شود."
در یک مطالعه پیگیری نشان داده شد که ضریب همبستگی کلاسیک و سایر سنجش های وابستگی شناخته شده می توانند به عنوان موارد مرزی از چند متغیری فاصله بازیابی شوند.
بیورن بوتچر به نتیجه گیری می پردازد با اشاره به این که: "ما کلیه توابع لازم را در بستهی "چند متغیری" برای نرم افزار آماری رایگان" R " فراهم می کنیم به گونهای که همه افراد علاقمند بتوانند کاربرد سنجش وابستگی جدید را آزمایش کنند."
اعتبار: © fahrwasser / Adobe Stock
بیشتر ما این پدیده را خیلی خوب می شناسیم: به محض این که در بیرون هوا خیلی گرم شود ، شما اشتهایی را برای یک بستنی خنک کننده به دست می آورید. اما آیا فکر می کردید که ریاضیات می تواند در این مسأله درگیر شود؟
بگذارید توضیح دهیم: افزایش دما و افزایش مصرف بستنی دو متغیر آماری با وابستگی خطی به هم هستند.
در آمار ، همبستگی ها برای پیش بینی رفتارهای آینده متغیرها اهمیت دارند. چنین پیش بینی های علمیای مکرراً توسط رسانه ها خواسته می شود ، چه برای فوتبال و چه برای نتایج انتخابات و امثالهم.
برای سنجش وابستگی خطی ، دانشمندان از به اصطلاح ضریب همبستگی استفاده می کنند ، که نخستین بار توسط دانشمند طبیعی بریتانیا سر فرانسیس گالتون (1911-1822) در دهه 1870 معرفی شد. اندکی پس از آن ، کارل پیرسون ریاضیدان ، یک توجیه ریاضی رسمی برای ضریب همبستگی فراهم آورد. بنابراین ، ریاضیدانان همچنین از "همبستگی محصول - لحظه پیرسون" یا "همبستگی پیرسون" صحبت می کنند.
لکن اگر وابستگی بین متغیرها غیرخطی باشد ، ضریب همبستگی دیگر معیار مناسبی برای وابستگی آنها نیست.
رنه شیلینگ ، استاد احتمالات در درسدن TU ، تأکید می کند: " تاکنون تلاش محاسباتی زیادی برای تشخیص وابستگی ها بین بیش از دو متغیر چندین بعدی انجام شده است ، به ویژه هنگامی که روابط غیر خطی پیچیده ای درگیر است. اکنون ما یک راه حل کارآمد و عملی برای این مشکل پیدا کرده ایم. "
دکتر بیورن بوتچر ، پروفسور مارتین کلر رِسل و پروفسور رنه شیلینگ از انستیتو موارد اتفاقی ریاضی درسدن TU ، یک سنجش وابستگی به نام "چند متغیری فاصله" را ایجاد کرده اند. تعریف این معیار جدید و تئوری ریاضی زمینه ای در مجله بین المللی پیشرو سالنامه آمار با عنوان "چند متغیری فاصله: سنجش های وابستگی جدید برای بردارهای تصادفی" منتشر شد.
مارتین کلر-رسل توضیح می دهد: "برای محاسبه سنجش وابستگی ، نه تنها مقادیر خود متغیرهای مشاهده شده بلکه همچنین فاصله های متقابل آنها ثبت می شود و از این ماتریس های فاصله ، چند متغیری فاصله محاسبه می شود. این مرحله واسطه اجازه آشکار سازی وابستگی های پیچیده ای را می دهد که ضریب همبستگی معمول به سادگی آن را نادیده می گیرد. روش ما می تواند برای سؤالات موجود در بیوانفورماتیک ، جایی که مجموعه داده های بزرگی نیاز به تجزیه و تحلیل دارند ، اعمال شود."
در یک مطالعه پیگیری نشان داده شد که ضریب همبستگی کلاسیک و سایر سنجش های وابستگی شناخته شده می توانند به عنوان موارد مرزی از چند متغیری فاصله بازیابی شوند.
بیورن بوتچر به نتیجه گیری می پردازد با اشاره به این که: "ما کلیه توابع لازم را در بستهی "چند متغیری" برای نرم افزار آماری رایگان" R " فراهم می کنیم به گونهای که همه افراد علاقمند بتوانند کاربرد سنجش وابستگی جدید را آزمایش کنند."
نرم افزار جدید ، HyperTools ، دادههای پیچیده را به اشکال قابل تجسم تبدیل میکند
تکنیکها بینش مجموعه داده های چندین بعدی را در اختیار کاربران قرار میدهد.
هر مجموعه دادهای در جهان قابل مشاهده ، هندسه یا شکل اساسی مربوطهای دارد ، اما آن ساختار می تواند بسیار پیچیده باشد. به منظور آسان تر ساختن تجسم داده های پیچیده ، یک تیم تحقیقاتی دارتموت HyperTools را ایجاد کرده اند - یک بسته نرم افزاری منبع باز که دنباله ای از تکنیک های ریاضی را چند برابر تقویت می کند تا درک های مستقیمی در باره مجموعه داده های چندین بعدی از طریق ساختارهای هندسی زیربناییای که منعکس می کنند به دست آید. این یافته ها در مجله تحقیقات یادگیری ماشین منتشر شده است.
از HyperTools می توان برای تبدیل داده ها به شکل ها یا انیمیشن های قابل تجسم استفاده کرد ، که می توان از آنها استفاده کرد برای: مقایسه مجموعه داده های مختلف ، به دست آوردن بینش هایی به الگوهای زیربنایی به طریقی مبتنی بر درک مستقیم ، ساختن تعمیم هایی در عرض مجموعه داده ها ، و توسعه و تست تئوری های مربوط به دادههای بزرگ.
جرمی آر مانینگ ، نویسنده ارشد ، که استادیار علوم روانشناسی و مغز و مدیر آزمایشگاهِ دینامیکِ وابسته به قراین در دارتموث است ، توضیح می دهد: "مجموعه داده هایی که به عنوان دانشمندان مدرن با آنها روبرو هستیم می تواند بسیار پیچیده و اغلب منعکس کننده بسیاری از مؤلفه های متقابل باشد." از HyperTools می توان برای تبدیل داده ها به شکل ها یا انیمیشن های قابل تجسم استفاده کرد ، که می توان از آنها استفاده کرد "ابزار ما داده های پیچیده را به اشکال مستقیماً درک شونده سه بعدی تبدیل می کند که می توانند به صورت بصری مورد بررسی و مقایسه قرار گیرند. اساساً ، ما توانایی شگفت آور سیستم بصری برای یافتن الگوهای موجود در دنیای اطراف خود را چند برابر می کنیم تا در داده های علمی پیچیده نیز الگوهایی پیدا کنیم."
محققان نشان می دهند که چگونه HyperTools می تواند در انواع مختلف داده ها اعمال شود. در مقاله ، آنها به نمایش این مجسم سازی ها می پردازند: فعالیت مغزی ، قاب های فیلم و واکنش های مغزی به تماشای آن قاب ها ؛ تغییرات در اندازه گیری های دما در سراسر سطح زمین از سال 1875 تا 2013 ؛ و محتوای موضوعی توئیت های سیاسی منتشر شده توسط هیلاری کلینتون و دونالد ترامپ در جریان انتخابات ریاست جمهوری سال 2016 آمریکا.
علاوه بر استفاده از HyperTools برای درک مستقیم ساختار هندسی داده ها ، از بینش های فاش شده توسط ابزار همچنین می توان برای هدایت توسعه الگوریتم های یادگیری ماشین استفاده کرد. به عنوان مثال ، تجسم داده ها می تواند نشان دهد که چگونه انواع مختلف مشاهدات باعث شکل دهی خوشه های مجزای ساختار یافته (به عنوان مثال توییت های ترامپ در مقابل توییت های کلینتون) می شود که می تواند برای درک شباهت ها و تفاوت های بین گروه ها استفاده شود.
به عنوان بخشی از جعبه ابزار HyperTools ، آزمایشگاه مانینگ همچنان به توسعه و انتشار انواع دیگر تحلیل های تجسم هندسی ، از جمله تجزیه و تحلیل متن که به تازگی راه اندازی شده است ، می پردازد.
منبع: Technische Universität درسدن و کالج دارتموث
هر مجموعه دادهای در جهان قابل مشاهده ، هندسه یا شکل اساسی مربوطهای دارد ، اما آن ساختار می تواند بسیار پیچیده باشد. به منظور آسان تر ساختن تجسم داده های پیچیده ، یک تیم تحقیقاتی دارتموت HyperTools را ایجاد کرده اند - یک بسته نرم افزاری منبع باز که دنباله ای از تکنیک های ریاضی را چند برابر تقویت می کند تا درک های مستقیمی در باره مجموعه داده های چندین بعدی از طریق ساختارهای هندسی زیربناییای که منعکس می کنند به دست آید. این یافته ها در مجله تحقیقات یادگیری ماشین منتشر شده است.
از HyperTools می توان برای تبدیل داده ها به شکل ها یا انیمیشن های قابل تجسم استفاده کرد ، که می توان از آنها استفاده کرد برای: مقایسه مجموعه داده های مختلف ، به دست آوردن بینش هایی به الگوهای زیربنایی به طریقی مبتنی بر درک مستقیم ، ساختن تعمیم هایی در عرض مجموعه داده ها ، و توسعه و تست تئوری های مربوط به دادههای بزرگ.
جرمی آر مانینگ ، نویسنده ارشد ، که استادیار علوم روانشناسی و مغز و مدیر آزمایشگاهِ دینامیکِ وابسته به قراین در دارتموث است ، توضیح می دهد: "مجموعه داده هایی که به عنوان دانشمندان مدرن با آنها روبرو هستیم می تواند بسیار پیچیده و اغلب منعکس کننده بسیاری از مؤلفه های متقابل باشد." از HyperTools می توان برای تبدیل داده ها به شکل ها یا انیمیشن های قابل تجسم استفاده کرد ، که می توان از آنها استفاده کرد "ابزار ما داده های پیچیده را به اشکال مستقیماً درک شونده سه بعدی تبدیل می کند که می توانند به صورت بصری مورد بررسی و مقایسه قرار گیرند. اساساً ، ما توانایی شگفت آور سیستم بصری برای یافتن الگوهای موجود در دنیای اطراف خود را چند برابر می کنیم تا در داده های علمی پیچیده نیز الگوهایی پیدا کنیم."
محققان نشان می دهند که چگونه HyperTools می تواند در انواع مختلف داده ها اعمال شود. در مقاله ، آنها به نمایش این مجسم سازی ها می پردازند: فعالیت مغزی ، قاب های فیلم و واکنش های مغزی به تماشای آن قاب ها ؛ تغییرات در اندازه گیری های دما در سراسر سطح زمین از سال 1875 تا 2013 ؛ و محتوای موضوعی توئیت های سیاسی منتشر شده توسط هیلاری کلینتون و دونالد ترامپ در جریان انتخابات ریاست جمهوری سال 2016 آمریکا.
علاوه بر استفاده از HyperTools برای درک مستقیم ساختار هندسی داده ها ، از بینش های فاش شده توسط ابزار همچنین می توان برای هدایت توسعه الگوریتم های یادگیری ماشین استفاده کرد. به عنوان مثال ، تجسم داده ها می تواند نشان دهد که چگونه انواع مختلف مشاهدات باعث شکل دهی خوشه های مجزای ساختار یافته (به عنوان مثال توییت های ترامپ در مقابل توییت های کلینتون) می شود که می تواند برای درک شباهت ها و تفاوت های بین گروه ها استفاده شود.
به عنوان بخشی از جعبه ابزار HyperTools ، آزمایشگاه مانینگ همچنان به توسعه و انتشار انواع دیگر تحلیل های تجسم هندسی ، از جمله تجزیه و تحلیل متن که به تازگی راه اندازی شده است ، می پردازد.
منبع: Technische Universität درسدن و کالج دارتموث