شکست روند آنفلوآنزای گوگل

این پروژه‌ی بزرگ و جنجالی داده‌ای، قربانیان را با توجه به تغییرات دوره‌ای در الگوریتم‌های جستجوی گوگل کاهش می‌دهد.
جمعه، 20 تير 1393
تخمین زمان مطالعه:
موارد بیشتر برای شما
شکست روند آنفلوآنزای گوگل
شکست روند آنفلوآنزای گوگل

 

تألیف و ترجمه: حمید وثیق زاده انصاری
منبع:راسخون




 
این پروژه‌ی بزرگ و جنجالی داده‌ای، قربانیان را با توجه به تغییرات دوره‌ای در الگوریتم‌های جستجوی گوگل کاهش می‌دهد.
شکست روند آنفلوآنزای گوگل
درسال 2008 گوگل یک سرویس جذاب جدید به نام "روند آنفلوآنزای گوگل" معرفی کرد. مهندسین شرکت مشاهده کردند که عبارت‌های خاص جستجو شده (مانند آنهایی که شامل کلمات "تب" و "سرفه" بودند) در هر فصل آنفلوآنزا خیره کننده به نظر می‌رسند. ایده‌ی آنها این بود که از تعداد تکرار این جستجوها برای محاسبه‌ی سریع‌تر نرخ پراکنش آنفلوآنزا در سطح یک کشور نسبت به آن چه که با داده‌های معمولی قادر به انجام آن هستند (که معمولاً چند هفته جمع آوری و تجزیه و تحلیلشان زمان می‌برد) استفاده کنند تا مردم بدانند که چه وقت باید اقدامات احتیاطی اضافی لازم را برای جلو گیری از ابتلا به ویروس، انجام دهند.
خروجی رسانه‌ها (که این گزارش هم جزو آنها محسوب می‌شود) با عجله به چنین استفاده‌ی روشنگرانه، خلاق و بنیادی از داده‌های بزرگ توسط گوگل، تبریک گفتند. تنها مشکل چه بود؟ سرویس روند آنفلوآنزای گوگل خیلی خوب عمل نکرد.
این سرویس همواره نرخ شیوع آنفلوآنزا را در مقایسه با داده‌های معمولی جمع آوری شده توسط CDC (مرکز کنترل بیماری‌های آمریکا) بیشتر از آن چه که بود تخمین می‌زد، به گونه‌ای که در 100 هفته از 108 هفته‌ی بین اوت 2011 و سپتامبر 2013 مقدار تخمین زده شده، بیشتر از مقدار واقعی بود. در ژانویه‌ی 2013 زمانی که نرخ شیوع آنفلوآنزا در کشور به اوج خود رسید، سرویس روند آنفلوآنزای گوگل آن را دو برابر بیشتر از داده‌های واقعی به دست آمده تخمین زد. عدم دقت آن بالاخره درد سر ساز شد و به پوشش‌های خبری راه یافت.
معمول‌ترین پاسخ به این اختلاف این بوده است که گوگل، افزایش جستجوهای مربوط به آنفلوآنزا به علت موج رسانه‌ای که هر سال موقع زمستان رخ می‌دهد و موجب اضطراب مردم درباره‌ی این موضوع می‌شود را در نظر نگرفته است. اما این هفته در نشریه‌ی ساینس، گروهی از دانشمندان علوم اجتماعی به رهبری دیوید لیزر، یک توضیح جای گزین را پیشنهاد کردند: این که تغییراتی که گوگل به الگوریتم جستجوی خود داده است، باید مقصر شناخته شوند.
مسلماً این برای افراد بیرونی سخت است که سرویس روند آنفلوآنزای گوگل را تجزیه و تحلیل نمایند، چرا که شرکت گوگل واژه‌های خاص جستجویی که به عنوان داده‌های خام استفاده می‌کند، یا الگوریتم مشخصی که برای تبدیل تعداد این جستجوها به ارز یابی آنفلوآنزا استفاده می‌کند را فاش نمی‌کند. اما محققین نهایت تلاش خود را به کار بستند تا با استفاده از سرویس "Google Correlate" واژه‌های جستجو را استنتاج نمایند. این سرویس به شما اجازه می‌دهد تا میزان عبارات خاص جستجو شده در طول زمان را ببینید.
هنگامی که محققان از این سرویس استفاده کردند تا تنوع جستجوهای مربوط به آنفلوآنزا در طول چند سال گذشته را در یابند، فهمیدند که چند کلید واژه (مانند "درمان آنفلوآنزا"، یا "چگونگی فرق گذاشتن بین سرما خوردگی و آنفلوآنزا") در مقایسه با نرخ آنفلوآنزای واقعی، بیشتر به مقداری که سرویس روند آنفلوآنزای گوگل تخمین زده بود نزدیک بود، به ویژه هنگامی که گوگل میزان شیوع این بیماری را بالاتر تخمین زده بود. به نظر می‌رسد این جستجوهای خاص، می‌تواند بخش بزرگی از مشکل عدم دقت باشد.
دلیل خوب دیگری وجود دارد که این موضوع می‌تواند علت اصلی باشد. در سال 2011 به عنوان بخشی از یک تغییر عادی در الگوریتم جستجو، گوگل شروع به توصیه‌ی عبارت‌های مرتبط برای بسیاری از جستجوها نمود (ازجمله فهرست عبارات جستجو برای درمان آنفلوآنزا پس از آن که کسی لغات مربوط به آنفلوآنزا را در گوگل جستجو می‌کرد) و در سال 2012 این شرکت شروع به ارائه‌ی تشخیص بالقوه در پاسخ به علائم جستجو شده نمود (از جمله فهرست کردن هم "سرما خوردگی" و هم "آنفلوآنزا" پس از جستجویی که شامل عبارت "گلو درد" باشد، برای مثال شاید باعث شده که کار بر نحوه‌ی تمایز این دو را جستجو نماید). محققان استدلال می‌کنند که این تغییرات، به احتمال زیاد باعث افزایش مصنوعی میزان جستجوها شده و آنها این را دلیل اصلی تخمین بالاتر از واقعیت گوگل می‌شناسند.
البته اگر این فرضیه درست باشد، این امر به این معنی نیست که سرویس روند آنفلوآنزای گوگل به ناچار به علت عدم دقت خود محکوم به فنا است، فقط نیاز است تا به روز شود تا تغییرات ثابت موتور جستجو را هم به حساب بیاورد. اما "لیزر" و دیگر محققان استدلال می‌کنند که رد یابی آنفلوآنزا از داده‌های بزرگ، مشکل بس بزرگی است.
معلوم شد که بخش عظیمی از واژه‌های جستجو شده که با داده‌های CDC در باره‌ی نرخ آنفلوآنزا هم خوانی داشت، توسط افرادی ایجاد شده بود که مبتلا به آنفلوآنزا نشده بودند، اما عامل سومی که بر هر دو بخش آمار جستجوها و نرخ آنفلوآنزا تأثیر می‌گذارد، زمستان است. در واقع، توسعه دهندگان سرویس روند آنفلوآنزای گوگل گزارش خود را بر اساس واژه‌های خاصی تنظیم کرده بودند - مانند واژه‌های مربوط به "بسکتبال دبیرستانی" - که با نرخ آنفلوآنزا در طول زمان ارتباط داشتند اما به وضوح هیچ ربطی به ویروس ندارند.
با گذشت زمان، مهندسان گوگل بسیاری از واژه‌هایی را که با جستجوی آنفلوآنزا مرتبط بودند اما عملاً هیچ ربطی به آنفلوآنزا نداشتند، به صورت دستی حذف کردند، اما مدل‌های آنها هنوز هم به وضوح بیش از حد به روند بیماری‌های غیر آنفلوآنزای فصلی وابسته هستند که این بخشی از دلیل شکست سرویس روند آنفلوآنزای گوگل برای باز تاب اپیدمی بیماری H1N1 یا همان آنفلوآنزای نوع یک که در تابستان رخ داد، است. نویسندگان مقاله‌ی چاپ شده در مجله‌ی "ساینس" این گونه نوشته‌اند که سرویس روند آنفلوآنزای گوگل، به خصوص در نسخه‌های قبلی‌اش آشکار ساز بخشی آنفلوآنزا و زمستان بوده است (یعنی بخشی از یافته‌هایش مربوط به آنفلوآنزا و بخشی مربوط به زمستان می‌شد).
اما محققان می‌گویند: با همه‌ی این موارد، به جای پوشاندن کامل مسئله با شکایات متعدد، این می‌تواند درسی برای استفاده از داده‌های بزرگ در پروژه‌هایی مانند سرویس روند آنفلوآنزای گوگل باشد. اگر به درستی به روز رسانی به حساب‌های تغییرات در الگوریتم جستجوی گوگل وارد شود و با دقت مورد تجزیه و تحلیل قرار گیرد تا عوامل صرفاً فصلی را حذف نماید، می‌تواند در مستند سازی نرخ آنفلوآنزا در سراسر کشور مفید باشد، علی الخصوص زمانی که با داده‌های مرسوم ترکیب شده باشد.
به عنوان یک آزمایش، محققان مدلی را طراحی کردند که داده‌های سرویس روند آنفلوآنزای گوگل (که اساساً لحظه‌ای است اما به طور بالقوه غیر دقیق است) را با داده‌های دو هفته‌ای CDC (که زمان بر است زیرا مدتی طول می‌کشد تا جمع آوری شود اما هنوز هم می‌تواند تا حدودی نرخ آنفلوآنزای فعلی را نشان دهد) ترکیب کرده است. مدل ترکیبی آنها اطلاعات واقعی و فعلی آنفلوآنزا را بسیار نزدیکتر از سرویس روند آنفلوآنزای گوگل به دست می‌آورد و راهی را برای به دست آوردن بسیار سریع‌تر این اطلاعات نسبت به انتظار دو هفته‌ای برای داده‌های معمولی معرفی کرده است.
"رایان کندی"، استاد دانشکده علوم سیاسی دانشگاه هیوستون و دستیار نویسنده، در یک بیانیه‌ی مطبوعاتی گفت: "تجزیه و تحلیل ما از سرویس آنفلوآنزای گوگل بیانگر این است که بهترین نتایج، حاصل ترکیب اطلاعات و تکنیک‌های به دست آمده از هر دو منبع است. به جای سخن گفتن در باره‌ی تغییرات بزرگ در داده‌ها، باید بر سر همه تغییرات داده‌ها بحث کنیم."



 

 



ارسال نظر
با تشکر، نظر شما پس از بررسی و تایید در سایت قرار خواهد گرفت.
متاسفانه در برقراری ارتباط خطایی رخ داده. لطفاً دوباره تلاش کنید.
مقالات مرتبط