
تألیف و ترجمه: حمید وثیق زاده انصاری
منبع:راسخون
منبع:راسخون
این پروژهی بزرگ و جنجالی دادهای، قربانیان را با توجه به تغییرات دورهای در الگوریتمهای جستجوی گوگل کاهش میدهد.
درسال 2008 گوگل یک سرویس جذاب جدید به نام "روند آنفلوآنزای گوگل" معرفی کرد. مهندسین شرکت مشاهده کردند که عبارتهای خاص جستجو شده (مانند آنهایی که شامل کلمات "تب" و "سرفه" بودند) در هر فصل آنفلوآنزا خیره کننده به نظر میرسند. ایدهی آنها این بود که از تعداد تکرار این جستجوها برای محاسبهی سریعتر نرخ پراکنش آنفلوآنزا در سطح یک کشور نسبت به آن چه که با دادههای معمولی قادر به انجام آن هستند (که معمولاً چند هفته جمع آوری و تجزیه و تحلیلشان زمان میبرد) استفاده کنند تا مردم بدانند که چه وقت باید اقدامات احتیاطی اضافی لازم را برای جلو گیری از ابتلا به ویروس، انجام دهند.
خروجی رسانهها (که این گزارش هم جزو آنها محسوب میشود) با عجله به چنین استفادهی روشنگرانه، خلاق و بنیادی از دادههای بزرگ توسط گوگل، تبریک گفتند. تنها مشکل چه بود؟ سرویس روند آنفلوآنزای گوگل خیلی خوب عمل نکرد.
این سرویس همواره نرخ شیوع آنفلوآنزا را در مقایسه با دادههای معمولی جمع آوری شده توسط CDC (مرکز کنترل بیماریهای آمریکا) بیشتر از آن چه که بود تخمین میزد، به گونهای که در 100 هفته از 108 هفتهی بین اوت 2011 و سپتامبر 2013 مقدار تخمین زده شده، بیشتر از مقدار واقعی بود. در ژانویهی 2013 زمانی که نرخ شیوع آنفلوآنزا در کشور به اوج خود رسید، سرویس روند آنفلوآنزای گوگل آن را دو برابر بیشتر از دادههای واقعی به دست آمده تخمین زد. عدم دقت آن بالاخره درد سر ساز شد و به پوششهای خبری راه یافت.
معمولترین پاسخ به این اختلاف این بوده است که گوگل، افزایش جستجوهای مربوط به آنفلوآنزا به علت موج رسانهای که هر سال موقع زمستان رخ میدهد و موجب اضطراب مردم دربارهی این موضوع میشود را در نظر نگرفته است. اما این هفته در نشریهی ساینس، گروهی از دانشمندان علوم اجتماعی به رهبری دیوید لیزر، یک توضیح جای گزین را پیشنهاد کردند: این که تغییراتی که گوگل به الگوریتم جستجوی خود داده است، باید مقصر شناخته شوند.
مسلماً این برای افراد بیرونی سخت است که سرویس روند آنفلوآنزای گوگل را تجزیه و تحلیل نمایند، چرا که شرکت گوگل واژههای خاص جستجویی که به عنوان دادههای خام استفاده میکند، یا الگوریتم مشخصی که برای تبدیل تعداد این جستجوها به ارز یابی آنفلوآنزا استفاده میکند را فاش نمیکند. اما محققین نهایت تلاش خود را به کار بستند تا با استفاده از سرویس "Google Correlate" واژههای جستجو را استنتاج نمایند. این سرویس به شما اجازه میدهد تا میزان عبارات خاص جستجو شده در طول زمان را ببینید.
هنگامی که محققان از این سرویس استفاده کردند تا تنوع جستجوهای مربوط به آنفلوآنزا در طول چند سال گذشته را در یابند، فهمیدند که چند کلید واژه (مانند "درمان آنفلوآنزا"، یا "چگونگی فرق گذاشتن بین سرما خوردگی و آنفلوآنزا") در مقایسه با نرخ آنفلوآنزای واقعی، بیشتر به مقداری که سرویس روند آنفلوآنزای گوگل تخمین زده بود نزدیک بود، به ویژه هنگامی که گوگل میزان شیوع این بیماری را بالاتر تخمین زده بود. به نظر میرسد این جستجوهای خاص، میتواند بخش بزرگی از مشکل عدم دقت باشد.
دلیل خوب دیگری وجود دارد که این موضوع میتواند علت اصلی باشد. در سال 2011 به عنوان بخشی از یک تغییر عادی در الگوریتم جستجو، گوگل شروع به توصیهی عبارتهای مرتبط برای بسیاری از جستجوها نمود (ازجمله فهرست عبارات جستجو برای درمان آنفلوآنزا پس از آن که کسی لغات مربوط به آنفلوآنزا را در گوگل جستجو میکرد) و در سال 2012 این شرکت شروع به ارائهی تشخیص بالقوه در پاسخ به علائم جستجو شده نمود (از جمله فهرست کردن هم "سرما خوردگی" و هم "آنفلوآنزا" پس از جستجویی که شامل عبارت "گلو درد" باشد، برای مثال شاید باعث شده که کار بر نحوهی تمایز این دو را جستجو نماید). محققان استدلال میکنند که این تغییرات، به احتمال زیاد باعث افزایش مصنوعی میزان جستجوها شده و آنها این را دلیل اصلی تخمین بالاتر از واقعیت گوگل میشناسند.
البته اگر این فرضیه درست باشد، این امر به این معنی نیست که سرویس روند آنفلوآنزای گوگل به ناچار به علت عدم دقت خود محکوم به فنا است، فقط نیاز است تا به روز شود تا تغییرات ثابت موتور جستجو را هم به حساب بیاورد. اما "لیزر" و دیگر محققان استدلال میکنند که رد یابی آنفلوآنزا از دادههای بزرگ، مشکل بس بزرگی است.
معلوم شد که بخش عظیمی از واژههای جستجو شده که با دادههای CDC در بارهی نرخ آنفلوآنزا هم خوانی داشت، توسط افرادی ایجاد شده بود که مبتلا به آنفلوآنزا نشده بودند، اما عامل سومی که بر هر دو بخش آمار جستجوها و نرخ آنفلوآنزا تأثیر میگذارد، زمستان است. در واقع، توسعه دهندگان سرویس روند آنفلوآنزای گوگل گزارش خود را بر اساس واژههای خاصی تنظیم کرده بودند - مانند واژههای مربوط به "بسکتبال دبیرستانی" - که با نرخ آنفلوآنزا در طول زمان ارتباط داشتند اما به وضوح هیچ ربطی به ویروس ندارند.
با گذشت زمان، مهندسان گوگل بسیاری از واژههایی را که با جستجوی آنفلوآنزا مرتبط بودند اما عملاً هیچ ربطی به آنفلوآنزا نداشتند، به صورت دستی حذف کردند، اما مدلهای آنها هنوز هم به وضوح بیش از حد به روند بیماریهای غیر آنفلوآنزای فصلی وابسته هستند که این بخشی از دلیل شکست سرویس روند آنفلوآنزای گوگل برای باز تاب اپیدمی بیماری H1N1 یا همان آنفلوآنزای نوع یک که در تابستان رخ داد، است. نویسندگان مقالهی چاپ شده در مجلهی "ساینس" این گونه نوشتهاند که سرویس روند آنفلوآنزای گوگل، به خصوص در نسخههای قبلیاش آشکار ساز بخشی آنفلوآنزا و زمستان بوده است (یعنی بخشی از یافتههایش مربوط به آنفلوآنزا و بخشی مربوط به زمستان میشد).
اما محققان میگویند: با همهی این موارد، به جای پوشاندن کامل مسئله با شکایات متعدد، این میتواند درسی برای استفاده از دادههای بزرگ در پروژههایی مانند سرویس روند آنفلوآنزای گوگل باشد. اگر به درستی به روز رسانی به حسابهای تغییرات در الگوریتم جستجوی گوگل وارد شود و با دقت مورد تجزیه و تحلیل قرار گیرد تا عوامل صرفاً فصلی را حذف نماید، میتواند در مستند سازی نرخ آنفلوآنزا در سراسر کشور مفید باشد، علی الخصوص زمانی که با دادههای مرسوم ترکیب شده باشد.
به عنوان یک آزمایش، محققان مدلی را طراحی کردند که دادههای سرویس روند آنفلوآنزای گوگل (که اساساً لحظهای است اما به طور بالقوه غیر دقیق است) را با دادههای دو هفتهای CDC (که زمان بر است زیرا مدتی طول میکشد تا جمع آوری شود اما هنوز هم میتواند تا حدودی نرخ آنفلوآنزای فعلی را نشان دهد) ترکیب کرده است. مدل ترکیبی آنها اطلاعات واقعی و فعلی آنفلوآنزا را بسیار نزدیکتر از سرویس روند آنفلوآنزای گوگل به دست میآورد و راهی را برای به دست آوردن بسیار سریعتر این اطلاعات نسبت به انتظار دو هفتهای برای دادههای معمولی معرفی کرده است.
"رایان کندی"، استاد دانشکده علوم سیاسی دانشگاه هیوستون و دستیار نویسنده، در یک بیانیهی مطبوعاتی گفت: "تجزیه و تحلیل ما از سرویس آنفلوآنزای گوگل بیانگر این است که بهترین نتایج، حاصل ترکیب اطلاعات و تکنیکهای به دست آمده از هر دو منبع است. به جای سخن گفتن در بارهی تغییرات بزرگ در دادهها، باید بر سر همه تغییرات دادهها بحث کنیم."
خروجی رسانهها (که این گزارش هم جزو آنها محسوب میشود) با عجله به چنین استفادهی روشنگرانه، خلاق و بنیادی از دادههای بزرگ توسط گوگل، تبریک گفتند. تنها مشکل چه بود؟ سرویس روند آنفلوآنزای گوگل خیلی خوب عمل نکرد.
این سرویس همواره نرخ شیوع آنفلوآنزا را در مقایسه با دادههای معمولی جمع آوری شده توسط CDC (مرکز کنترل بیماریهای آمریکا) بیشتر از آن چه که بود تخمین میزد، به گونهای که در 100 هفته از 108 هفتهی بین اوت 2011 و سپتامبر 2013 مقدار تخمین زده شده، بیشتر از مقدار واقعی بود. در ژانویهی 2013 زمانی که نرخ شیوع آنفلوآنزا در کشور به اوج خود رسید، سرویس روند آنفلوآنزای گوگل آن را دو برابر بیشتر از دادههای واقعی به دست آمده تخمین زد. عدم دقت آن بالاخره درد سر ساز شد و به پوششهای خبری راه یافت.
معمولترین پاسخ به این اختلاف این بوده است که گوگل، افزایش جستجوهای مربوط به آنفلوآنزا به علت موج رسانهای که هر سال موقع زمستان رخ میدهد و موجب اضطراب مردم دربارهی این موضوع میشود را در نظر نگرفته است. اما این هفته در نشریهی ساینس، گروهی از دانشمندان علوم اجتماعی به رهبری دیوید لیزر، یک توضیح جای گزین را پیشنهاد کردند: این که تغییراتی که گوگل به الگوریتم جستجوی خود داده است، باید مقصر شناخته شوند.
مسلماً این برای افراد بیرونی سخت است که سرویس روند آنفلوآنزای گوگل را تجزیه و تحلیل نمایند، چرا که شرکت گوگل واژههای خاص جستجویی که به عنوان دادههای خام استفاده میکند، یا الگوریتم مشخصی که برای تبدیل تعداد این جستجوها به ارز یابی آنفلوآنزا استفاده میکند را فاش نمیکند. اما محققین نهایت تلاش خود را به کار بستند تا با استفاده از سرویس "Google Correlate" واژههای جستجو را استنتاج نمایند. این سرویس به شما اجازه میدهد تا میزان عبارات خاص جستجو شده در طول زمان را ببینید.
هنگامی که محققان از این سرویس استفاده کردند تا تنوع جستجوهای مربوط به آنفلوآنزا در طول چند سال گذشته را در یابند، فهمیدند که چند کلید واژه (مانند "درمان آنفلوآنزا"، یا "چگونگی فرق گذاشتن بین سرما خوردگی و آنفلوآنزا") در مقایسه با نرخ آنفلوآنزای واقعی، بیشتر به مقداری که سرویس روند آنفلوآنزای گوگل تخمین زده بود نزدیک بود، به ویژه هنگامی که گوگل میزان شیوع این بیماری را بالاتر تخمین زده بود. به نظر میرسد این جستجوهای خاص، میتواند بخش بزرگی از مشکل عدم دقت باشد.
دلیل خوب دیگری وجود دارد که این موضوع میتواند علت اصلی باشد. در سال 2011 به عنوان بخشی از یک تغییر عادی در الگوریتم جستجو، گوگل شروع به توصیهی عبارتهای مرتبط برای بسیاری از جستجوها نمود (ازجمله فهرست عبارات جستجو برای درمان آنفلوآنزا پس از آن که کسی لغات مربوط به آنفلوآنزا را در گوگل جستجو میکرد) و در سال 2012 این شرکت شروع به ارائهی تشخیص بالقوه در پاسخ به علائم جستجو شده نمود (از جمله فهرست کردن هم "سرما خوردگی" و هم "آنفلوآنزا" پس از جستجویی که شامل عبارت "گلو درد" باشد، برای مثال شاید باعث شده که کار بر نحوهی تمایز این دو را جستجو نماید). محققان استدلال میکنند که این تغییرات، به احتمال زیاد باعث افزایش مصنوعی میزان جستجوها شده و آنها این را دلیل اصلی تخمین بالاتر از واقعیت گوگل میشناسند.
البته اگر این فرضیه درست باشد، این امر به این معنی نیست که سرویس روند آنفلوآنزای گوگل به ناچار به علت عدم دقت خود محکوم به فنا است، فقط نیاز است تا به روز شود تا تغییرات ثابت موتور جستجو را هم به حساب بیاورد. اما "لیزر" و دیگر محققان استدلال میکنند که رد یابی آنفلوآنزا از دادههای بزرگ، مشکل بس بزرگی است.
معلوم شد که بخش عظیمی از واژههای جستجو شده که با دادههای CDC در بارهی نرخ آنفلوآنزا هم خوانی داشت، توسط افرادی ایجاد شده بود که مبتلا به آنفلوآنزا نشده بودند، اما عامل سومی که بر هر دو بخش آمار جستجوها و نرخ آنفلوآنزا تأثیر میگذارد، زمستان است. در واقع، توسعه دهندگان سرویس روند آنفلوآنزای گوگل گزارش خود را بر اساس واژههای خاصی تنظیم کرده بودند - مانند واژههای مربوط به "بسکتبال دبیرستانی" - که با نرخ آنفلوآنزا در طول زمان ارتباط داشتند اما به وضوح هیچ ربطی به ویروس ندارند.
با گذشت زمان، مهندسان گوگل بسیاری از واژههایی را که با جستجوی آنفلوآنزا مرتبط بودند اما عملاً هیچ ربطی به آنفلوآنزا نداشتند، به صورت دستی حذف کردند، اما مدلهای آنها هنوز هم به وضوح بیش از حد به روند بیماریهای غیر آنفلوآنزای فصلی وابسته هستند که این بخشی از دلیل شکست سرویس روند آنفلوآنزای گوگل برای باز تاب اپیدمی بیماری H1N1 یا همان آنفلوآنزای نوع یک که در تابستان رخ داد، است. نویسندگان مقالهی چاپ شده در مجلهی "ساینس" این گونه نوشتهاند که سرویس روند آنفلوآنزای گوگل، به خصوص در نسخههای قبلیاش آشکار ساز بخشی آنفلوآنزا و زمستان بوده است (یعنی بخشی از یافتههایش مربوط به آنفلوآنزا و بخشی مربوط به زمستان میشد).
اما محققان میگویند: با همهی این موارد، به جای پوشاندن کامل مسئله با شکایات متعدد، این میتواند درسی برای استفاده از دادههای بزرگ در پروژههایی مانند سرویس روند آنفلوآنزای گوگل باشد. اگر به درستی به روز رسانی به حسابهای تغییرات در الگوریتم جستجوی گوگل وارد شود و با دقت مورد تجزیه و تحلیل قرار گیرد تا عوامل صرفاً فصلی را حذف نماید، میتواند در مستند سازی نرخ آنفلوآنزا در سراسر کشور مفید باشد، علی الخصوص زمانی که با دادههای مرسوم ترکیب شده باشد.
به عنوان یک آزمایش، محققان مدلی را طراحی کردند که دادههای سرویس روند آنفلوآنزای گوگل (که اساساً لحظهای است اما به طور بالقوه غیر دقیق است) را با دادههای دو هفتهای CDC (که زمان بر است زیرا مدتی طول میکشد تا جمع آوری شود اما هنوز هم میتواند تا حدودی نرخ آنفلوآنزای فعلی را نشان دهد) ترکیب کرده است. مدل ترکیبی آنها اطلاعات واقعی و فعلی آنفلوآنزا را بسیار نزدیکتر از سرویس روند آنفلوآنزای گوگل به دست میآورد و راهی را برای به دست آوردن بسیار سریعتر این اطلاعات نسبت به انتظار دو هفتهای برای دادههای معمولی معرفی کرده است.
"رایان کندی"، استاد دانشکده علوم سیاسی دانشگاه هیوستون و دستیار نویسنده، در یک بیانیهی مطبوعاتی گفت: "تجزیه و تحلیل ما از سرویس آنفلوآنزای گوگل بیانگر این است که بهترین نتایج، حاصل ترکیب اطلاعات و تکنیکهای به دست آمده از هر دو منبع است. به جای سخن گفتن در بارهی تغییرات بزرگ در دادهها، باید بر سر همه تغییرات دادهها بحث کنیم."
/ج