https://frosthead.com

Вашите туитове могат да предскажат кога ще получите грип

През 1854 г. в отговор на пагубната епидемия от холера, която преминава през Лондон, британският лекар Джон Сноу въвежда идея, която ще направи революция в областта на общественото здраве: епидемиологичната карта. Като записва случаи на холера в различни квартали на града и ги очертава на карта, базирана на резиденциите на пациентите, той открива, че една единствена замърсена водна помпа е отговорна за голяма част от инфекциите.

Картата го убеждава - и в крайна сметка обществените органи - че теорията за болестта на миазмата (която твърди, че болестите се разпространяват чрез вредни газове) е невярна и че теорията на зародишите (която правилно твърди, че микроорганизмите са виновни) е вярна. Те поставят ключалка върху дръжката на помпата, отговорна за епидемията, сигнализирайки за промяна на парадигмата, която трайно промени начина, по който се справяме с инфекциозните заболявания и по този начин санирането.

Технологията за картографиране е доста различна, както и болестта, но има известно сходство между картата на Snow и нов проект, проведен от група изследователи, ръководени от Хенри Кауц от Университета в Рочестър. Чрез създаването на алгоритми, които могат да открият тенденциите за грип и да правят прогнози въз основа на ключови думи в публично достъпни туитове с географски марки, те използват нов подход за изучаване на предаването на болестта - такъв, който може да промени начина, по който изучаваме и проследяваме движението на болестите в обществото,

„Можем да мислим за хората като сензори, които гледат на света около тях и след това да докладват какво виждат и изпитват в социалните медии“, обяснява Каутц. „Това ни позволява да правим подробни измервания в популационен мащаб и не изисква активно участие на потребителите.“

С други думи, когато чуруликаме, че току-що сме били застинали от болезнена кашлица и треска, неволно предоставяме богати данни за огромен експеримент за обществено здраве, информация, която изследователите могат да използват за проследяване на движението на болести като грип в висока резолюция и в реално време.

Проектът на Kautz, наречен SocialHealth, използва туитове и други видове социални медии за проследяване на редица проблеми в общественото здраве - наскоро те започнаха да използват туитове за наблюдение на случаи на хранително отравяне в ресторантите в Ню Йорк, като регистрираха всички, които са публикували географски туитове от ресторант, след което следвайте туитовете си през следващите 72 часа, проверявайки за споменавания за повръщане, диария, болки в корема, повишена температура или втрисане. По този начин те откриха 480 вероятни случая на хранително отравяне.

Но тъй като сезонът се променя, тяхната работа проследява грипния вирус, който е най-отворен за очите. Google Грипните тенденции също се стремят да използват търсещите Google, за да проследят движението на грипа, но моделът значително надцени миналогодишната епидемия, може би защото медийното отразяване на грипа подтикна хората да започнат да правят въпроси, свързани с грипа. Анализът на Twitter представлява нов набор от данни с няколко качества - по-висока географска разделителна способност и възможност за улавяне на движението на потребител във времето - което може да даде по-добри прогнози.

За да стартират своя проект за проследяване на грип, изследователите на SocialHealth разгледаха специално Ню Йорк, като събраха около 16 милиона обществени туитове на географски данни на месец от 600 000 потребители за три месеца. По-долу е изтичане на един ден в Ню Йорк в Twitter, с различни цветове, представляващи различни честоти на туитове на това място (синьо и зелено означават по-малко туитове, оранжево и червено означават повече):

За да използва всички тези данни, неговият екип разработи алгоритъм, който определя дали всеки туит представлява доклад за грипоподобни симптоми. Преди това други изследователи просто са правили това, като са търсили ключови думи в туитове („болен“, например), но неговият екип е открил, че подходът води до фалшиви позитиви: Много повече потребители пишат, че им е писнало от домашна работа, отколкото са чувство за зле.

За да отчете това, алгоритъмът на неговия екип търси три думи подред (вместо една) и преценява колко често конкретната последователност е показателна за заболяване въз основа на набор от туитове, които са били ръчно етикетирани. Фразата „болен от грип“ например е силно свързана с болестта, докато „болен и уморен“ е по-малко. Някои конкретни думи - главоболие, треска, кашлица - са силно свързани с болестта, независимо от трисловната последователност, от която са част.

След като тези милиони туитове бяха кодирани, изследователите можеха да направят няколко интригуващи неща с тях. Като за начало те разгледаха промените в туитовете, свързани с грипа, и ги сравниха с нивата на грип, съобщавани от CDC, потвърждавайки, че туитовете точно заснеха общата тенденция на грипните темпове. Въпреки това, за разлика от данните за CDC, те са достъпни в почти реално време, а не седмица или две след факта.

Но те също отидоха по-дълбоко, като погледнаха взаимодействията между различни потребители - представени от двама потребители, които туитират от едно и също място (GPS резолюцията е около половин градски блок) в рамките на един и същи час - за да моделират колко е вероятно това да е здрав човек би се разболял, след като влезе в контакт с някой с грипа. Очевидно двама души, туитове от един и същи блок на разстояние 40 минути, не се срещат непременно лично, но шансовете, че са се срещнали, са малко по-големи от двама случайни потребители.

В резултат на това, когато разгледате достатъчно голям набор от взаимодействия, се появява картина на предаване. Те откриха, че ако здравият потребител срещне 40 други потребители, които се отчитат като болни със симптоми на грип, шансовете му да се появят симптоми на грип на следващия ден се увеличават от по-малко от един процент на 20 процента. При 60 взаимодействия този брой нараства до 50 процента.

Екипът също разгледа взаимодействията в самия Twitter, като изолира двойки потребители, които следват един друг и ги нарича „приятелства“. Въпреки че много връзки в Twitter съществуват само в мрежата, някои съответстват на взаимодействията в реалния живот и откриха, че потребител който има десет приятели, които се отчитат като болни, са с 28 процента по-склонни да се разболеят на следващия ден. Като цяло, използвайки и двата вида взаимодействия, техният алгоритъм беше в състояние да предскаже дали здравият човек ще се разболее (и туитира за него) с 90 процента точност.

Все още сме в ранните етапи на това изследване и има изобилие от ограничения: Повечето хора все още не използват Twitter (да, наистина) и дори да го направят, може да не чуруликат да се разболеят.

Но ако този вид система може да бъде развита допълнително, е лесно да си представим всякакви приложения. Вашият смартфон може автоматично да ви предупреди, ако сте прекарали прекалено много време на местата, заети от хора с грип, което ви подтиква да се приберете вкъщи, за да спрете да се подлагате на пътя на инфекцията. Цели жители на града дори биха могли да бъдат предупредени, ако беше на прага на огнище.

Въпреки 150 години, които сме отстранени от пробива на картографирането на Джон Сноу, ясно е, че все още има аспекти на информацията за болестта, която не разбираме напълно. Сега, както тогава, картографирането на данните може да помогне за получаване на отговори.

Вашите туитове могат да предскажат кога ще получите грип