Ако някой ви помоли да прогнозирате броя на медалите, които всяка страна ще спечели на тазгодишните олимпийски игри, вероятно ще се опитате да идентифицирате предпочитаните спортисти във всяко събитие, а след това общата сума на очакваните печалби на всяка страна да постигне резултат.
Тим и Дан Гратингер, братята зад компанията за извличане на данни Discovery Corps, Inc., имат доста различен подход. Пренебрегват изцяло спортистите.
Вместо това техният модел за игрите в Сочи разглежда географския район на всяка страна, БВП на глава от населението, общата стойност на износа и географската ширина, за да определи колко медали ще спечели всяка страна. В случай, че се чудите, прогнозира, че САЩ ще излязат на върха с общо 29 медала.
Graettingers не са първите, които използват този тип задвижван от данни подход отгоре надолу за прогнозиране на броя на медалите. Даниел Джонсън, професор по икономика в Колорадоския колеж, изгради подобни модели за петте олимпиади между 2000 и 2008 г. - постигайки общо 94 процента точност при прогнозиране на броя на медалите на всяка страна - но не създаде модел за Сочи.
Дан и Тим са по-нови в играта. Дан - който обикновено работи по по-конвенционални проекти за извличане на данни, например прогнозира потенциалните клиенти на компанията - за първи път се заинтересува от използването на модели за прогнозиране на състезания преди четири години, по време на зимните олимпийски игри във Ванкувър. "Използвам данни за миналото, за да предсказвам бъдещето през цялото време", казва той. "Всяка вечер те ще показват броя на медалите по телевизията. Започнах да се чудя дали можем да го прогнозираме."
Въпреки че представянето на отделни спортисти може да варира непредвидимо, аргументира той, може да има цялостна връзка между основните характеристики на страната (например нейния размер, климат и количество богатство) и броя на медалите, които вероятно ще отнеме у дома. Този вид подход не би могъл да каже кой състезател може да спечели дадено събитие, но с достатъчно данни, той може да бъде в състояние точно да прогнозира съвкупния брой медали за всяка страна.
Първоначално той и брат му се заемат да разработят предварителен модел за игрите в Лондон 2012 г. Като начало те събраха широк спектър от различни видове набори от данни, от всичко, от география на страната до историята, религията, богатството и политическата структура. Тогава те използваха регресионен анализ и други методи за разбиване на данни, за да видят кои променливи имат най-тясна връзка с историческите данни за олимпийските медали.
Те откриха, че за летните игри модел, включващ брутния вътрешен продукт, населението, географската ширина и общата икономическа свобода (измерена чрез индекса на фондацията за наследство), е в най-добрия случай с броя на медалите на всяка държава за предходните две летни олимпийски игри (2004 г.) и 2008 г.). Но в този момент техният предварителен модел можеше само да предскаже кои страни ще спечелят два или повече медала, а не броя на медалите за всяка страна.
Те решиха да го подобрят за игрите в Сочи, но не можаха да разчитат на предишния си модел, защото страните, които са успешни през зимата, се различават толкова много от летните. Новият им модел в Сочи се справя с проблема с предсказването на броя на медалите в две стъпки. Тъй като около 90 процента от страните никога не са печелили нито един медал от зимните олимпийски игри (нито един атлет от Близкия Изток, Южна Америка, Африка или Карибите не е печелил), той първо разделя десетте процента, които е вероятно да спечелят поне един, а след това прогнозира колко всеки от тях ще спечели.
„Някои тенденции са почти това, което бихте очаквали - с увеличаването на населението на дадена страна има повече вероятност тя да спечели медал“, казва Тим. „В крайна сметка обаче се нуждаете от някои по-мощни статистически машини, които могат да обработват много променливи и да ги класират по отношение на това, които са най-предсказуеми.“
В крайна сметка те се натъкнаха на няколко променливи, които точно разделят деветдесет процента от страните, които не печелят медали от десетте процента, които вероятно ще спечелят: те включват миграция, брой лекари на глава от населението, географска ширина, брутен вътрешен продукт и дали страната има спечели медал в предишните летни игри (никоя държава никога не беше спечелила зимен медал, без да спечели един от предходното лято, отчасти защото групата от победители през лятото е толкова по-голяма от зимната). С пускането на този модел на последните две зимни олимпийски игри, този модел определи кои нации взеха медал с 96, 5 процента точност.
С 90 процента от елиминираните страни Graettingers използваха аналогични регресионни анализи, за да създадат модел, който предвиждаше със задна дата колко медала е спечелила всяка останала страна. Техният анализ установи, че малко по-различен списък от променливи най-добре отговаря на данните за исторически медали. Тези променливи заедно с прогнозите за игрите в Сочи са по-долу:
Прогнозите на модела за игрите в Сочи (Graph ljubaz Discovery Corps, Inc.)Някои от променливите, които се оказаха корелативни, не са огромен шок - има смисъл страните с по-голяма географска ширина да се справят по-добре в събитията, играни през зимните игри - но някои бяха по-изненадващи.
"Мислехме, че населението, а не площта, ще бъде важно", казва Дан. Те не са сигурни защо географската зона свършва по-отблизо историческите данни, но може би е така, защото няколко държави с високо население, които не печелят зимни медали (като Индия и Бразилия), отхвърлят данните. Използвайки вместо това земя, моделът избягва негативното влияние на тези страни, но все пак запазва груба връзка с населението, тъй като като цяло страните с по-големи площи имат по-голямо население.
Разбира се, моделът не е перфектен, дори при съвпадение на исторически данни. "Нашият подход е подходът на 30 000 фута. Има променливи, които не можем да отчитаме", казва Тим. Някои страни многократно превъзхождат прогнозите на модела (включително Южна Корея, която печели непропорционално количество състезания за кънки къси трасета), докато други постоянно постигат по-малко резултати (като Обединеното кралство, което изглежда е много по-добро в летните събития, които биха били очаквани, т.е. може би защото - въпреки географската си ширина - получава много повече дъжд от сняг).
Освен това, постоянно изключение, което са открили при прогнозите на модела, е, че страната домакин носи повече медали, отколкото би иначе, само въз основа на данните. И Италия (по време на игрите в Торино през 2006 г.) и Канада (по време на игрите във Ванкувър през 2010 г.) надминаха модела, като Канада постави рекорда си за всички времена в спечелването на 14 златни.
Все пак, въз основа на техния статистически строг подход, Graettingers са уверени, че като цяло техният модел ще прогнозира крайните медали с относително висока степен на точност.
Как техните прогнози се сравняват с тези на експерти, които използват по-конвенционални стратегии? Експертите не се различават драстично, но те имат няколко традиционно успешни държави (Норвегия, Канада, Русия), които печелят по-голям брой медали, заедно с няколко други (Китай, Холандия, Австралия), всяка от които печели по-малко.
Към днешна дата Graettingers не са направили залози на прогнозите си, но планират да сравняват изхода на своя модел с коефициентите за залагане точно преди началото на мачовете. Ако видят несъответствия, които биха искали да експлоатират, може да сложат парите си там, където е устата им.