МОЖЕ ЛИ КОМПЮТЪРЕН МОДЕЛ ДА ПРЕДСКАЖЕ ПЪРВИЯ КРЪГ ОТ ТАЗГОДИШНАТА МАРША ЛУДОСТ? | ИНОВАЦИИ | СМИТСОНИЪН - СТАТИИ, ИНОВАЦИИ, ТЕХНОЛОГИИ

"Пазете се от март." Да, най-накрая отново е онова време на годината: когато императорите на колежа по баскетбол трябва да гледат гърбовете си, за да не се ударят ниско дъното на семената на турнира.

Преди 15 март милиони по целия свят ще попълнят своите скоби за мартенско лудост. През 2017 г. ESPN получи рекордните 18, 8 милиона скоби.

Първата стъпка към перфектна скоба е правилния избор на първия кръг. За съжаление, повечето от нас не могат да предскажат бъдещето. Миналата година само 164 от подадените скоби бяха перфектни през първия кръг - по-малко от 0, 001 процента.

Подадени са 18, 8 милиона скоби.

164 са перфектни след 1 кръг.

Ето го за превъзмогване. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
- ESPN Fantasy Sports (@ESPNFantasy) 18 март 2017 г.

Много скоби са разрушени, когато екип с по-ниски посеви разстройва предпочитаното по-високо семе. Тъй като полето се разширява до 64 отбора през 1985 г., най-малко осем разстройства се случват средно всяка година. Ако искате да спечелите своя скобен пул, по-добре изберете поне няколко разстройства.

Ние сме двама докторантура по математика. кандидати от държавния университет в Охайо, които имат страст към науката за данни и баскетбола. Тази година решихме, че би било забавно да изградим компютърна програма, която използва математически подход, за да прогнозира разстройства от първия кръг. Ако сме прави, скоба, избрана с помощта на нашата програма, трябва да се представи по-добре през първия кръг от средната.

Грешими хора

Не е лесно да се определи коя от игрите от първия кръг ще доведе до разстройство.

Кажете, че трябва да решите между семето № 10 и семето № 7. Семената №10 изтеглиха печалби в последните си три турнирни участия, като веднъж дори направиха Финалната четворка. Семената № 7 са екип, който получава почти никакво национално покритие; случайният фен вероятно никога не е чувал за тях. Кое бихте избрали?

Ако избрахте семето № 10 през 2017 г., щяхте да отидете с Университета на Вирджиния Commonwealth над Saint Mary's of California - и щяхте да сбъркате. Благодарение на заблудата при вземане на решение, наречена пристрастия на приемане, хората могат да бъдат подмамени да използват най-новите си наблюдения, за да вземат решение.

Пристрастността на приличието е само един тип пристрастия, които могат да проникнат в нечий процес на избор, но има и много други. Може би сте предубедени към домашния си отбор, или може би се идентифицирате с играч и отчаяно искате той или тя да успее. Всичко това влияе на вашата скоба по потенциално отрицателен начин. Дори опитните професионалисти попадат в тези капани.

Моделиране на разстройства

Машинното обучение може да се защити срещу тези клопки.

При машинно обучение статистиците, математиците и компютърните учени обучават машина да прави прогнози, като я позволява да се „учи” от минали данни. Този подход е използван в много различни области, включително маркетинг, медицина и спорт.

Техниките за машинно обучение могат да се оприличат на черна кутия. Първо, захранвате миналите данни на алгоритъма, като по същество задавате циферблатите на черното поле. След като настройките се калибрират, алгоритъмът може да прочете нови данни, да го сравни с минали данни и след това да изплюе прогнозите си.

Изглед в черна кутия на алгоритмите за машинно обучение. (Матю Осборн, CC BY-SA)

В машинното обучение има на разположение най-различни черни кутии. За нашия проект March Madness, тези, които искахме, са известни като алгоритми за класификация. Те ни помагат да определим дали играта трябва да бъде класифицирана като разстроена или чрез предоставяне на вероятността за разстройство или изрично класифициране на игра като такава.

Нашата програма използва редица популярни алгоритми за класификация, включително логистична регресия, случайни модели на горите и k-близки съседи. Всеки метод е като различна „марка“ на една и съща машина; те работят толкова различно под капака, колкото Fords и Toyota, но изпълняват същата класификация. Всеки алгоритъм или кутия има собствени прогнози за вероятността от разстройство.

Използвахме статистическите данни за всички отбори от първи кръг от 2001 до 2017 г., за да задаваме циферблатите на нашите черни кутии. Когато тествахме един от нашите алгоритми с данните от първия кръг за 2017 г., той имаше около 75 процента успеваемост. Това ни дава увереност, че анализирането на минали данни, а не само доверие на червата ни, може да доведе до по-точни прогнози за разстройства и по този начин по-добри общи скоби.

Какви предимства имат тези кутии пред човешката интуиция? От една страна, машините могат да идентифицират модели във всички данни за 2001-2017 г. за няколко секунди. Нещо повече, тъй като машините разчитат само на данни, те могат да се окажат по-малко склонни към човешки психологически пристрастия.

Това не означава, че машинното обучение ще ни даде перфектни скоби. Въпреки че кутията заобикаля човешките пристрастия, тя не е имунизирана срещу грешки. Резултатите зависят от минали данни. Например, ако семената №1 загубиха в първия кръг, нашият модел вероятно няма да го предскаже, защото това никога не се е случвало досега.

Освен това алгоритмите за машинно обучение работят най-добре с хиляди или дори милиони примери. От 2001 г. се играят само 544 мача от лудия от първия кръг, така че нашите алгоритми няма да извикат правилно всяко разстройство. Ехо от баскетболния експерт Джален Роуз, нашата продукция трябва да се използва като инструмент във връзка с вашите експертни познания - и късмет! - за да изберете правилните игри.

Машинно учене на лудост?

Ние не сме първите хора, които прилагат машинно обучение към мартенската лудост и няма да сме последни. Всъщност скоро може да са необходими техники за машинно обучение, за да направите вашата скоба конкурентоспособна.

Нямате нужда от специалност математика, за да използвате машинно обучение - въпреки че това ни помага. Скоро машинното обучение може да бъде по-достъпно от всякога. Заинтересованите могат да разгледат нашите модели онлайн. Чувствайте се свободни да изследвате нашите алгоритми и дори сами да излезете с по-добър подход.

Тази статия първоначално е публикувана в The Conversation.

Матю Осборн, доктор по математика, Държавния университет в Охайо

Кевин Ноуланд, доктор по математика, Държавен университет в Охайо