За хората шахът може да отнеме цял живот, за да овладее. Но новата програма за изкуствен интелект на Google DeepMind, AlphaZero, може да се научи да завладява дъската за няколко часа.
Въз основа на предишния си успех с пакета AlphaGo - поредица от компютърни програми, предназначени да играят китайската настолна игра Go - Google се похвали, че новият му AlphaZero постига ниво на „свръхчовешко представяне“ не само в една настолна игра, а в три: Отиди, шах и шоги (по същество японски шах). Екипът от компютърни учени и инженери, воден от Дейвид Силвър от Google, отчете своите открития наскоро в списание Science .
„Преди това с машинно обучение бихте могли да накарате машина да прави точно това, което искате - но само това нещо“, казва Айяна Хауърд, експерт по интерактивни изчисления и изкуствен интелект от Технологичния институт в Джорджия, която не участва в изследвания. „Но AlphaZero показва, че можете да имате алгоритъм, който не е толкова [специфичен], и той може да се научи в рамките на определени параметри.“
Умното програмиране на AlphaZero със сигурност надгражда предимството на геймплея както за хора, така и за машини, но Google отдавна има своите гледни точки върху нещо по-голямо: инженерно разузнаване.
Изследователите внимават да не твърдят, че AlphaZero е на прага на световното господство (други са били малко по-бързи да скачат пистолета). Все пак Сребърен и останалата част от екипа на DeepMind вече се надяваме, че някой ден ще видят подобна система, прилагана в дизайна на наркотици или науката за материалите.
И така, какво прави AlphaZero толкова впечатляващ?
Играта отдавна е почитана като златен стандарт в изследванията за изкуствен интелект. Структурираните, интерактивни игри са опростявания на реални сценарии: Трябва да се вземат трудни решения; печалбите и загубите увеличават залозите; и прогнозирането, критичното мислене и стратегията са ключови.
Кодирането на този вид умение е сложно. По-старите игрови ИИ - включително първите прототипи на оригиналния AlphaGo - традиционно са били зареждани с пълни кодове и данни, за да имитират опита, обикновено спечелен с години естествен, човешки геймплей (по същество, пасивен, изхвърлен от програмист смет). С AlphaGo Zero (най-новата версия на AlphaGo) и сега AlphaZero, изследователите дадоха на програмата само един вход: правилата на въпросната игра. След това системата се престраши и активно научи триковете на самата търговия.
AlphaZero е базиран на AlphaGo Zero, част от пакета AlphaGo, предназначен за игра на китайската настолна игра Go, на снимката по-горе. Ранните итерации на оригиналната програма бяха подадени от данни от хора срещу хора; по-късни версии, ангажирани с самоучение, при което софтуерът играе игри срещу себе си, за да научи собствената си стратегия. (Чад Милър / Flickr / CC BY-SA 2.0)Тази стратегия, наречена обучение за подсилване на самостоятелна игра, е почти точно това, което звучи: За да тренира за големите лиги, AlphaZero играе в итерация след итерация, усъвършенствайки уменията си чрез опит и грешка. И грубият подход се изплати. За разлика от AlphaGo Zero, AlphaZero не просто играе Go: Той може да победи и най-добрите AI в бизнеса в шах и шоги. Процесът на обучение също е впечатляващо ефективен, изисква само два, четири или 30 часа самостоятелно обучение, за да надминат програмите, специално пригодени съответно за овладяване на шоги, шах и Go. По-специално, авторите на изследването не съобщават за случаи на AlphaZero да върви лице в глава с действително човек, казва Хауърд. (Изследователите може би са предположили, че като се има предвид, че тези програми последователно ограничават човешките си колеги, подобно съвпадение би било безсмислено.)
AlphaZero също успя да се грижи за Stockfish (понастоящем несемеен майстор по шах на AI) и Elmo (бившият експерт по AI shogi), въпреки че оценяваше по-малко възможни следващи ходове на всеки завой по време на игра. Но тъй като въпросните алгоритми са по своята същност различни и могат да консумират различни количества енергия, е трудно директно да се сравнят AlphaZero с други, по-стари програми, изтъква Джоана Брайсън, която изучава изкуствения интелект в Университета в Бат в Обединеното кралство и направи не допринасят за AlphaZero.
Google държи на мама за много тънък печат на своя софтуер и AlphaZero не е изключение. Въпреки че не знаем всичко за консумацията на енергия в програмата, ясно какво е това: AlphaZero трябва да опакова сериозни изчислителни амуниции. В онези оскъдни часове на тренировка програмата се държеше много натоварена, ангажирайки се с десетки или стотици хиляди рундове на тренировки, за да постигне стратегията си за настолни игри до гушкане - много повече, отколкото би трябвало един човешки играч (или в повечето случаи може дори да постигна) в преследване на умения.
Този интензивен режим използва също 5 000 собствени процесорни единици на машинно обучение или TPU, които по някои оценки консумират около 200 вата на чип. Колкото и да го нарязвате, AlphaZero изисква много повече енергия от човешкия мозък, който работи на около 20 вата.
Трябва да се вземе предвид абсолютната консумация на енергия на AlphaZero, добавя Бин Ю, който работи в интерфейса на статистиката, машинното обучение и изкуствения интелект в Калифорнийския университет в Бъркли. AlphaZero е мощен, но може да не е добър удар за долара - особено при добавянето в човек-часове, които влязоха в неговото създаване и изпълнение.
Енергийно скъп или не, AlphaZero прави пляскане: Повечето AI са хиперспециализирани за една задача, което прави тази нова програма - с нейната тройна заплаха от игра - изключително гъвкава. „Впечатляващо е, че AlphaZero успя да използва една и съща архитектура за три различни игри“, казва Ю.
Значи да. Новият AI на Google поставя нова марка по няколко начина. Бързо става. Мощен е. Но това прави ли го умно?
Тук определенията започват да стават мътни. „AlphaZero успя да се научи, започвайки от нулата без никакви човешки познания, да играе всяка от тези игри до свръхчовешко ниво“, заяви сребърният DeepMind в изявление пред пресата.
Дори ако експертните познания в настолните игри изискват умствена острота, всички пълномощници за реалния свят имат своите граници. В сегашната си итерация AlphaZero постига постигането си, като печели проектирани от човека игри - което може да не гарантира потенциално тревожния етикет на „свръхчовек“. Плюс това, ако бъде изненадан с нов набор от правила в средата на играта, AlphaZero може да се размине. Действителният човешки мозък, от друга страна, може да съхранява в репертоара си много повече от три настолни игри.
Нещо повече, сравняването на основната линия на AlphaZero с табула раса (празен лист) - както правят изследователите - е участък, казва Брайсън. Програмистите все още го хранят един основен затвор от човешкото познание: правилата на играта, която предстои да играе. „Това има много по-малко време за продължаване, отколкото всичко досега, “ добавя Брайсън, „но най-фундаменталното нещо е, че все още се дават правила. Те са изрични. “
И тези досадни правила биха могли да представляват значителна критерий. „Въпреки че тези програми се научават как да се изпълняват, те се нуждаят от правилата на пътя“, казва Хауърд. „Светът е пълен със задачи, които нямат тези правила.“
Когато натискането се появява, AlphaZero е ъпгрейд на вече мощна програма - AlphaGo Zero, обяснява JoAnn Paul, който изучава изкуствения интелект и изчислителните сънища в Вирджинския политехнически институт и държавния университет и не е участвал в новите изследвания. AlphaZero използва много от същите градивни елементи и алгоритми като AlphaGo Zero и все още представлява само подмножество от истински умници. „Мислех, че това ново развитие е по-еволюционно, отколкото революционно“, добавя тя. „Никой от тези алгоритми не може да създаде . Интелигентността също е свързана с разказването на истории. Представя си неща, които все още не са там. Не мислим в тези термини в компютрите. "
Част от проблема е, че все още няма консенсус относно истинската дефиниция на „интелигентността“, казва Ю - и не само в областта на технологиите. „Все още не е ясно как тренираме критично мислещи същества или как използваме мозъка на безсъзнанието“, добавя тя.
До този момент много изследователи смятат, че има вероятност от множество видове интелигентност. А пробиването в едно далеч не гарантира съставките за друго. Например, някои от най-умните хора там са ужасни в шаха.
С тези ограничения, визията на Ю за бъдещето на изкуствения интелект партнира хората и машините в един вид колекция. Машините със сигурност ще продължат да се отличават в определени задачи, обяснява тя, но човешкият принос и надзор винаги може да са необходими за компенсиране на неавтоматизираните.
Разбира се, не се казва как нещата ще се разклатят на АИ арена. Междувременно имаме какво да размишляваме. „Тези компютри са мощни и могат да направят определени неща по-добре от човешкия“, казва Пол. "Но това все още не се отличава с мистерията на интелигентността."
Тази статия първоначално е публикувана в NOVA.