https://frosthead.com

Как изкуственият интелект може да революционизира изследванията на архивния музей

Когато мислите за изкуствен интелект, полето на ботаниката вероятно не е най-високо в съзнанието ви. Когато изобразите настройки за авангардни изчислителни изследвания, вековни музеи може да не са начело в списъка. И все пак, току-що публикувана статия в списанието за биоразнообразието показва, че едни от най-вълнуващите и най-забележителни иновации в машинното обучение се случват не кой да е, освен в Националния хербарий на Националния природонаучен музей във Вашингтон, окръг Колумбия

Документът, който демонстрира, че цифровите невронни мрежи са в състояние да разграничат две подобни фамилии растения с точност над 90 процента, предполага всякакви възможности за ухо в устата и учени да продължат напред. Изследването разчита на софтуер, основан на алгоритмите за „дълбоко обучение“, които позволяват на компютърните програми да трупат опит по почти същия начин, както правят човешките експерти, усъвършенствайки играта си всеки път, когато стартират. Скоро тази технология би могла да даде възможност за сравнителни анализи на милиони различни екземпляри от всички краища на земното кълбо - предложение, което по-рано би изисквало несъстоятелно количество човешки труд.

„Тази посока на изследване показва голямо обещание“, казва професорът от Станфорд Марк Алджи-Хюит, виден глас в движението за дигитални хуманитарни науки и помощник-директор на факултета в Центъра за пространствен и текстов анализ на университета. „Тези методи имат способността да ни предоставят огромно количество информация за това, какво съдържат колекциите“, казва той и „по този начин те правят достъп до тези данни“.

Тези нови констатации се основават на дългогодишна работа, предприета в института Smithsonian за систематично дигитализиране на колекциите му за академичен и обществен достъп онлайн и представляват забележителна интердисциплинарна среща на умовете: ботаниците, специалистите по дигитализация и учени с данни трябваше да играят роля в привличането на тези резултати на светлина.

Историята започва през октомври 2015 г., когато инсталирането на апаратура за камера и конвейер под Природонаучния музей значително опростява усилията за дигитализиране на ботаническата колекция на Smithsonian. Вместо да им се налага да сканират ръчно всяко натиснато цвете и бучка трева в хранилището им, работниците вече могат да поставят на опашка цели масиви от проби, да оставят коланът да върши своята магия и да ги изтеглят и прекатегоризират в края на опашката. Екипаж от трима души е надзиравал пояса след дебюта си и те преминават през около 750 000 екземпляра всяка година. Не след дълго инвентаризацията на хербариума на Smithsonian, пет милиона екземпляра, ще бъде изцяло онлайн.

Всеки образец е маркиран с задълбочена идентификационна карта, която предоставя информация за произхода му, както и съществени статистически данни. Съдържанието на тези карти е преписано и качено заедно с цифровите изображения, което осигурява изчерпателен изглед на всеки елемент от колекцията за тези, които имат склонността да продължат да търсят.

В дигитализирания ботанически архив на Smithsonian изображенията с висока разделителна способност на екземпляри са сдвоени с преписи на удобните етикети, прикрепени към тях. В дигитализирания ботанически архив на Smithsonian изображенията с висока разделителна способност на екземпляри са сдвоени с преписи на удобните етикети, прикрепени към тях. (Национален природонаучен музей)

„Това прави колекцията ни достъпна за всеки, който има компютър и интернет връзка“, казва председателят на музея по ботаника Лорънс Дор, „което е чудесно за отговор на определени въпроси.“ Дори и така, Дор откри, че не може да се отърси от усещането за неизползван потенциал, Със сигурност огромните количества данни от образци вече бяха достъпни за онлайн общността, но анализирането им в съвкупността остана фантастично. Търсенето на определени екземпляри и малки категории екземпляри беше достатъчно лесно, но Дор се зачуди дали съществува начин да се използват данните, за да се направят изводи за хиляди екземпляри. „Какво можете да направите с тези данни?“, Спомня си той. Човек на име Адам Метало скоро даде убедителен отговор.

Метало, служител в Службата за програми за дигитализация на Smithsonian, беше присъствал на конференция, на която технологичният гигант NVIDIA - любим на PC геймърите навсякъде - показваше графични процесори от ново поколение или графични процесори. Метало търсеше начини да подобри възможностите на 3D за цифрово изобразяване на Smithsonian, но това беше до голяма степен несвързана самородна информация, която привлече вниманието му и остана с него. В допълнение към генерирането на динамични, висококачествени 3D визуализации, казаха му, че графичните процесори на NVIDIA бяха добре пригодени за анализи на големи данни. По-специално, подобрените графични процесори бяха точно това, което беше необходимо за интензивно цифрово разпознаване на образи; много алгоритъм за машинно обучение е оптимизиран за платформата NVIDIA.

Метало веднага се заинтригува. Тази технология на „дълбокото обучение“, вече внедрена в нишови сектори като самостоятелно управление на автомобили и медицинска рентгенология, имаше голям потенциал за света на музеите - което, както Метало подчертава, представлява „най-големият и най-стар набор от данни, до който сега имаме достъп да се."

„Какво означава за големите масиви от данни, които създаваме в Smithsonian чрез дигитализация?“ Метало искаше да знае. Въпросът му отлично отразява този на Лорънс Дор и след като двете се свързаха, искри започнаха да летят. „Колекцията по ботаника беше една от най-големите колекции, с които най-скоро работихме“, спомня си Метало. Само сътрудничество предложи.

Докато много форми на машинно учене изискват изследователите да маркират ключови математически маркери в изображенията, които трябва да бъдат анализирани - старателен процес, който означава да държите ръката на компютъра, - съвременните алгоритми за дълбоко обучение могат сами да научат кои маркери да търсят за работата, спестявайки време и отваряне на вратата за по-мащабни разследвания. Въпреки това, писането на специфична програма за задълбочено обучение на Смитсонов и калибрирането й за дискретни въпроси на ботаническите изследвания беше сложен бизнес - Дор и Метало се нуждаеха от помощта на учени за данни, за да превърнат визията си в реалност.

Учените по данни събират обучителни образци за невронната мрежа по време на онова, което Павел Френсен си спомня Учените за данни съставят обучителни образци за невронната мрежа по време на онова, което Пол Френсен помни като "студен януарски ден". (Национален природонаучен музей)

Един от специалистите, които докараха на борда, беше ученът на Smithsonian изследователски данни Пол Франсен, който веднага разпозна потенциала в създаването на NVIDIA GPU захранвана невронна мрежа, която да се пренесе в колекцията на ботаниката. За Френсен този проект символизира ключова първа стъпка по прекрасен и неизследван път. Скоро той казва: „Ще започнем да търсим морфологични модели в световен мащаб и ще можем да отговорим на тези наистина големи въпроси, които традиционно биха отнели хиляди или милиони човекочаси, преглеждайки литературата и класифициране на нещата. Ще можем да използваме алгоритми, които да ни помогнат да намерим тези модели и да научим повече за света. “

Току-що публикуваните констатации са поразително доказателство за концепцията. Генерирано от екип от девет начело с изследователския ботаник Ерик Шуетпелц и учени по данни Пол Френсен и Ребека Диков, проучването има за цел да отговори на два мащабни въпроса за машинното обучение и хербариума. Първият е колко ефективна обучена невронна мрежа може да бъде сортирането на оцветени с живак образци от непокътнати. Вторият, акцентът на доклада, е колко ефективна може да бъде такава мрежа при разграничаване на членове на две повърхностно подобни семейства на растения - а именно семействата на папратовите съюзници Lycopodiaceae и Selaginellaceae .

Първото изпитване изискваше екипът да премине през хиляди образци предварително, като отбеляза окончателно кои от тях бяха видимо замърсени с живак (остатък от остарели техники за ботаническо съхранение). Те искаха да бъдат сигурни, че знаят със 100 процента сигурност, които са изцапани и които не са - в противен случай оценката на точността на програмата не би била възможна. Екипът отбра череши близо 8000 изображения на чисти проби и още 8000 оцветени проби, с които да обучи и тества компютъра. Докато приключиха да оправят параметрите на невронната мрежа и изтеглиха цялата човешка помощ, алгоритъмът категоризира образци, които никога досега не е виждал, с 90-процентова точност. Ако най-двусмислените екземпляри - например онези, при които оцветяването е било минимално и / или много слабо - са били изхвърлени, тази цифра е нараснала до 94 процента.

Този резултат предполага, че софтуерът за дълбоко обучение може скоро да помогне на ботаниците и други учени да избегнат губене на време за досадни задачи за сортиране. „Проблемът не е, че човек не може да определи дали даден образец е оцветен или не, “ пояснява Метало, но по-скоро, че „е трудно да се подреди ръчно и да се установи къде съществува замърсяването“, а не е разумно да се направете това от гледна точка на управлението на времето. За щастие машинното обучение може да превърне основен потъващ във времето най-много няколко дни в бърз автоматизиран анализ.

Пренасянето на екземпляри един по един изисква много енергия и затруднява да се правят мащабни заключения. Сега, анализирането на големи данни предоставя на музеите нови начини да се доближат до своите колекции. Пренасянето на екземпляри един по един изисква много енергия и затруднява да се правят мащабни заключения. Сега, анализирането на големи данни предоставя на музеите нови начини да се доближат до своите колекции. (Arbold Arboretum)

Частта от дискриминацията на видовете е още по-вълнуваща. Изследователите обучиха и тестваха невронната мрежа с приблизително 9 300 проби от клуба и 9 100 проби на спикемос. Както при експеримента с оцветяване, около 70 процента от тези проби са били използвани за първоначално калибриране, 20 процента са били използвани за усъвършенстване, а крайните 10 процента са били използвани за официална оценка на точността. След като кодът беше оптимизиран, процентът на успех на компютъра при разграничаване между двете семейства беше 96 процента - и почти перфектните 99 процента, ако бяха пропуснати най-трудните проби.

Един ден, Франдсън, спекулира, програми като тази биха могли да се справят с предварителна категоризация на образци в музеи по целия свят. „По никакъв начин не мисля, че тези алгоритми ще направят нещо, за да заменят кураторите“, бърза да отбележи той, „но вместо това, мисля, че могат да помогнат на кураторите и хората, участващи в систематиката, да бъдат по-продуктивни, така че те могат да свършат работата си много по-бързо."

Успехът на невронната мрежа в това изследване също проправя пътя за бързо тестване на научните хипотези в масивни колекции. Дор вижда в откритията на екипа възможността за провеждане на широко морфологично сравнение на дигитализирани проби - сравнения, които биха могли да доведат до значителни научни пробиви.

Това не означава, че задълбоченото обучение ще бъде сребърен куршум в научните изследвания. Марк Алдж-Хюит от Станфорд посочва, че „почти невъзможно е да се реконструира защо и как невронната мрежа взема своите решения“, след като бъде обусловена; Определенията, оставени на компютърните програми, винаги трябва да бъдат неусложнени и проверими по своя характер, ако трябва да им се вярва.

„Очевидно - казва Дор, автономна компютърна програма, „ няма да тества генетични връзки, такива неща “- поне по всяко време в близко бъдеще. „Но можем да започнем да научаваме за разпределението на характеристиките по географски регион или по таксономична единица. И това ще бъде наистина мощно. "

Повече от всичко това изследване е прескачаща точка. Вече е ясно, че технологията за задълбочено обучение носи голямо обещание за учени и други учени по целия свят, както и за любопитната публика, за която те произвеждат знания. Това, което остава, е строга последваща работа.

„Това е малка стъпка“, казва Франсен, „но това е стъпка, която наистина ни казва, че тези техники могат да работят върху дигитализирани музейни образци. Ние сме развълнувани от създаването на още няколко проекта през следващите няколко месеца, за да се опитаме да тестваме границите му малко повече. “

Как изкуственият интелект може да революционизира изследванията на архивния музей