https://frosthead.com

Big Data Просто стават по-големи, тъй като Уотсън на IBM отговаря на Енциклопедията на живота

След 2000 години крайната енциклопедия на живота е в разгара на нова ера, управлявана от данни. Безвъзмездна помощ от Националната научна фондация е предоставена на Енциклопедията на живота (EOL), IBM и Технологичния институт в Джорджия. Безвъзмездната финансова помощ ще позволи да се обработват огромни количества данни и да се пресиндексира по начини, които ще позволят да се направи новаторска наука.

Свързано съдържание

  • Предложената нова морска резерватна система предлага Rosy Outlook както за омара, така и за риболовеца на омари

През 77 г. сл. Н. Е. Плиний Старейшина започва да пише първата в света енциклопедия „ Естествена история“. Тя включваше всичко - от астрономия до ботаника до зоология до антропология и др. Плиний се опита да постави всичко, което той лично можеше да събере за природния свят, в едно писано произведение. През последните 2000 години дълга поредица от учени, вдъхновени от Плиний, преследват същата визия.

Плиний включи 20 000 теми в 36 тома, но се натъкна на ограниченията на това, което един човек може да открие, запише и обработи в рамките на човешкия живот. Той умира по време на изригването на планината Везувий, преди да успее да завърши окончателната редакция на своя магнум опус. Дори в собствената си епоха не беше възможно един човек да прочете всички книги, да научи всички неща и да ги обясни на света.

Тъй като по-късно учени, редактори и библиотекари откриха в свят, който добавя повече писмени знания с всяка изминала година, дори ако бихте могли да съхранявате всички световни книги и изследвания в една сграда, предизвикателство е да предоставите цялата необходима информация на изследователи по време на ограниченията на краткия им човешки живот.

EOL може да бъде в състояние да промени това, като прилага съвременна изчислителна мощ за разграничаване на колекциите от биологични данни. Проектът представлява безплатна и отворена цифрова колекция от факти, статии и мултимедия за биологичното разнообразие, една от най-големите в света. Седалището в института Smithsonian и със своите 357 партньори и доставчици на съдържание, включително университета в Харвард и новата библиотека на Александрия в Египет, EOL е нараснал от 30 000 страници, когато стартира през 2008 г., на повече от 2 милиона, с 1, 3 милиона страници текст, карти, видео, аудио и снимки и поддържа 20 езика.

„Дойдох в Smithsonian през 2010 г. от софтуерната индустрия“, казва директорът на EOL Боб Кориган. „Едно от откритията, които дойдох тук, е, че докато ИТ е навсякъде, той не е проникнал в света на музея по същия начин, по който е проникнал в търговския свят. Най-важните данни за биологията са погребани в учебници и електронни таблици. “

Как биологичните данни под различни форми могат да се комбинират и извличат за нови разбирания за живота на Земята? Ами ако данните за, да речем, биоразнообразието на пеперуди в Африка за десетилетие се съчетаят с данни за селскостопанските практики и валежите? Може ли да се научи нещо ново? За това е необходимо нещо по-голямо от човешкия мозък. Нещо като суперкомпютъра на Уотсън на IBM.

„IBM допринася за усилията и достъпа до версия [на Уотсън], която не е публично достъпна“, казва Дженифър Хамък, програмен директор в EOL. „Те също ще имат хора, работещи върху това. IBM прави това като принос в натура. “

Уотсън е суперкомпютър, който не просто смазва числа в големи обеми. Той използва изкуствен интелект, за да позволи на потребителите да задават въпроси на обикновен език.

„Бих казал от гледна точка на потребителя, това означава, че базата данни е нещо, до което можеш да отидеш и да зададеш въпрос, сякаш от човек“, казва Хамък. „Като, можете ли да ми кажете дали тази лилава пеперуда се среща в Африка?“

„Отговорът на прост въпрос на всеки език предполага наличието на много знания зад кулисите“, казва Кориган. „Дори [думата] лилава, предполага, че знаем какво е лилаво. Или пеперуда, [компютърът] трябва да разбере разликата между пеперуда и молец. На всичкото отгоре самите набори от данни имат различни начини на мислене за тези различни термини. Всички тези данни са били трудни за извличане без Rosetta камък от термини. И това е част от магията на това, което прави EOL. "

Един научен въпрос, който партньорството между EOL, IBM и Georgia Tech се надява да реши, е парадоксът на планктона.

Според Хамък учените, работещи с компютърни симулации, „се опитват да моделират какво се случва в океана, като казват, че слънцето грее и водораслите растат., , има някакво грубо приближение, но те не могат да направят [компютърния модел на екосистемата] да бъде стабилен. Те отиват за известно време и след това катастрофират. Защото са твърде прости. Те се надяват, че ако успеят да покажат малко повече разнообразие в своята моделирана биосфера, те ще станат по-стабилни., , . Парадоксът е: как съществува биосферата на океана? Защо не се срине? ”

„Хората седят на данни“, казва Кориган. „Има невероятни резервоари за измерване на биоразнообразието по цялата планета. Получавам много телефонни обаждания от хора, които седят на тези данни и искат помощ при поставянето им в по-широк контекст. Важно е, защото сме в състезание да изучаваме тази планета и да научим как нашето развитие подчертава нашите много ограничени ресурси., , Смитсонианът може да играе роля за увеличаване на знанията от всички тези източници и да бъде истинска сила за разпространението му. "

Четвърт от безвъзмездната помощ от 1 милион долара ще бъде присъдена на Smithsonian за дела на работата, но EOL включва много други играчи. Някои разработчици са в Египет; образователен екип е базиран извън Харвард; а испанският езиков отдел е в Мексико Сити.

Всички данни на EOL ще продължат да бъдат или публично достояние, или лицензирани съгласно Creative Commons. Изследванията и данните са предназначени да бъдат обществено достъпни и да не се крият зад платена стена.

„Това е много стара мечта“, казва Хамок. „Един човек вероятно не може да научи всичко това. Трудно е да поставите всичко на едно място, където може съзнателно да се провери срещу себе си. Но сега имаме компютри. "

Плиний ще бъде или много доволен, или много ревнив.

Big Data Просто стават по-големи, тъй като Уотсън на IBM отговаря на Енциклопедията на живота