През 1984 г. Националната фондация за биомедицински изследвания стартира безплатна онлайн база данни, съдържаща над 283 000 протеинови последователности. Днес Информационният ресурс за протеини позволява на учените от цял свят да приемат неизвестен протеин, да го сравнят с хилядите известни протеини в базата данни и да определят начините, по които той е сходен и различен. От тези данни те могат бързо и точно да изведат еволюционната история на протеина и връзката му с различни форми на живот.
Скромният произход на тази масивна онлайн база данни започва много преди интернет. Всичко започна с атласа на протеиновата последователност и структура, отпечатана през 1965 г. книга, съдържаща 65-те известни тогава протеинови последователности, съставени от жена на име Маргарет Дейхоф. За да създаде своя Atlas, Dayhoff приложи най-модерните компютърни технологии, за да намери решения на биологични въпроси, помагайки ни за създаването на ново поле, което днес наричаме биоинформатика. Първоначално химик Дейхоф използва нови и развиващи се технологии от изчислителната епоха след Втората световна война в пионерски инструменти, които химиците, биолозите и астрономите биха могли да използват при многодисциплинарното проучване на произхода на живота на Земята.
Дейхоф (тогава Маргарет Оукли) е родена във Филаделфия на 11 март 1925 г. на Рут Кларк, учител по математика в гимназията, и Кенет Оукли, собственик на малък бизнес. На десетгодишна възраст семейството й се премества в Ню Йорк. Там тя посещава държавни училища, в крайна сметка става валедиктория на Bayside High през 1942 г. Посещава Вашингтон Скуеридж колеж на Нюйоркския университет по стипендия, завършва висше образование по математика само три години по-късно през 1945 година.
Същата година Дейхоф влиза в Колумбийския университет, за да получи докторска степен по квантова химия под наставничеството на изтъкнат химик и изследовател на операциите от Втората световна война Джордж Кимбол. Приемането й беше рядкост за времето. След Втората световна война повече мъже влязоха в науките и химията стана още по-доминирана от мъжете, отколкото през предходното десетилетие, като само пет процента от докторите по химия отиват при жени, което е намаление от осем процента.
По времето на Дейхоф в университета, Колумбия е била легла за изчислителни технологии. Той се похвали с някои от първите компютърни лаборатории в САЩ и през 1945 г. стана дом на научната лаборатория на IBM Watson, ръководена от астронома WJ Eckert. Лабораторията на Уотсън първо е служила като изчислителен център за съюзниците в последните месеци на Втората световна война. След войната тя става сайт за разработване на някои от първите супер компютри, включително Електронния калкулатор за селективна последователност (SSEC), който по-късно Екерт използва за изчисляване на лунните орбити за мисиите на Аполон.
С тази технология под ръка, Дейхоф комбинира интереса си към химията и компютрите чрез перфорирани машини - по същество ранни цифрови компютри. Машините позволиха на Дейхоф да автоматизира нейните изчисления, съхранявайки алгоритъм върху един набор от карти и данни в друг. Използвайки машината, тя успя да обработва изчисления далеч по-бързо и точно, отколкото на ръка.
Особеният предмет на Дейхоф бяха полицикличните органични съединения, които представляват молекули, които се състоят от три или повече атома, свързани в тесен пръстен. Тя използва машините с перфорирани карти, за да извърши голям брой изчисления на резонансните енергии на молекулите (разликата между потенциалната енергия на молекулата в определено състояние и средно състояние), за да определи вероятността от молекулно свързване и разстояния на връзки.
Дейхоф завършва с докторска степен по квантова химия само за три години. Изследванията, които тя предприема като аспирант, са публикувани с Кимбол като съавтор, през 1949 г. в сп. „Химическа физика“ под простото заглавие „Перфорирана карта“ Изчисляване на резонансните енергии.
Също през 1948 г. Дейхоф се жени за Едуард Дейхоф, студент по експериментална физика, когото е срещнала в Колумбия. През 1952 г. двойката се премества във Вашингтон, където Едуард заема пост в Националното бюро за стандарти, а Дейхоф ражда първата си от две дъщери, Рут. Дейхоф скоро се отказа от научните изследвания, за да се превърне в дома на майка на Рут и по-малката й дъщеря Джудит, освен за двегодишна докторантура в университета в Мериленд.
Когато се връща към изследванията и започва да кандидатства за безвъзмездни средства за финансиране на работата си през 1962 г., тя е посрещната с шок. Националният институт по здравеопазване отхвърли заявление за отпускане на безвъзмездна помощ, в което се изброява Дейхоф като главен изследовател, с обяснението, че „[Дейхоф] от известно време е извън интимен досег… с тази сложна и бързо развиваща се област“, както пише историкът Бруно Щрасер в предстоящата му книга Събиране на експерименти: Осъществяване на голяма биология на данните . Този вид изкачване нагоре за жени, които са отделили време за отглеждане на деца, е само един от начините, по които научните институции възпрепятстват и продължават да пречат на развитието на жените.
Въпреки липсата на подкрепа на NIH, Дейхоф бе на път да навлезе в най-последващото десетилетие от кариерата си. През 1960 г. тя прие съдбовна покана от Робърт Ледли, пионер биофизик, когото срещна чрез съпруга си, да се присъедини към него в Националната фондация за биомедицински изследвания в Сребърна пролет, Мериленд. Ледли знаеше, че компютърните умения на Дейхоф ще бъдат от решаващо значение за целта на фондацията да съчетава областите на изчислителната техника, биологията и медицината. Тя щеше да бъде негов сътрудник директор 21 години.
Веднъж в Мериленд, Дейхоф имаше безплатно въоръжение, за да използва изцяло новата IBM 7090 мейнфрейм на университета Джорджтаун. Системата IBM е проектирана за работа със сложни приложения с изчислителни скорости шест пъти по-бързи от предишните модели. Тази скорост беше постигната чрез замяна на по-бавна и обемна вакуумна технология с по-бързи, по-ефективни транзистори (компонентите, които произвеждат компютрите 1 и 0). Използвайки мейнфрейм, Дейхоф и Ледли започват да търсят и сравняват пептидни последователности с програми FORTRAN, които са написали сами в опит да сглобят частични последователности в пълен протеин.
Конзолата на оператора IBM 7090 в изследователския център на НАСА Еймс през 1961 г., с две банки от дискове с магнитна лента IBM 729. (НАСА)Ангажиментът на Дейхоф и Ледли да прилага компютърен анализ в биологията и химията беше необичаен. „Културата на статистическия анализ, да не говорим за цифровите изчисления, беше напълно чужда за повечето [биохимици]“, обяснява Щрасер в интервю за Smithsonian.com . „Някои дори се гордеят с това, че не са„ теоретици “, така че те разбират анализа на данните, използвайки математически модели.“
Една научна дисциплина, в която компютърната хитрост на Дейхоф е по-ценена обаче, е астрономията. Този интерес към компютрите се дължи отчасти на WJ Eckhart, който през 1940 г. е използвал машини с перфорирани карти IBM, за да прогнозира планетни орбити. И през 60-те години американският интерес към космическите изследвания беше в разгара си, което означаваше финансиране за НАСА. В университета в Мериленд Дейхоф се запознава със спектроскописта Елис Липинкот, който я въвежда в шестгодишно сътрудничество с Карл Сагън в Харвард през 1961 г. Тримата разработват термодинамични модели на химическия състав на материята и Дейхоф създава компютърна програма, която може да изчисли равновесни концентрации на газове в планетарни атмосфери.
С програмата на Дейхоф тя, Липинкот и Саган успяха да изберат елемент за анализ, което им позволява да изследват много различни атмосферни състави. В крайна сметка те разработиха атмосферни модели за Венера, Юпитер, Марс и дори изначална атмосфера на Земята.
Докато изследваше небето, Дейхоф също се зае с въпрос, който изследователите проучват поне от 50-те години на миналия век: каква е функцията на протеините? Секвенирането на протеини беше средство за получаване на отговора, но секвенирането на отделни протеини беше силно неефективно. Дейхоф и Ледли взеха различен подход. Вместо да анализират протеините изолирано, те сравняват протеини, получени от различни растителни и животински видове. „Сравнявайки последователностите на един и същи протеин при различни видове, може да се наблюдава кои части от секвенцията винаги са еднакви при всички видове, което е добро указание, че тази част от секвенцията е от решаващо значение за доброто на протеина“, казва Страсър.
Дейхоф пробва по-дълбоко, гледайки споделената история на протеините. Тя анализира не само частите, които са еднакви за различните видове, но и техните вариации. „Те приеха тези различия като мярка за еволюционните разстояния между видовете, което им позволи да реконструират филогенетични дървета“, обяснява Щрасер.
Дейхоф, винаги готов да използва силата на новите технологии, разработи компютризирани методи за определяне на протеинови последователности. Тя проведе компютърен анализ на протеини в голямо разнообразие от видове, от гъбата кандида до кита. Тогава тя използвала различията им, за да определи отношенията на техните предци. През 1966 г. с помощта на Ричард Ек Дейхоф създава първата реконструкция на филогенетично дърво.
В научна американска статия от 1969 г. „Компютърен анализ на еволюцията на протеини“ Дейхоф представи на обществеността едно от тези дървета заедно с изследванията си, използвайки компютри за секвениране на протеини. „Всяка установена протеинова последователност, всеки еволюционен механизъм, който е осветен, всяко основно нововъведение във филогенетичната история, което ще бъде разкрито, ще подобри нашето разбиране за историята на живота“, пише тя. Тя се опитваше да покаже на общността на науките за живота потенциала на компютърните модели.
Следващата й цел беше да събере всички известни протеини на едно място, където изследователите могат да намерят последователности и да ги сравнят с други. За разлика от днес, когато е лесно да се извикат източници в електронна база данни само с ключова дума, Дейхоф трябваше да търсят физически журнали, за да намери протеините, които търси. В много случаи това означаваше да се провери работата на колегата изследовател за грешки. Дори и с помощта на компютър, работата по събиране и каталогизиране на последователностите изискваше много време и проницателно научно око.
Не всички виждаха стойност в това, което прави. За други изследователи работата на Дейхоф по-скоро прилича на колекционерската и каталожна работа от естествената история на 19 век, а не на експерименталната работа на учения от 20 век. „Събирането, сравняването и класифицирането на неща от природата изглеждаше старомодно за много експериментални биолози през втората половина на 20 век“, казва Стасер. Той говори за Дейхоф като за „аутсайдер“. „Тя допринесе за сфера, която не съществува и по този начин няма професионално признание“, казва той.
През 1965 г. Дейхоф за първи път публикува колекцията си от 65-те известни протеина в Атласа на протеиновата последователност и структура, печатна версия на нейната база данни. В крайна сметка данните се преместиха на магнитна лента и сега тя живее онлайн, където изследователите продължават да използват нейните данни, за да намерят още хиляди протеини. В битката се присъединиха и други биомедицински бази данни, включително Protein Data Bank, съвместна колекция от протеинови и нуклеинови киселини, лансирана през 1971 г., и GenBank, базата данни за генетични последователности, стартирана през 1982 г. Дейхоф започна научна революция.
"Днес всяка отделна публикация в експерименталната биология съдържа комбинация от нови експериментални данни и изводи, направени от сравнения с други данни, предоставени в публична база данни, подход, който Дейхоф започна преди половин век", казва Страссер.
С нарастването на биоинформатиката задачите за събиране и изчисляване до голяма степен падаха на жените. Сътрудници на Дейхоф в Атласа бяха всички жени с изключение на Ледли. Подобно на „компютрите“ на НАСА през 60-те години на миналия век и кодовите нарушители на Втората световна война, тези жени скоро бяха изтласкани до краищата на научната практика. Позовавайки се на „момичетата ENIAC“, програмирали първия цифров компютър с общо предназначение, историкът на изчислителната техника Дженифър Лайт пише, че „в границите на точно такива професионални класификации с нисък статус, жените се занимават с безпрецедентна работа“.
В своята биографична скица на Дейхоф Лоис Т. Хънт, която работи с Атласа заедно с нея, пише, че Дейхоф вярва, че нейното разследване на изначалната атмосфера на Земята може да й даде „съединенията, необходими за формирането на живота.“ Това може би дори повече от изчислителната техника е това, което свързва различните части на научните изследвания на Дейхоф заедно. От мъничкия протеин до огромната атмосфера Дейхоф търсеше тайните на възникването на живота на тази планета. Въпреки че не ги отключи всички, тя даде на съвременната наука инструментите и методите, за да продължи търсенето.