https://frosthead.com

Голямата част от суровите данни от старите научни изследвания може да липсват

Една от основите на научния метод е възпроизводимостта на резултатите. В лаборатория навсякъде по света изследовател трябва да може да изучава същия предмет като друг учен и да възпроизвежда същите данни или да анализира същите данни и да забележи същите модели.

Ето защо откритията на проучване, публикувано днес в Current Biology, са толкова загрижени. Когато група изследователи се опитаха да изпратят имейлите на авторите на 516 биологични проучвания, публикувани между 1991 г. и 2011 г., и да поискат необработените данни, те бяха разочаровани да открият, че повече от 90 процента от най-старите данни (от документи, писани преди повече от 20 години) недостъпни. Общо, дори и документи, публикувани наскоро през 2011 г., те успяха да проследят данните само за 23 процента.

"Всички знаят, че ако попитате изследовател за данни от стари проучвания, те ще подгънат и ще се пресекат, защото те не знаят къде е", казва Тимоти Вайнс, зоолог от Университета на Британска Колумбия, който ръководи усилието. "Но наистина никога не е имало систематични оценки за това колко бързо данните, държани от авторите, всъщност изчезват."

За да направи своята оценка, групата му избра тип данни, които са сравнително последователни във времето - анатомични измервания на растения и животни - и изкопа между 25 и 40 документа за всяка нечетна година през периода, използвал този вид данни, за да види ако можеха да преследват суровите номера.

Изненадващо количество от техните запитвания бяха спрени още на първата стъпка: за 25 процента от проучванията не можеха да се намерят активни имейл адреси, като несъществуващите адреси са посочени на самата хартия, а търсенията в мрежата не показват никакви текущи. За други 38 процента от проучванията, техните запитвания не доведоха до отговор. Други 7 процента от наборите от данни са изгубени или недостъпни.

"Част от времето, например, тя беше запазена на дискети с три и половина инча, така че никой не можеше да получи достъп до нея, тъй като вече нямаше подходящите устройства", казва Vines. Тъй като основната идея за съхраняване на данни е така, че да могат да бъдат използвани от други в бъдещи изследвания, този вид остаряване по същество прави данните безполезни.

Това може да изглежда като светски препятствия, но учените са също като нас - те сменят имейл адресите, получават нови компютри с различни дискове, губят резервни копия на файлове - така че тези тенденции отразяват сериозни, системни проблеми в науката.

И запазването на данните е толкова важно, струва си да се помни, защото е невъзможно да се предвиди в какви посоки ще се движат изследванията в бъдеще. Лозата например провежда собствено проучване на двойка рожби от рода на Източна Европа, които изглежда са в процес на хибридизиране. През 80-те години, казва той, отделен екип изследователи работи по същата тема и се натъкна на стара книга, която документира разпространението на тези жаби през 30-те години. Знаейки, че разпространението им се е променило сравнително малко през изминалите десетилетия, позволи на учените да правят всякакви изчисления, които не биха били възможни в противен случай. "Онези налични оригинални данни от много малко старо проучване, написано на полски език, бяха невероятно полезни за изследователите, дошли 70 години по-късно", казва той.

Има и фактът, че толкова голяма част от това изследване се заплаща с публично финансиране, голяма част от него става чрез безвъзмездни средства, които предвиждат получените данни да бъдат свободно достъпни за обществеността. Освен това, полевите данни се влияят от обстоятелствата на средата, в която се събират - следователно е невъзможно да се повтори перфектно по-късно, когато условията са се променили.

Какво е решението? Някои списания - включително Molecular Ecology, на който Vines е управляващ редактор - приеха правила, които изискват авторите да предоставят необработени данни заедно с документите си, което позволява на самото списание да архивира данните завинаги. Въпреки че списанията, подобно на хората, са податливи на промяна на имейл адреси и технологично остаряване, тези проблеми могат да бъдат много по-лесно управлявани в институционален мащаб.

Голямата част от суровите данни от старите научни изследвания може да липсват