С напредъка в електрониката и невронауката изследователите успяха да постигнат забележителни неща с устройства за мозъчни импланти, като например възстановяване на привидността на слепите. В допълнение към възстановяването на физическите сетива учените търсят иновативни начини за улесняване на комуникацията за тези, които са загубили способността да говорят. Нов „декодер“, получаващ данни от електроди, имплантирани вътре в черепа, може да помогне на парализирани пациенти да говорят, използвайки само ума си.
Изследователи от Калифорнийския университет в Сан Франциско (UCSF) разработиха двуетапен метод за превръщане на мозъчните сигнали в компютърно синтезирана реч. Техните резултати, публикувани тази седмица в научно списание Nature, предоставят възможен път към по-течна комуникация за хора, загубили способността да говорят.
От години учените се опитват да използват невронните данни, за да дадат глас на хора, чието неврологично увреждане им пречи да говорят - като преживели инсулт или пациенти с ALS. Досега много от тези интерфейси мозък-компютър са имали подход „по буква”, при който пациентите движат очите или лицевите си мускули, за да изричат мислите си. (Стивън Хокинг отлично насочва своя синтезатор на речта чрез малки движения в бузата си.)
Но тези видове интерфейси са бавни - повечето максимуми произвеждат 10 думи в минута, част от средната скорост на говорене от хора от 150 думи в минута. За по-бърза и по-течна комуникация изследователите от UCSF използваха алгоритми за дълбоко обучение, за да превърнат невронните сигнали в изговорени изречения.
„Мозъкът е непокътнат при тези пациенти, но невроните - пътищата, които водят до ръцете ви, до устата или краката ви - са разбити. Тези хора имат високо когнитивно функциониране и способности, но не могат да изпълняват ежедневни задачи, като да се движат или да казват нещо “, казва Гопала Ануманчипали, съосновател на новото проучване и асоцииран изследовател, специализиран в неврологичната хирургия в UCSF. „По същество заобикаляме разградения път.“
Изследователите започнаха с данни за мозъчна активност с висока разделителна способност, събрани от петима доброволци за няколко години. Тези участници - всички които имаха нормална речева функция - вече преминаха процес на наблюдение за лечение на епилепсия, който включваше имплантиране на електроди директно в мозъка им. Екипът на Чанг използва тези електроди за проследяване на активността в свързани с речта области на мозъка, докато пациентите четат стотици изречения.
Оттам екипът на UCSF разработи двуетапен процес за пресъздаване на изречените изречения. Първо, те създадоха декодер, за да интерпретират записаните модели на мозъчна активност като инструкции за движение на части от виртуален гласов тракт (включително устните, езика, челюстта и ларинкса). След това те разработиха синтезатор, който използваше виртуалните движения за създаване на език.
Други изследвания се опитват да декодират думи и звуци директно от невронни сигнали, прескачайки средната стъпка на движението за декодиране. Изследване, което изследователите от UCSF публикуват миналата година, предполага, че речевият център на вашия мозък се фокусира върху това как да преместите гласовия тракт за издаване на звуци, а не върху това, какви ще бъдат получените звуци.
„Моделите на мозъчната дейност в речевите центрове са специално насочени към координиране на движенията на гласовия тракт и само косвено са свързани с самите звуци на речта“, Едуард Чанг, професор по неврологична хирургия в UCSF и съавтор на новата книга, каза на брифинг в пресата тази седмица. „Ние изрично се опитваме да декодираме движенията, за да създаваме звуци, за разлика от прякото декодиране на звуците.“
Примерен масив от мозъчни импланти на вътречерепни електроди от типа, използван за запис на мозъчна активност. (UCSF)Използвайки този метод, изследователите успешно обърнаха думи и изречения от мозъчната дейност, които грубо съвпадат с аудиозаписите на речта на участниците. Когато попитаха доброволци на онлайн краудсорсинг платформа да се опитат да идентифицират думите и да препишат изречения с помощта на банка от думи, много от тях можеха да разберат симулираната реч, въпреки че точността им далеч не беше перфектна. От 101 синтезирани изречения около 80 процента са били преписани перфектно от поне един слушател, използвайки банка с 25 думи (тази скорост е спаднала до около 60 процента, когато размерът на думата банка се е удвоил).
Трудно е да се каже как тези резултати се сравняват с други синтезирани речеви изпитания, казва в имейл Марк Слуцки, невролог от Северозападния регион, който не е участвал в новото проучване. Наскоро Slutzky работи по подобно проучване, което произвежда синтезирани думи директно от сигнали на кората на главния мозък, без декодиране на движението на гласовия тракт, и той смята, че полученото качество на речта е подобно - въпреки че разликите в показателите за ефективност правят трудно сравняването директно.
Един вълнуващ аспект на UCSF изследването обаче е, че декодерът може да обобщи някои резултати при участниците, казва Слуцки. Основно предизвикателство за този тип изследвания е, че тренирането на алгоритмите за декодиране обикновено изисква участниците да говорят, но технологията е предназначена за пациенти, които вече не могат да говорят. Възможността да се обобщи някои от обучението на алгоритъма може да позволи по-нататъшна работа с парализирани пациенти.
За да се справят с това предизвикателство, изследователите също изпробваха устройството с участник, който мълчаливо мимира изреченията, вместо да ги произнася на глас. Въпреки че получените изречения не са били толкова точни, авторите твърдят, че фактът, че синтезът е бил възможен дори и без вокализирана реч, има вълнуващо значение.
„Наистина беше забележително да открием, че все още можем да генерираме аудио сигнал от акт, който изобщо не генерира аудио“, казва Джош Чартие, съавтор на проучването и аспирантурата по биоинженеринг в UCSF, заяви на брифинг в пресата.,
Изображение на автора на проучването Gopala Anumanchipalli, доктор, притежаващ пример масив от вътречерепни електроди от типа, използван за запис на мозъчната активност в настоящото проучване. (UCSF)Друга цел за бъдещи изследвания е да се проведат демонстрации на декодера в реално време, казва Ануманчипали. Настоящото проучване беше замислено като доказателство за концепцията - декодерът е разработен отделно от процеса на събиране на данни и екипът не е тествал скоростта на превеждане на мозъчната активност в реално време в синтезирана реч, въпреки че това би била евентуалната цел на клинично изделие.
Този синтез в реално време е нещо, което се нуждае от подобрение, за да може такова устройство да бъде полезно в бъдеще, казва Джейми Хендерсън, неврохирург от Станфорд, който не е участвал в изследването. Все пак той казва, че двуетапният метод на авторите е вълнуващ нов подход и използването на технология за дълбоко учене може да даде нова представа за това как речта наистина работи.
„За мен е много вълнуваща идеята да започна да изследвам основата на начина, по който се създава реч у хората“, казва Хендерсън. „[Това изследване] започва да изследва една от най-човешките ни способности на фундаментално ниво.“