banner
Дом / Блог / Новый мозговой имплантат помогает парализованной женщине говорить с помощью цифрового аватара
Блог

Новый мозговой имплантат помогает парализованной женщине говорить с помощью цифрового аватара

Jun 12, 2023Jun 12, 2023

Появляющиеся речевые нейропротезы могут предложить способ общения людям, которые не могут говорить из-за паралича или болезни, но быстрое и высокопроизводительное декодирование еще не продемонстрировано. Новая революционная работа исследователей из Калифорнийского университета в Сан-Франциско и Калифорнийского университета в Беркли показывает, что более естественное декодирование речи возможно с использованием последних достижений в области искусственного интеллекта.

Исследователи под руководством нейрохирурга UCSF Эдварда Чанга разработали имплантируемое устройство на базе искусственного интеллекта, которое впервые преобразует сигналы мозга в модулированную речь и мимику. В результате женщина, потерявшая способность говорить из-за инсульта, смогла говорить и передавать эмоции с помощью говорящего цифрового аватара. Исследователи описывают свою работу в исследовании, опубликованном сегодня (среда, 23 августа) в журнале Nature.

Соавтор исследования Гопала Ануманчипалли, доцент и доктор философии. Студент и соавтор Кайло Литтлджон, оба из факультета электротехники и компьютерных наук Калифорнийского университета в Беркли, обсудили это революционное исследование с Berkeley Engineering. Следующие вопросы и ответы были отредактированы для обеспечения длины и ясности.

Этотизучать является новаторским во многих отношениях. Какова была ваша роль и что вы намеревались сделать?

Гопала Ануманчипалли, доцент кафедры электротехники и информатики. (Фото любезно предоставлено Гопалой Ануманчипалли)

Гопала: За этим проектом стоит десятилетняя история. Когда я работал постдоком в лаборатории Эдварда Чанга, перед нами стояла задача не только понять функции мозга, лежащие в основе беглой речи, но и воплотить некоторые из этих открытий нейробиологии в инженерные решения для тех, кто полностью парализован и лишен возможности общения. Мы исследовали способы синтеза речи на основе записей активности мозга во время работы с пациентами с эпилепсией. Но в остальном это способные ораторы. Эта работа, подтверждающая принцип, была опубликована в журнале Nature в 2019 году. Таким образом, у нас появилось какое-то подозрение, что мы можем считывать данные мозга. Затем мы подумали, что нам следует попробовать использовать это, чтобы помочь парализованным людям, что было в центре внимания клинического исследования BRAVO [BCI Восстановление руки и голоса].

Это испытание, в котором использовалось новое устройство, называемое речевым нейропротезом, оказалось успешным и показало, что мы можем декодировать полные слова по активности мозга. За ним последовало еще одно исследование, в ходе которого нам удалось расшифровать более 1000 слов, чтобы создать орфографический интерфейс. Участник мог произнести любые кодовые слова НАТО, например «Альфа», «Браво», «Чарли», и попросить их расшифровать. Мы улучшили модели машинного обучения, используемые для декодирования речи, в частности, используя декодеры с явными фонетическими и языковыми моделями, которые превращали эти кодовые слова в плавные предложения, например, как Siri распознает ваш голос.

В этом проекте мы намеревались увеличить словарный запас и точность, но, что наиболее важно, мы стремились выйти за рамки декодирования орфографии. Мы хотели сразу перейти к устной речи, потому что это наш способ общения и самый естественный способ обучения.

Целью создания аватара было помочь участнику почувствовать себя воплощенным, увидеть подобие и затем контролировать это подобие. Итак, для этой цели мы хотели предоставить мультимодальный опыт общения.

Как вы переводили сигналы мозга в речь и выражения? С какими инженерными трудностями вы столкнулись на этом пути?

Кайло Литтлджон, доктор философии EECS. студент и соавтор новаторского исследования речевых нейропротезов, проведенного UCSF и Berkeley Engineering. (Изображение из видео Пита Белла, UCSF)

Кайло: Поскольку люди с параличом не могут говорить, у нас нет основной истины, на которую можно было бы сопоставить то, что они пытаются сказать. Поэтому мы внедрили метод оптимизации машинного обучения под названием «потеря CTC», который позволил нам сопоставить сигналы мозга с дискретными единицами без необходимости «наземного» звука. Затем мы синтезировали предсказанные дискретные единицы в речь. Дискретные единицы речи кодируют такие аспекты, как высота и тон, которые затем синтезируются для создания звука, более близкого к естественной речи. Именно эти интонации и изменения ритма передают в речи много смысла, помимо самих слов.