Scientific American: сканер мозга в сочетании с языковой моделью искусственного интеллекта позволит заглянуть в ваши мысли

Новая технология позволяет уловить суть внутреннего монолога человека

Автор: Элисон Паршалл

Функциональная магнитно-резонансная томография (фМРТ) позволяет получать грубые, красочные снимки мозга в действии. Хотя этот специализированный вид магнитно-резонансной томографии изменил когнитивную нейронауку, он не является машиной для чтения мыслей: нейробиологи не могут, взглянув на скан мозга, сказать, что человек видел, слышал или думал, находясь под воздействием сканера.

Но постепенно ученые преодолевают этот фундаментальный барьер, чтобы перевести внутренние переживания в слова с помощью визуализации мозга. Эта технология может помочь людям, которые не могут говорить или как-то иначе общаться, например, тем, кто перенес инсульт или страдает боковым амиотрофическим склерозом. Существующие интерфейсы «мозг-компьютер» требуют имплантации устройств в мозг, но неврологи надеются использовать неинвазивные методы, такие как фМРТ, для расшифровки внутренней речи без хирургического вмешательства.

Теперь исследователи сделали шаг вперед, объединив возможности фМРТ по мониторингу нейронной активности с предсказательными возможностями языковых моделей искусственного интеллекта. Гибридная технология позволила создать декодер, способный с удивительной точностью воспроизводить истории, которые человек слушал или представлял себе, находясь в сканере. Декодер может даже угадать сюжет короткометражного фильма, который человек смотрел ранее, хотя и с меньшей точностью.

«В данных мозга содержится гораздо больше информации, чем мы думали вначале» — рассказал на пресс-брифинге Джерри Танг, специалист по вычислительной нейробиологии из Техасского университета в Остине и ведущий автор исследования. Исследование, опубликованное в понедельник в журнале Nature Communications, Танг назвал «доказательством концепции, что язык может быть декодирован на основе неинвазивных записей активности мозга».

Технология декодирования находится в зачаточном состоянии. Она должна быть тщательно обучена для каждого человека, который ее использует, и не позволяет создать точную расшифровку слов, которые он слышал или представлял. Но все же это заметное достижение. Теперь исследователи знают, что языковая система искусственного интеллекта, ранний родственник модели, лежащей в основе ChatGPT, может помочь сделать обоснованные предположения о словах, вызвавших активность мозга, просто взглянув на фМРТ-сканы мозга. Несмотря на то, что существующие технологические ограничения не позволяют широко использовать декодер — хорошо это или плохо, — авторы подчеркивают необходимость принятия проактивной политики, защищающей конфиденциальность внутренних психических процессов человека. То, что мы получаем, все еще является своего рода «сутью», или, скорее, пересказом, того, что было в оригинале, — говорит Александр Хут, специалист по вычислительной нейробиологии из Техасского университета в Остине и старший автор исследования.

Вот пример того, что увидел один из участников исследования в расшифровке, приведенной в статье: «Я встал с надувного матраса и прижался лицом к стеклу окна спальни, ожидая увидеть глаза, смотрящие на меня, но вместо этого обнаружил только темноту». Проанализировав результаты сканирования мозга человека, модель расшифровывает: «Я просто продолжал подходить к окну и открывать стекло, вставал на носочки и выглядывал наружу, но ничего не видел, снова смотрел вверх и снова ничего не видел».

«В целом, нам еще предстоит пройти долгий путь, но полученные результаты превосходят все, что мы имели до этого в области фМРТ-декодирования языка» — говорит Анна Иванова, нейробиолог из Массачусетского технологического института, не принимавшая участия в исследовании.

Модель многого не понимает в декодируемых ею историях. Она не справляется с грамматическими характеристиками, такими как местоимения. Она не может расшифровать собственные существительные, такие как имена и названия мест, а иногда просто ошибается. Однако по сравнению с предыдущими методами он достигает высокого уровня точности. В 72–82  процентах случаев дешифратор расшифровывал смысл текстов более точно, чем это можно было бы ожидать при случайном стечении обстоятельств.

«Результаты выглядят просто замечательно» — говорит Мартин Шримпф, специалист по вычислительной нейробиологии из Массачусетского технологического института, не принимавший участия в исследовании. Предыдущие попытки использовать модели искусственного интеллекта для декодирования активности мозга имели определенный успех, но, в конечном итоге, упирались в стену. В данном случае команда Танга использовала «гораздо более точную модель языковой системы» — говорит Шримпф. Это модель GPT-1, которая появилась в 2018 году и была первоначальной версией GPT-4, модели, которая сейчас лежит в основе ChatGPT.

Неврологи уже несколько десятилетий работают над расшифровкой фМРТ-сканов мозга, чтобы наладить контакт с людьми, не способными к внешнему общению. В одном из ключевых исследований 2010 года ученые использовали фМРТ для того, чтобы задать вопросы «да или нет» человеку, который не мог управлять своим телом и внешне казался бессознательным.

Но расшифровка целых слов и фраз представляет собой более сложную задачу. Самым серьезным препятствием является сама фМРТ, которая не измеряет непосредственно быстрое срабатывание нейронов в мозге, а отслеживает медленные изменения кровотока, снабжающего нейроны кислородом. Отслеживание этих относительно медленных изменений приводит к тому, что сканы фМРТ оказываются «размытыми» во времени: представьте себе фотографию оживленного городского тротуара с длительной экспозицией, на которой черты лица размыты движением. Пытаться по фМРТ-изображениям определить, что происходило в мозге в тот или иной момент, все равно что пытаться опознать людей на этой фотографии. Эта проблема особенно актуальна для расшифровки языка, который пролетает быстро: на одном фМРТ-изображении фиксируется реакция примерно на 20 слов.

Теперь выясняется, что здесь могут помочь прогностические способности языковых моделей ИИ. В новом исследовании три участника неподвижно лежали в фМРТ-сканере в течение 15 сеансов общей продолжительностью 16 часов. Через наушники они слушали отрывки из подкастов и радиопередач, таких как The Moth Radio Hour и Modern Love от New York Times. При этом сканер отслеживал кровоток в различных областях мозга, связанных с языком. Эти данные были использованы для обучения искусственного интеллекта, который выявил закономерности в активации мозга каждого испытуемого в ответ на определенные слова и понятия.

После выявления этих закономерностей модель получала новую серию изображений мозга и предсказывала, что человек слышал в тот момент, когда они были сделаны. Модель постепенно прорабатывала сюжет, сравнивая новые снимки с предсказанными ИИ моделями для множества слов-кандидатов. Чтобы не проверять каждое слово в английском языке, исследователи использовали GPT-1 для предсказания того, какие слова с наибольшей вероятностью будут встречаться в том или ином контексте. Таким образом, создавался небольшой пул возможных последовательностей слов, из которого выбирался наиболее вероятный кандидат. Затем GPT-1 переходил к следующей последовательности слов, пока не расшифровывал весь рассказ.

Исследователи использовали те же методы для декодирования историй, которые участники только представляли себе. Испытуемым предлагалось представить себя рассказывающим подробный одноминутный рассказ. Хотя точность дешифровки снизилась, она все равно работала лучше, чем ожидалось, по сравнению со случайными ошибками. Это указывает на то, что при воображении и восприятии задействованы сходные участки мозга. Способность переводить воображаемую речь в слова очень важна для разработки интерфейсов мозг-компьютер для людей, не способных к языковому общению.

Более того, полученные результаты выходят за рамки языка. Самый удивительный результат был получен, когда люди смотрели в сканере короткометражные анимационные фильмы без звука. Несмотря на то, что дешифратор был обучен исключительно разговорной речи, он все равно смог расшифровать истории, полученные в результате сканирования мозга участников, смотревших немое кино. «Меня больше удивило видео, чем воображаемая речь» — говорит Хут, — потому что фильмы были без звука. «Я думаю, что мы расшифровываем нечто более глубокое, чем язык» — сказал он на пресс-брифинге.

Тем не менее, до использования этой технологии в качестве интерфейса «мозг-компьютер» в повседневной жизни еще много лет. Во-первых, технология сканирования не является портативной — аппараты МРТ занимают целые комнаты в больницах и исследовательских институтах и стоят миллионы долларов. Однако команда Хута работает над адаптацией полученных результатов к существующим системам визуализации мозга, которые можно носить как шапочку, таким как функциональная спектроскопия в ближней инфракрасной области (fNIRS) и электроэнцефалография (ЭЭГ).

Технология, использованная в новом исследовании, также требует тщательной настройки, причем для каждого человека требуется несколько часов получения данных фМРТ. «Это не похоже на наушники, которые можно просто вставить в уши, и они будут работать на тебя, — говорит Шримпф. С каждым пользователем модели ИИ необходимо обучать, чтобы они «адаптировались и подстраивались под ваш мозг», — добавляет он. Шримпф полагает, что в будущем, по мере того как исследователи будут выявлять общие черты мозга людей, технология будет требовать все меньшей настройки. Хут, напротив, считает, что более точные модели будут более детальными, что потребует еще более точной настройки.

Команда также протестировала технологию, чтобы выяснить, что может произойти, если кто-то захочет воспротивиться сканированию или саботировать его. Участник исследования мог подделать его, просто рассказав в голове другую историю. Когда исследователи попросили участников сделать это, результаты оказались тарабарщиной, говорит Хут. «[Дешифратор] просто полностью развалился».

Авторы подчеркивают, что даже на этом раннем этапе важно продумать политику защиты конфиденциальности наших внутренних слов и мыслей. «Пока это не может сработать для того, чтобы делать действительно гнусные вещи» — говорит Танг, — «но мы не хотим допустить, чтобы это произошло раньше, чем мы сможем разработать политику, которая предотвратит это».

Оригинал: Scientific American

Похожие Записи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Последние <span>истории</span>

Поиск описаний функциональности, введя ключевое слово и нажмите enter, чтобы начать поиск.