В рамках амбициозного проекта предпринимается попытка интерпретировать звуки кашалотов с помощью искусственного интеллекта, а затем по-настоящему поговорить с ними
Автор: Кристоф Дроссера
«Я мало что знаю о китах. Я никогда в жизни не видел ни одного», — говорит Майкл Бронштейн. Израильский IT-специалист, преподающий в Имперском колледже Лондона, Англия, может показаться не лучшим кандидатом для проекта, связанного с общением кашалотов. Но его навыки эксперта в области машинного обучения могут стать ключом к амбициозному начинанию, которое официально стартовало в марте 2020 года: междисциплинарная группа ученых хочет использовать искусственный интеллект (ИИ) для расшифровки языка этих морских млекопитающих. Если проект CETI (Cetacean Translation Initiative) увенчается успехом, мы впервые сможем понять, о чем говорят животные, и, возможно, даже побеседовать с ними.
Все началось в 2017 году, когда международная группа ученых провела год вместе в Гарвардском университете в Кембридже, штат Массачусетс, в рамках программы Radcliffe Fellowship, которая обещает «возможность отойти от привычной рутины». Однажды Шафи Голдвассер, ученый и эксперт по криптографии, также из Израиля, зашел в офис Дэвида Грубера, морского биолога из Городского университета Нью-Йорка. Голдвассер, которую только что назначили новым директором Института теории вычислений Саймонса при Калифорнийском университете в Беркли, услышала серию щелкающих звуков, которые напомнили ей шум, издаваемый неисправной электронной схемой, или азбуку Морзе. Именно так кашалоты разговаривают друг с другом, сказал ей Грубер. Девушка ответила: «Может быть, нам стоит сделать проект, в котором мы переведем звуки китов в нечто, понятное нам, людям. Она действительно сказала это как бы вскользь и не думала, что он воспримет идею всерьез.
Но стипендия дала возможность серьезно отнестись к далеким от реальности идеям. Они представили идею Бронштейну, который следил за последними достижениями в области обработки естественного языка (NLP), отрасли ИИ, которая занимается автоматизированным анализом письменной и устной речи — пока только человеческого языка. Бронштейн был убежден, что коды, как называют краткие звуки кашалотов, имеют структуру, которая позволяет проводить подобный анализ. К счастью, Грубер знал биолога по имени Шейн Геро, который с 2005 года записал большое количество звуков кашалотов в водах вокруг карибского острова Доминика. Бронштейн применил некоторые алгоритмы машинного обучения к этим данным. «Казалось, что они работают очень хорошо, по крайней мере, с некоторыми относительно простыми задачами» — говорит он. Но это было не более чем доказательство концепции. Для более глубокого анализа алгоритмам нужно было больше контекста и больше данных — миллионы китовых кодов.
Но есть ли у животных язык вообще? Этот вопрос долгое время вызывал споры среди ученых. Для многих язык является одним из последних бастионов человеческой исключительности. Животные общаются, но не говорят, считал австрийский биолог Конрад Лоренц, один из пионеров науки о поведении животных, который написал о собственном общении с животными в своей книге «Кольцо царя Соломона» в 1949 году. «Животные не обладают языком в истинном смысле этого слова».
«Я скорее думаю, что мы еще недостаточно внимательно изучили этот вопрос», — возражает Карстен Бренсинг, немецкий морской биолог, автор множества книг о коммуникации животных. Бренсинг убежден, что высказывания многих животных, безусловно, можно назвать языком. Речь идет не просто о лае: необходимо соблюдение нескольких условий. «Во-первых, язык имеет семантику. Это означает, что определенные вокализации имеют фиксированное значение, которое не меняется». Например, известно, что у сибирских соек, разновидности птиц, словарный запас насчитывает около 25 звуков, некоторые из которых имеют фиксированное значение.
Второе условие — это грамматика: правила построения предложений. Долгое время ученые были убеждены, что в общении животных отсутствует какая-либо структура предложений. Но в 2016 году японские исследователи опубликовали в журнале Nature Communications научную работу, посвященную вокализации больших синиц. В определенных ситуациях птицы объединяют два разных призыва, чтобы предупредить друг друга о приближении хищника. Они также реагировали, когда исследователи воспроизводили им эту последовательность. Однако, когда порядок воспроизведения был изменен, птицы реагировали гораздо меньше. «Это пример грамматики» — утверждает Бренсинг.
Третий критерий: нельзя назвать вокализации животного языком, если они полностью врожденные. Лоренц считал, что животные рождаются с репертуаром выражений и не учатся многому в течение жизни. «Все выражения эмоций животных, например, звуки «киа» и «киау» галки не сравнимы с нашим разговорным языком, их можно сравнить с выражением эмоций вроде зевоты, сморщивания бровей и улыбки, бессознательными, врожденными» — писал Лоренц.
Несколько видов животных оказались способными к изучению вокального языка — они приобретают новый словарный запас, развивают диалекты, идентифицируют друг друга по имени. Некоторые птицы даже научились имитировать рингтоны мобильных телефонов. Дельфины приобретают индивидуальные свисты, которые они используют в качестве идентификатора, почти как имя.
Щелчки кашалотов — идеальный кандидат для попытки расшифровать их значение не только потому, что, в отличие от непрерывных звуков, издаваемых другими видами китов, их легко перевести в единицы и нули. Эти животные ныряют в самые большие океанские глубины и общаются на огромных расстояниях, поэтому они не могут использовать язык тела и мимику, которые являются важными средствами общения для других живых существ. «Реально предположить, что общение китов в основном акустическое» — говорит Бронштейн. У кашалотов самый большой мозг в животном мире, в шесть раз больше нашего. Когда два таких животных общаются друг с другом в течение длительного периода времени, разве мы не должны задаться вопросом, что им есть что рассказать друг другу? Дают ли они друг другу советы о лучших местах для рыбалки? Обмениваются ли мамы китов историями о воспитании своего потомства, как их человеческие коллеги? Стоит попытаться выяснить это, говорят исследователи CETI.
Изучать незнакомый язык легче, если у вас есть что-то вроде знаменитого Розеттского камня. Эта стела, обнаруженная в 1799 году, содержит один и тот же текст на трех языках и стала ключом к расшифровке египетских иероглифов. Конечно, для животного царства ничего подобного не существует. У нас нет ни словаря для общения между человеком и китом, ни книги с грамматическими правилами языка кашалота.
Но есть способы обойти это ограничение. Очевидно, что дети учат свой родной язык без этих инструментов, просто наблюдая за тем, на каком языке говорят вокруг них. Исследователи пришли к выводу, что такое обучение в основном является статистическим: ребенок запоминает, что слово собака произносится часто, когда это пушистое животное входит в комнату, что определенные слова часто используются в связи с другими, что определенная последовательность слов более вероятна, чем другая. За последние 10 лет методы машинного обучения эмулировали этот тип обучения. Исследователи скармливали нейронным сетям огромные объёмы языковых данных. И эти сети смогли найти структуры в языках на основе статистических наблюдений, ничего не понимая в их содержании.
Одним из примеров являются так называемые языковые модели, самой известной из которых является GPT-3, разработанная компанией OpenAI. Языковые модели — это машины для завершения — например, GPT-3 получает начало предложения и завершает его слово за словом, подобно предложениям, которые делают смартфоны, когда мы набираем текстовые сообщения, только в гораздо более сложном варианте. Благодаря статистической обработке огромного количества текста, взятого из Интернета, языковые модели не только знают, какие слова часто встречаются вместе, но и изучают правила составления предложений. Они создают правильно звучащие предложения, причем часто поразительно качественные. Они способны писать фальшивые новостные статьи на заданную тему, резюмировать сложные юридические тексты простыми словами и даже переводить с одного языка на другой.
За эти подвиги приходится платить: требуются огромные объемы данных. Программисты обучили нейронную сеть GPT-3 примерно на 175 миллиардах слов. Для сравнения, в рамках проекта Геро по изучению кашалотов Доминики было собрано менее 100 000 кодовых слов кашалотов. Первой задачей нового исследовательского проекта будет значительное расширение этой коллекции, с целью собрать четыре миллиарда слов — хотя пока никто не знает, что такое «слово» в языке кашалотов.
Если идея Бронштейна сработает, то вполне реально разработать систему, аналогичную человеческим языковым моделям, которая будет генерировать грамматически правильные высказывания китов. Следующим шагом станет интерактивный чат-бот, который попытается вступить в диалог со свободно живущими китами. Конечно, сегодня никто не может сказать, примут ли животные его в качестве собеседника. Может быть, они просто ответят: «Хватит болтать всякую ерунду!» — говорит Бронштейн.
Но даже если эта идея сработает, недостатком всех языковых моделей является то, что они ничего не знают о содержании языка, на котором общаются. Было бы иронично, если бы исследователи создали бота, который мог бы свободно разговаривать с китом, но потом не смог бы понять ни слова. Вот почему они хотят аннотировать голосовые записи данными о поведении китов с самого начала — где были животные, кто с кем говорил, какова была реакция? Задача состоит в том, чтобы найти автоматизированный способ сделать хотя бы часть из этих миллионов аннотаций.
Еще предстоит разработать множество технологий — датчики для регистрации отдельных китов и отслеживания их местоположения. Это необходимо для четкого отнесения отдельных звуков к конкретному животному. Проект CETI успешно подал заявку на пятилетнее финансирование в рамках проекта «Audacious Project», проводимого организацией конференций TED. В проекте участвует ряд организаций, в том числе Национальное географическое общество и Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (MIT).
Исследователи CETI были не первыми, кому пришла в голову идея применить методы машинного обучения к языкам животных. Аза Раскин, бывший физик, дизайнер и предприниматель, ставший критиком технологий, пришел к подобной идее еще в 2013 году, когда услышал о сложном языке африканских обезьян гелада. Можем ли мы применить технологию НЛП, которая была разработана для обработки человеческих языков, к вокализации животных? Он помог основать проект Earth Species Project с целью сделать именно это. В то время технология находилась в зачаточном состоянии; прошло еще четыре года, прежде чем она превратилась в работающий самообучающийся метод автоматического перевода с одного языка на другой. Метод встраивания слов помещает все слова языка в многомерную галактику, где слова, часто используемые вместе, находятся рядом друг с другом, и эти связи представлены линиями. Например, «король» относится к «мужчине» так же, как «королева» к «женщине».
Оказалось, что карты двух человеческих языков могут совпадать, даже если не каждое слово из одного языка имеет точный аналог в другом. Сегодня эта техника позволяет переводить между двумя человеческими языками в письменном тексте, а вскоре она может быть использована и для создания аудиозаписей без текста.
Но возможно ли наложение карт человеческого и животного языков? Раскин убежден, что это возможно, по крайней мере, в принципе. «Почти наверняка существует какой-то общий набор опыта, особенно у млекопитающих. Им нужно дышать, им нужно есть, они оплакивают своих детенышей после их смерти» — говорит он. В то же время, считает Раскин, будет много областей, где карты не сойдутся. «Я не знаю, что будет более увлекательным — те части, где мы сможем сделать прямой перевод, или те, где нет ничего, что можно было бы напрямую перевести на человеческий опыт». Когда животные заговорят сами за себя, а мы сможем их слушать, говорит Раскин, мы сможем узнать «действительно уникальные вещи».
Конечно, эти надежды немного опережают текущие исследования. Некоторые ученые весьма скептически относятся к тому, что сбор данных CETI позволит найти что-нибудь интересное. Стивен Пинкер, известный лингвист и автор книги «Языковой инстинкт», смотрит на проект с изрядной долей скептицизма. «Мне будет любопытно посмотреть, что они найдут», — пишет он в своем электронном письме. Однако у него мало надежды на то, что мы сможем найти богатое содержание и структуру в кодах кашалотов. «Я подозреваю, что это не выйдет за рамки того, что мы уже знаем, а именно, что это сигнатурные призывы, семантика которых в основном ограничивается тем, кто они такие, возможно, вместе с эмоциональными призывами. Если киты могут передавать сложные сообщения, то почему мы не видим, чтобы они использовали их для совместного выполнения сложных действий, как у людей?».
Диана Рейсс, исследователь из Хантер-колледжа Городского университета Нью-Йорка, с этим не согласна. «Если бы люди посмотрели на нас с вами» — говорит она в видеоинтервью, — «то посчитали бы, что я не делаю ничего особенного, как и вы, но при этом мы общаемся о многом». Точно так же, по ее мнению, мы мало знаем о том, что киты могут говорить друг другу.
Рейсс уже много лет работает с дельфинами и использует простую подводную клавиатуру для общения с ними. Она стала соучредителем группы «Межвидовой интернет», которая изучает способы эффективного общения с животными. Среди ее соучредителей — музыкант Питер Гэбриэл, Винтон Серф, один из разработчиков интернета, и Нил Гершенфельд, директор Центра битов и атомов Массачусетского технологического института. Рейсс приветствует амбиции CETI, особенно его междисциплинарный подход.
Исследователи CETI признают, что их поиски смысла в звуках китов могут не привести ни к чему интересному. «Мы понимаем, что один из наших самых больших рисков заключается в том, что киты могут оказаться невероятно скучными», — говорит Грубер, руководитель программы. «Но мы не думаем, что это так. В моем опыте биолога не было случая, чтобы животные меня не впечатлили».
Название проекта CETI напоминает о SETI, поиске внеземного разума, который с 1960-х годов сканировал небо в поисках радиосигналов инопланетных цивилизаций, но до сих пор не нашел ни одного сообщения. Поскольку никаких признаков существования инопланетян обнаружено не было, Бронштейн убежден, что нам следует испытать свои навыки декодирования на сигналах, которые мы можем обнаружить здесь, на Земле. Вместо того чтобы направлять свои антенны в космос, мы можем подслушать в океане культуру, которая, по крайней мере, столь же чужда нам. «Я считаю, что очень самонадеянно думать, что Homo sapiens — единственное разумное и чувствующее существо на Земле» — говорит Бронштейн. «Если мы обнаружим, что у нас под носом существует целая цивилизация, возможно, это приведет к изменению нашего отношения к окружающей среде. И, возможно, это приведет к большему уважению живого мира».
Оригинал: Hakai Magazine