Что произойдет, если ИИ станет еще более разумным?
Автор: Маттео Вонг
ChatGPT появился на свет осенью 2022 года, вызвав гонку за все более совершенным искусственным интеллектом: GPT-4, Anthropic’s Claude, Google Gemini и многие другие. Совсем недавно компания OpenAI представила модель под названием Sora — новейшую разработку, способную мгновенно генерировать короткие видеоролики по письменным подсказкам. Но при всех ослепительных демонстрациях и обещаниях развитие фундаментальной технологии замедлилось.
Самые продвинутые и привлекающие внимание программы ИИ, особенно языковые модели, поглотили большую часть текста и изображений, доступных в Интернете, и у них заканчивается самый ценный ресурс — обучающие данные. Это, а также дорогостоящий и медленный процесс использования человеческих экспертов для разработки таких систем, сдерживает развитие технологии, приводя к итеративным обновлениям, а не к масштабным сменам парадигмы. Компании вынуждены соревноваться за миллиметры прогресса.
Пока исследователи пытаются выжать воду из камня, они ищут новые пути для совершенствования своих продуктов: например, используют для обучения машин. За последние несколько месяцев Google Deepmind, Microsoft, Amazon, Meta, Apple, OpenAI и различные академические лаборатории опубликовали исследования, в которых модель ИИ используется для улучшения другой модели ИИ или даже самой себя, что во многих случаях приводит к заметным улучшениям. Многие руководители технологических компаний провозгласили такой подход будущим технологии.
Это сценарий, к которому нас готовили бесчисленные произведения научной фантастики. А если довести до крайности, то результат такого «самообучения» может быть не иначе как эсхатологическим. Представьте, что GPT-5 обучает GPT-6, GPT-6 обучает GPT-7, и так до тех пор, пока модель не превзойдет человеческий интеллект. Некоторые считают, что такое развитие событий приведет к катастрофическим последствиям. Девять лет назад генеральный директор OpenAI Сэм Альтман написал в блоге о теоретическом ИИ, способном к «рекурсивному самосовершенствованию», и о перспективе того, что он будет воспринимать людей так же, как мы воспринимаем бактерии и вирусы, которые смываем с рук.
Мы и близко не подошли к появлению «сверхразума», как его называют эксперты. (Альтман часто говорит о предполагаемом экзистенциальном риске ИИ; это хороший пиар.) Но даже в этом случае более скромные программы, которые учат и учатся друг у друга, могут исказить наше восприятие мира и нарушить наши основные представления об интеллекте. Генеративный ИИ уже обнаруживает закономерности и предлагает теории, которые человек не смог бы обнаружить самостоятельно, на основе слишком больших объемов данных, которые не под силу прочесать ни одному человеку, с помощью внутренних алгоритмов, которые в значительной степени непрозрачны даже для их создателей. Самообучение, если оно будет успешным, может только усилить эту проблему. В результате может появиться своего рода невразумительный интеллект: модели, которые умны или, по крайней мере, способны на то, что человек не в состоянии понять.
Чтобы понять этот сдвиг, необходимо разобраться в основных экономических аспектах ИИ. Создание технологии требует огромных затрат денег, времени и информации. Процесс начинается с подачи алгоритму огромного количества данных — книг, математических задач, фотографий с подписями, голосовых записей и так далее, чтобы определить базовые возможности модели. Затем исследователи могут улучшить и усовершенствовать эти предварительно натренированные способности несколькими различными способами. Один из них — предоставление модели конкретных примеров успешного выполнения задачи: Программе можно показать 100 математических вопросов с правильными решениями. Другой способ — это процесс проб и ошибок, известный как обучение с подкреплением, в котором обычно участвуют люди: человек может оценить ответы чатбота на предмет сексизма, чтобы программа научилась избегать тех, которые считаются оскорбительными. «Обучение с подкреплением — ключевой компонент нового поколения систем ИИ» — сказал мне Рафаэль Рафаилов, специалист по информатике из Стэнфорда.
Это не идеальная система. Два разных человека или один и тот же человек в разные дни могут выносить противоречивые суждения. Все эти оценщики работают в медленном, человеческом темпе и требуют оплаты. По мере того, как модели будут становиться все более мощными, им потребуется более сложная обратная связь от квалифицированных, а значит, и более высокооплачиваемых специалистов. Например, врачи могут быть привлечены для оценки медицинского ИИ, который ставит диагнозы пациентам.
Вы можете понять, почему самообучение обладает особой привлекательностью. Оно дешевле, менее трудоемко и, возможно, более последовательно, чем обратная связь с человеком. Но автоматизация процесса подкрепления связана с определенными рисками. Модели ИИ и без того не лишены недостатков — галлюцинаций, предрассудков, элементарного непонимания мира, — которые они передают пользователям через свои результаты. (В одном печально известном примере, произошедшем в прошлом году, юрист использовал ChatGPT для написания юридической записки и в итоге сослался на несуществующие дела). Обучение или тонкая настройка модели с помощью данных, созданных ИИ, может усилить эти недостатки и сделать программу еще хуже, как если бы вы кипятили токсичный бульон, превращая его в густой деми-гляс. В прошлом году Илия Шумайлов, тогда еще младший научный сотрудник Оксфордского университета, дал количественную оценку одной из версий этого саморазрушительного цикла и назвал ее «коллапсом модели»: полное вырождение ИИ.
Чтобы избежать этой проблемы, последняя волна исследований в области самосовершенствующегося ИИ использует лишь небольшие объемы синтетических данных под руководством человека, разрабатывающего программное обеспечение. Такой подход предполагает некую внешнюю проверку, отдельную от самого ИИ, для обеспечения качества обратной связи — возможно, законы физики, список моральных принципов или другие независимые критерии, уже признанные истинными. Исследователи добились особого успеха в автоматизации контроля качества для узких, четко определенных задач, таких как математические рассуждения и игры, в которых правильность или победа обеспечивают прямой способ оценки синтетических данных. Недавно компания Deepmind использовала примеры, созданные ИИ, для повышения способности языковой модели решать задачи по математике и кодированию. Но в этих случаях ИИ учится не столько у другого ИИ, сколько на основе научных результатов или других установленных критериев, сказал мне Рохан Таори, специалист по информатике из Стэнфорда. По его словам, сегодня самообучение — это скорее «установление правил игры».
Между тем, в случаях обучения моделей ИИ более абстрактным способностям, таким как умение писать в хорошем стиле или составлять ответы, которые человек счел бы полезными, обратная связь с человеком остается крайне важной. Таким образом, наиболее перспективным вариантом обучения ИИ-моделей было бы, чтобы они научились предоставлять более субъективную обратную связь самим себе — например, оценивать, насколько полезен, вежлив, прагматичен или предвзят диалог чатбота. Но на сегодняшний день в большинстве исследований обучение языковых моделей обратной связи другим языковым моделям прекращается после нескольких циклов: возможно, вторая итерация модели улучшается, но третья или четвертая достигает плато или ухудшается. В какой-то момент модель ИИ просто усиливает существующие способности — становится слишком уверенной в том, что она знает, и менее способной во всем остальном. Обучение, в конце концов, требует знакомства с чем-то новым. «Используемые сегодня генеративные модели ИИ — это машины для обработки данных», — сказал мне Стефано Соатто, вице-президент по прикладной науке в подразделении ИИ Amazon Web Services. «Они не могут создать ни одного бита информации больше, чем данные, на которых они обучаются».
Соатто сравнил самообучение с намазыванием масла на куска тоста. Представьте, что модель ИИ — это кусок хлеба, а процесс ее первоначального обучения — это намазывание масла. В лучшем случае техника самообучения просто равномерно распределяет то же масло, а не наделяет какими-то принципиально новыми навыками. Тем не менее, это делает хлеб вкуснее. Такой самообучающийся, или «намазанный маслом», ИИ недавно продемонстрировал в ограниченных исследованиях, что он может составлять более полезные резюме, писать более качественный код и демонстрировать более глубокие здравые рассуждения. В целом он является довольно полезным и может заменить очень многих людей.
Но настоящие евангелисты мечтают о том, чтобы самообучение делало нечто большее — добавляло больше масла на ломтик тоста. Для этого ученым-компьютерщикам нужно будет продолжать разрабатывать способы проверки синтетических данных, чтобы понять, смогут ли более мощные модели ИИ служить надежными источниками обратной связи и, возможно, даже генерировать новую информацию. Если исследователям это удастся, ИИ сможет пробить потолок созданного человеком контента в Интернете. В этом случае признаком настоящего искусственного интеллекта может стать искусственное обучение.
Возможно, искусственному интеллекту не придется приобретать способность к более целостному самосовершенствованию, прежде чем он станет неузнаваемым для нас. Эти программы и без того запутанные — зачастую невозможно объяснить, почему или как ИИ сгенерировал тот или иной ответ, — и разработка процесса, в котором они сами будут брать на себя инициативу, только усугубит эту непрозрачность.
Можно ли назвать его искусственным искусственным интеллектом: ИИ, который может не воспринимать проблемы и не подходить к ним так, как их легко воспринимает человек? Возможно, это будет похоже на то, как люди не могут полностью понять, как собаки используют нос или уши для ориентации, хотя обоняние и эхолокация — отличные способы ориентироваться в мире. Машинный интеллект может быть таким же сложным для восприятия, одновременно и родным, и незнакомым.
Подобное странное поведение уже проявлялось в далеко не сверхразумных ситуациях. По словам Шумайлова, «очень часто агенты, которым задают определенную цель — предоставление полезных ответов чатбота, переворачивание блинов, перемещение блоков, — учатся обманывать». В одном из примеров нейронная сеть, подключенная к роботу Roomba, который учился не натыкаться ни на что, научилась ездить задом наперед, потому что все датчики бампера находились на передней части пылесоса.
Это будет не так смешно, когда модель ИИ будет использоваться для приведения другой модели в соответствие с набором этических принципов — своего рода «конституционный ИИ», как назвал эту концепцию стартап Anthropic. Уже сейчас разные люди по-разному трактуют аборты, владение оружием и прием на работу по расовому признаку в Конституции США. И если человеческие разногласия по поводу закона по крайней мере понятны и вызывают споры, то понять, как машина интерпретирует и применяет то или иное правило, особенно в течение многих циклов обучения, приводя к едва заметным вредным результатам, может быть непросто. ИИ, которому предписано быть отзывчивым и доброжелательным, может стать агрессивным и манипулятивным; правила, направленные на предотвращение одной формы предвзятости, могут породить другую. Компьютерная обратная связь, несмотря на все способы, которыми человек может ее настроить, может дать «ложное чувство контроля» — отметил Дилан Хэдфилд-Менелл, компьютерный ученый из Массачусетского технологического института.
Хотя эти непрозрачные внутренние механизмы могут быть опасны, принципиальный отказ от них может означать и отказ от откровений. Проглотив целый интернет информации, самообучающиеся модели ИИ могут выявить действительно важные закономерности и идеи, которые уже заложены в их обучающих данных, но которые человек не может выявить или полностью осознать. Например, самые продвинутые программы для игры в шахматы научились играть миллионы партий против самих себя. Эти шахматные ИИ делают ходы, которые элитные игроки с трудом могут понять, и полностью доминируют над ними, что привело к переоценке шахмат на самом высоком человеческом уровне.
Шумайлов говорит об этом так: В XVII веке Галилей правильно утверждал, что Земля вращается вокруг Солнца, но это было отвергнуто как ересь, потому что не соответствовало существующим системам верований. «Тот факт, что нам удалось реализовать некоторые знания, не обязательно означает, что мы сможем интерпретировать эти знания» — говорит Шумайлов. Возможно, мы будем игнорировать результаты некоторых моделей ИИ, даже если впоследствии они окажутся верными просто потому, что они несопоставимы с тем, что мы сейчас понимаем — математические доказательства, которые мы пока не можем понять, модели мозга, которые мы не можем объяснить, знания, которые мы не признаем как знания». Потолок, обеспечиваемый Интернетом, может быть просто выше, чем мы можем видеть.
Независимо от того, приведет ли самообучающийся ИИ к катастрофе, тонким недостаткам и предубеждениям или непонятным прорывам, ответ не может заключаться в полном доверии или презрении к технологии — он должен заключаться в серьезном отношении к этим моделям как к агентам, которые сегодня могут учиться, а завтра, возможно, смогут учить нас или даже друг друга.
Эта статья была обновлена, чтобы включить ссылку на Sora.
Оригинал: The Atlantic