Наше отношение к тексту скоро изменится навсегда, и это может закончиться не очень хорошо.
Автор: Мэтью Киршенбаум
Что, если в конце концов нас погубят не межконтинентальные баллистические ракеты или изменение климата, не микроскопические патогены или метеорит размером с гору, а… текст? Простой, обычный, без прикрас текст, но в таких огромных количествах, которые просто невозможно себе представить — цунами текста, захлестнувшего нас в самовосстанавливающуюся катаракту контента, которая делает функционально невозможным надежное общение в любой цифровой среде?
Наше отношение к письменному слову фундаментально меняется. Так называемый генеративный искусственный интеллект стал мейнстримом благодаря таким программам, как ChatGPT, которые используют большие языковые модели, или LLM, для статистического предсказания следующей буквы или слова в последовательности, создавая предложения и абзацы, имитирующие содержание документов, на которых они обучались. Они привнесли нечто похожее на автозаполнение во весь Интернет. Пока что люди все еще набирают фактические подсказки для этих программ, и точно так же модели все еще (в основном) обучаются на человеческой прозе, а не на собственных опусах, созданных машиной.
Но обстоятельства могут измениться, о чем свидетельствует выпуск на прошлой неделе API для ChatGPT, который позволит интегрировать эту технологию непосредственно в веб-приложения, такие как социальные сети и интернет-магазины. Сейчас легко представить себе ситуацию, когда машины могут побуждать другие машины писать текст бесконечно, наводняя интернет синтетическим текстом, лишенным человеческой воли или намерения: серая слизь, но в области письменного слова.
Именно такой сценарий уже разыгрался в небольших масштабах, когда в июне прошлого года подправленная версия GPT-J, модели с открытым исходным кодом, была внедрена в анонимную доску объявлений 4chan и за 24 часа опубликовала 15 000 в основном токсичных сообщений. Допустим, кто-то создал систему, позволяющую программе типа ChatGPT многократно запрашивать саму себя и автоматически публиковать результаты на веб-сайтах или в социальных сетях; бесконечный итерационный поток контента, который только и делает что мешает всем, но который также (неизбежно) попадает обратно в обучающие наборы для моделей, публикующих свой собственный новый контент в Интернете. Что, если множество людей — мотивированных деньгами от рекламы, политическими или идеологическими целями, или просто озорством — начнут делать это, и сотни, а затем тысячи, возможно, миллионы или миллиарды таких сообщений каждый день будут наводнять открытый интернет, смешиваясь с результатами поиска, распространяясь по социальным медиа-платформам, проникая в записи Википедии, и, прежде всего, предоставляя пищу для будущих поколений систем машинного обучения? Крупные издатели уже экспериментируют: сайт технических новостей CNET опубликовал десятки статей, написанных с помощью искусственного интеллекта в надежде привлечь трафик, и более половины из них в один прекрасный момент были признаны содержащими ошибки. Мы можем быстро оказаться перед лицом текстового апокалипсиса, когда машинописный язык станет нормой, а написанная человеком проза — исключением.
Подобно ценным росчеркам пера каллиграфа, человеческий документ в Интернете может стать раритетом, который нужно будет курировать, защищать и сохранять. Тем временем алгоритмические основы общества будут оперировать текстовой базой знаний, которая будет становиться все более и более искусственной, ее истоки будут лежать в непрекращающемся движении языковых моделей. Воспринимайте это как спам планетарного масштаба, но в отличие от спама, для которого у нас есть более или менее эффективные средства защиты, может оказаться, что нет надежного способа отмечать и фильтровать следующее поколение машинных текстов. «Не верьте всему, что читаете» может превратиться в «Не верьте ничему, что читаете», когда это происходит в Интернете.
Это ироничный результат для цифрового текста, который долгое время считался форматом, расширяющим возможности. В 1980-х годах хакеры и любители восхваляли достоинства текстового файла: ASCII-документа, который легко перемещался туда-сюда по хрупким модемным соединениям, связывавшим воедино коммутируемые доски объявлений. Совсем недавно сторонники так называемых минимальных вычислений одобрили простой текст как формат с низким углеродным следом, которым легко обмениваться независимо от ограничений платформы.
Но простой текст также является самым простым цифровым форматом для автоматизации. Люди делали это в той или иной форме с 1950-х годов. Сегодня нормы современной культурной индустрии находятся на пути к автоматизации и алгоритмической оптимизации письменного языка. Контент-фермы, создающие низкокачественную прозу для привлечения рекламного ПО, используют эти инструменты, но они по-прежнему зависят от легионов недоучившихся или безработных креативщиков, которые нанизывают символы на правильные слова, слова — на разборчивые предложения, предложения — на связные абзацы. Как только появится возможность автоматизировать и увеличить масштабы этого труда, какой будет стимул для его ограничения?
Уильям Сафир, который одним из первых диагностировал рост «контента» как уникальной интернет-категории в конце 1990-х годов, был также, возможно, первым, кто отметил, что контент не должен иметь никакого отношения к истине или точности, чтобы выполнять свою основную функцию, которая заключается в том, чтобы просто существовать; или, как утверждает Кейт Эйххорн в своей недавней книге о контенте, циркулировать. Это потому, что аппетит к «контенту» — это, по крайней мере, столько же создание новых целей для рекламных доходов, сколько и реальная пища для человеческой аудитории. Это не говоря уже о более темных планах, таких как информационная война, которую мы сейчас наблюдаем в глобальной геополитической сфере. Исследователь ИИ Гэри Маркус продемонстрировал кажущуюся легкость, с которой языковые модели способны генерировать гротескно искаженное повествование о 6 января 2021 года, которое может быть использовано в качестве дезинформации в массовом масштабе.
Здесь есть еще одно измерение. Текст — это контент, но это особый вид контента — мета-контент, если хотите. Под поверхностью каждой веб-страницы находится текст — инструкции в угловых скобках, или код — о том, как страница должна выглядеть и вести себя. Браузеры и серверы обмениваются текстом. Программирование осуществляется открытым текстом. Изображения, видео и аудио — все они описываются — помечаются — текстом, называемым метаданными. Интернет — это гораздо больше, чем текст, но все в Интернете — это текст на каком-то фундаментальном уровне.
В течение долгого времени основной парадигмой было то, что мы называли «веб с возможностью чтения и записи». Мы не только потребляли контент, но и могли его производить, участвуя в создании сети посредством редактирования, комментариев и загрузки. Сейчас мы находимся на пороге чего-то гораздо более похожего на «веб с записью»: веб пишет и переписывает сам себя, и, возможно, даже перепрограммирует себя в процессе (ChatGPT и ему подобные могут писать код так же легко, как и прозу, в конце концов).
По сути, мы сталкиваемся с кризисом бесконечного спама, изнуряющей амальгамацией человеческого и машинного авторства. Из книги Финна Брантона «Спам: Теневая история Интернета» мы узнаем о существующих методах распространения поддельного контента в Интернете, таких как «бифасинг» сайтов, на которых есть страницы, предназначенные для человеческого чтения, и другие, оптимизированные для ботов, заполняющих поисковые системы; электронные сообщения, составленные как переделка известных литературных произведений, собранных из онлайн-баз данных, таких как Project Gutenberg, чтобы лучше проникать через фильтры («литспам»); целые сети блогов, заполненные автономным контентом для привлечения ссылок и трафика («splogs»); и «алгоритмическая журналистика», где автоматизированные отчеты (по таким темам, как спортивные результаты, биржевой тикер и сейсмические толчки) передаются по проводам. Брунтон также подробно описывает происхождение ботнетов, которые стали печально известны во время избирательного цикла 2016 года в США и Brexit в Великобритании.
Все эти явления, не говоря уже об обычном спаме, который раньше был такой неприятностью, являются функциями текста — больше текста, чем мы можем себе представить или помыслить, лишь самые незначительные его фрагменты когда-либо попадали в поле зрения человека, но, тем не менее, они засоряют серверы, телекоммуникационные кабели и центры обработки данных: «120 миллиардов сообщений в день, проходящих серым потоком по всему миру, просачивающихся через фильтры, тусклые, как смог», как выразился Брантон.
Мы часто говорили об Интернете как о великом расцвете человеческого самовыражения и творчества. Но есть очень сильный аргумент в пользу того, что, вероятно, уже в середине 1990-х годов, когда корпоративные интересы начали закрепляться в сети, она уже была на пути к тому, чтобы стать чем-то совсем другим. Не просто коммерциализация в обычном смысле — сама ткань сети была превращена в двигатель для добычи капитала. Спам, во всем его пестром и угрожающем разнообразии, учит нас тому, что сеть уже некоторое время писала сама себя. Теперь все необходимые логические механизмы — коммерческие, технологические и прочие — возможно, наконец, созданы для ускоренного текстового апокалипсиса.
«Возникла срочная необходимость в том, чтобы кто-то написал 300 слов [якобы] смешного материала для выпуска @outsidemagazine, который мы закрываем. Я набил их на клавишах моего ноутбука во время первой половины Суперкубка, попивая пиво», — написал Алекс Херд, редакционный директор Outside, в Твиттере в прошлом месяце. «Уверен, это мой звездный час».
Этот твит — самоуничижительный юмор с оттенком хвастовства, совершенно непримечательный и безобидный, как и подобает Твиттеру. Но, появившись в моей ленте, когда я писал эту статью, он заставил меня задуматься. Писательство часто бывает негламурным. Это труд; это работа, которую нужно делать, иногда даже во время большой игры. Твит Херда отражает реальность ужасно большого количества пишущих людей в настоящее время, особенно контента для Интернета: работа по заданию, выполненная по спецификации, в сжатые сроки и под внешним давлением.
Этот огромный средний диапазон повседневного письма — является тем местом, где генеративный ИИ уже начинает проявлять себя. Первый признак — интеграция в программное обеспечение для работы с текстом. ChatGPT будет протестирован в Office; возможно, он также скоро появится в записях вашего врача или в резюме вашего адвоката. Возможно, он также является молчаливым партнером в чем-то, что вы уже сегодня прочитали в Интернете. Невероятно, но крупный исследовательский университет признал, что использовал ChatGPT для написания сценария электронного сообщения для всего кампуса в ответ на массовую стрельбу в штате Мичиган. Между тем, редактор давно существующего научно-фантастического журнала опубликовал данные, которые свидетельствуют о резком увеличении количества спама с конца прошлого года, что совпало с распространением ChatGPT. (Спустя несколько дней он был вынужден полностью прекратить прием заявок из-за наплыва автоматизированного контента). А Amazon наблюдал приток наименований, в которых ChatGPT заявлен в «соавторстве», на свою платформу Kindle Direct, где экономия от масштаба означает, что даже небольшое количество продаж принесет прибыль.
Независимо от того, наступит ли полностью автоматизированный текстовый апокалипсис или нет, тенденции только ускоряются. От жанровой художественной литературы до заключения врача, вы не всегда сможете предположить человеческое авторство за тем, что вы читаете. Письмо, а точнее цифровой текст, как категория человеческого самовыражения, будет отдаляться от нас.
В окне «Свойства» документа, над которым я сейчас работаю, указано 941 минута редактирования и около 60 правок. Это более 15 часов. Целые абзацы были удалены, вставлены и снова удалены — и все это еще до того, как документ попал к редактору или фактчекеру.
Волнует ли меня, что ChatGPT мог бы сделать эту работу лучше? Нет. Но я беспокоюсь, что это может быть неважно. Мои слова не смогут помочь самим себе, если они будут использоваться в качестве обучающих данных для следующего поколения генеративного искусственного интеллекта: они тоже станут ископаемым топливом для грядущего текстового апокалипсиса.
Оригинал: TheAtlantic