Стивен Кинг, Зейди Смит и Майкл Поллан — одни из тысяч писателей, чьи защищенные авторским правом произведения используются для обучения больших языковых моделей.
Автор: Алекс Рейснер
Одна из наиболее тревожных проблем, связанных с генеративным ИИ, проста: он работает в тайне. Для получения человекоподобных ответов на вопросы такие системы, как ChatGPT, обрабатывают огромное количество письменных материалов. Но мало кто за пределами таких компаний, как Meta и OpenAI, знает весь объем текстов, на которых обучались эти программы.
Часть обучающих текстов берется из Википедии и других сетевых источников, но для качественного генеративного ИИ требуется более качественный материал, чем тот, который обычно можно найти в Интернете, то есть тот, который можно найти в книгах. В иске, поданном в Калифорнии в прошлом месяце, писатели Сара Сильверман, Ричард Кадри и Кристофер Голден утверждают, что Meta нарушила закон об авторском праве, использовав их книги для обучения LLaMA, большой языковой модели, аналогичной GPT-4 от OpenAI, — алгоритма, который может генерировать текст, подражая шаблонам слов, найденным в образцах текстов. Однако ни сам иск, ни комментарии вокруг него не дают возможности заглянуть под капот: мы не знаем точно, обучалась ли LLaMA на книгах Сильвермана, Кадри, Голдена или других авторов.
На самом деле, это так. Недавно я получил и проанализировал набор данных, использованный Meta для обучения LLaMA. Его содержание более чем оправдывает фундаментальный аспект утверждений авторов: Пиратские книги используются в качестве исходных данных для компьютерных программ, которые меняют то, как мы читаем, учимся и общаемся. Будущее, обещанное искусственным интеллектом, написано крадеными словами.
В обучающих данных LLaMA содержится около 170 000 книг, большинство из которых были опубликованы за последние 20 лет. Помимо работ Сильвермана, Кадри и Голдена, используется нехудожественная литература Майкла Поллана, Ребекки Солнит и Джона Кракауэра, а также триллеры Джеймса Паттерсона и Стивена Кинга и другая художественная литература. Эти книги являются частью набора данных под названием «Books3», и его использование не ограничивается LLaMA. Books3 также использовался для обучения BloombergGPT, EleutherAI GPT-J — популярной модели с открытым исходным кодом — и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету. Представитель Meta отказался комментировать информацию об использовании Books3; представитель Bloomberg подтвердил по электронной почте, что Books3 использовался для обучения начальной модели BloombergGPT, и добавил: «Мы не будем включать набор данных Books3 в число источников данных, используемых для обучения будущих версий BloombergGPT», а Стелла Бидерман, исполнительный директор EleutherAI, не стала оспаривать факт использования Books3 в обучающих данных GPT-J.
Мне, как писателю и программисту, было интересно узнать, какие книги используются для обучения генеративных систем искусственного интеллекта. В начале этого лета я начал читать онлайн-обсуждения среди академических и любительских разработчиков ИИ на таких сайтах, как GitHub и Hugging Face. В конечном итоге они привели меня к прямой загрузке «кучи» — огромного кэша обучающих текстов, созданного компанией EleutherAI и содержащего набор данных Books3, а также материалы из множества других источников: субтитры YouTube-видео, документы и расшифровки из Европарламента, англоязычная Википедия, электронные письма, отправленные и полученные сотрудниками корпорации Enron перед ее крахом в 2001 году, и многое другое. Такое разнообразие не удивительно. Генеративный ИИ работает на основе анализа связей между словами в интеллектуальном языке, и, учитывая сложность этих связей, тема, как правило, не так важна, как количество текста. Именно поэтому сайт The-Eye.eu, на котором до недавнего времени размещалась «Куча» — получил уведомление об удалении от датской антипиратской группы.
Куча слишком велика, чтобы открыть ее в приложении для редактирования текста, поэтому я написал ряд программ для работы с ней. Сначала я извлек все строки с меткой «Books3», чтобы изолировать набор данных Books3. Вот пример из полученного набора данных:
{«text»: «\n\nЭта книга является художественным произведением. Имена, персонажи, места и происшествия являются плодом воображения авторов. Любое сходство с реальными событиями, местностями или людьми, живыми или умершими, является совершенно случайным.\n\n | POCKET BOOKS, подразделение компании Simon & Schuster Inc. \n1230 Avenue of the Americas, New York, NY 10020 \nwww.SimonandSchuster.com\n\n—|—.
Это начало строки, которая, как и все строки в наборе данных, продолжается на многие тысячи слов и содержит полный текст книги. Но какой книги? Явных меток с названиями, именами авторов или метаданными не было. Только метка «текст», что сводило книги к той функции, которую они выполняют для обучения ИИ. Чтобы идентифицировать записи, я написал еще одну программу для извлечения ISBN из каждой строки. Я ввел эти ISBN в другую программу, которая подключилась к онлайн базе данных книг и получила информацию об авторе, названии и издательстве, которую я просмотрел в электронной таблице. В результате было обнаружено около 190 000 записей: Мне удалось идентифицировать более 170 000 книг — около 20 000 не имели ISBN или отсутствовали в книжной базе данных. (В это число также входят переиздания с другими ISBN, поэтому количество уникальных книг может быть несколько меньше общего числа). Просматривая книги по авторам и издательствам, я начал получать представление о масштабах коллекции.
Из 170 тыс. наименований примерно одна треть — художественная литература, две трети — нехудожественная. Они представлены как крупными, так и небольшими издательствами. В частности, более 30 000 наименований представлены издательством Penguin Random House и его подразделениями, 14 000 — HarperCollins, 7 000 — Macmillan, 1 800 — Oxford University Press и 600 — Verso. В коллекцию вошли художественные и нехудожественные произведения Елены Ферранте и Рейчел Куск. В коллекцию вошли как минимум девять книг Харуки Мураками, пять — Дженнифер Иган, семь — Джонатана Франзена, девять — Белл Хукс, пять — Дэвида Гранна и 33 — Маргарет Этвуд. Также следует отметить 102 романа Л. Рона Хаббарда, 90 книг пастора-креациониста Джона Ф. Макартура, а также многочисленные произведения псевдоистории Эриха фон Деникена «Инопланетяне построили пирамиды». В своем заявлении, направленном по электронной почте, Бидерман, в частности, написал: «Мы тесно сотрудничаем с авторами и правообладателями, чтобы понять и поддержать их взгляды и потребности. В настоящее время мы находимся в процессе создания версии Pile, содержащей исключительно документы, лицензированные для такого использования».
Хотя Books3 не очень известен за пределами сообщества ИИ, он является популярным обучающим набором данных. Сайт Hugging Face обеспечивал его загрузку с сайта Eye более двух с половиной лет; его ссылка перестала работать примерно в то время, когда Books3 упоминался в судебных исках против OpenAI и Meta летом этого года. Академический писатель Питер Шопперт отслеживал ее использование в своей рассылке Substack. Books3 также упоминалась в исследовательских работах компаний Meta и Bloomberg, в которых было объявлено о создании LLaMA и BloombergGPT. В последние месяцы этот набор данных был фактически спрятан на виду, его можно было скачать, но сложно найти, просмотреть и проанализировать.
Другие наборы данных, возможно, содержащие аналогичные тексты, тайно используются такими компаниями, как OpenAI. Шон Прессер (Shawn Presser), независимый разработчик Books3, заявил, что он создал этот набор данных для того, чтобы предоставить независимым разработчикам «обучающие данные уровня OpenAI». Его название является отсылкой к документу, опубликованному OpenAI в 2020 году, в котором упоминались две «интернет-корпорации книг» под названием Books1 и Books2. Этот документ является единственным первоисточником, дающим хоть какие-то сведения о содержании обучающих данных GPT-3, поэтому он тщательно изучается сообществом разработчиков.
Судя по информации, полученной о размерах Books1 и Books2, можно предположить, что Books1 — это полная продукция Project Gutenberg, онлайнового издателя около 70 000 книг с истекшими авторскими правами или лицензиями, разрешающими некоммерческое распространение. Никто не знает, что находится внутри Books2. Некоторые предполагают, что она взята из коллекций пиратских книг, таких как Library Genesis, Z-Library и Bibliotik, которые распространяются через файлообменную сеть BitTorrent. (Books3, как объявил Прессер после ее создания, — это «все Bibliotik»).
Прессер сказал мне по телефону, что он с пониманием относится к опасениям авторов. Но главная опасность, по его мнению, заключается в монополии богатых корпораций на генеративный ИИ, что даст им полный контроль над технологией, которая меняет нашу культуру: он создал Books3 в надежде, что она позволит любому разработчику создавать инструменты генеративного ИИ. «Было бы лучше, если бы не было необходимости иметь что-то вроде Books3», — говорит он. «Но альтернатива такова, что без Books3 только OpenAI может делать то, что они делают». Для создания набора данных Прессер загрузил копию Bibliotik с сайта The-Eye.eu и обновил программу, написанную более десяти лет назад хактивистом Аароном Шварцем, чтобы преобразовать книги из формата ePub (стандарт для электронных книг) в обычный текст — это необходимо для использования книг в качестве обучающих данных. Хотя некоторые названия в Books3 лишены соответствующей информации об авторских правах, эти удаления, по всей видимости, являются побочным результатом преобразования файлов и структуры электронных книг; Прессер сказал мне, что он не вносил в файлы таких изменений сознательно.
Многие комментаторы утверждают, что обучение ИИ на материалах, защищенных авторским правом, представляет собой «добросовестное использование» — юридическую доктрину, разрешающую использование материалов, защищенных авторским правом, при определенных обстоятельствах, позволяющую пародировать, цитировать и создавать производные произведения, обогащающие культуру. Аргумент индустрии в пользу добросовестного использования основывается на двух утверждениях: что инструменты генеративного ИИ не воспроизводят книги, на которых они обучались, а создают новые произведения, и что эти новые произведения не наносят ущерба коммерческому рынку оригиналов. OpenAI выдвинула свою версию этого аргумента в ответ на запрос Бюро по патентам и товарным знакам США, поступивший в 2019 году. По мнению Джейсона Шульца, директора клиники технологического права и политики Нью-Йоркского университета, этот аргумент является весомым.
Я спросил Шульца, может ли тот факт, что книги были приобретены без разрешения, повредить утверждению о добросовестном использовании. «Если источник неавторизован, то это может быть фактором» — сказал Шульц. Но намерения и знания компаний, занимающихся разработкой ИИ, имеют значение. «Если они не имели представления о том, откуда взялись книги, то, на мой взгляд, это не столь существенный фактор». Ребекка Тушнет, профессор права из Гарварда, поддержала эту мысль и сказала мне, что законодательство «не урегулировано», когда речь идет о делах о добросовестном использовании несанкционированных материалов, и предыдущие дела не дают четкого представления о том, какое решение судья может вынести в будущем.
В определенной степени это история о столкновении культур: технологический и издательский мир уже давно по-разному относятся к интеллектуальной собственности. На протяжении многих лет я являюсь членом сообщества разработчиков программного обеспечения с открытым исходным кодом. Современное движение open-source началось в 1980-х годах, когда разработчик по имени Ричард Столлман был разочарован проприетарным контролем компании AT&T над операционной системой Unix, с которой он работал (Столлман работал в Массачусетском технологическом институте, а Unix была результатом сотрудничества между AT&T и несколькими университетами). В ответ на это Столлман разработал модель лицензирования «копилефт» (copyleft), в соответствии с которой программное обеспечение могло свободно распространяться и модифицироваться при условии, что модификации повторно распространялись с использованием той же лицензии. Лицензия «копилефт» положила начало современному сообществу разработчиков с открытым исходным кодом, в котором разработчики-любители предоставляют свои программы бесплатно. Если их работа становится популярной, они приобретают репутацию и уважение, которые могут быть использованы для получения одной из многочисленных высокооплачиваемых должностей в технологической индустрии. Лично я пользуюсь преимуществами такой модели и поддерживаю использование открытых лицензий на программное обеспечение. Но я также видел, как эта философия и общее отношение к вседозволенности, пронизывающее индустрию, могут привести к тому, что разработчики начнут считать любые лицензии ненужными.
Это опасно, поскольку некоторые виды творческой работы просто не могут быть выполнены без более жестких лицензий. Кто может потратить годы на написание романа или исследование глубокой истории без гарантии контроля над воспроизведением и распространением готового произведения? Такой контроль — часть того, как писатели зарабатывают деньги на жизнь.
Собственническая позиция Meta в отношении LLaMA позволяет предположить, что компания думает так же и о своей собственной работе. После того как в начале этого года произошла утечка модели и она стала доступна для загрузки независимым разработчикам, компания Meta направила против по крайней мере одного из этих разработчиков судебный приказ DMCA, заявив, что «никто не имеет права выставлять, воспроизводить, передавать или иным образом распространять свойства Meta без специального письменного разрешения Meta». Даже после того, как компания Meta сделала LLaMA «открытой», она все еще требовала от разработчиков согласия на лицензию перед ее использованием; то же самое можно сказать и о новой версии модели, выпущенной в прошлом месяце. (Ни Pile, ни Books3 не упоминаются в исследовательской работе, посвященной этой новой модели).
Сейчас, когда интеллектуальная собственность стала цифровой и переходит от человека к человеку, как байты по воздуху, контроль необходим как никогда. Культура пиратства существует с первых дней существования Интернета, и в каком-то смысле разработчики ИИ делают то, что уже стало казаться естественным. Неудобно, что флагманские технологии сегодня создаются за счет массового воровства.
Однако культура пиратства до сих пор способствовала преимущественно личному использованию отдельных людей. Использование пиратских книг в корыстных целях, с целью замены писателей, чьи произведения были похищены, — это уже другая, тревожная тенденция.
Оригинал: The Atlantic