Инструмент машинного обучения, который преобразует текстовые подсказки в подробное видео, вызвал ажиотаж и скептицизм.
Автор: Лорен Леффер
Инструмент машинного обучения, который преобразует текстовые подсказки в подробное видео, вызвал ажиотаж и скептицизм.
На первый взгляд клип выглядит как кадры из музыкального клипа или рекламы стильного автомобиля: женщина в солнечных очках идет по ночной улице города в окружении пешеходов и ярко освещенных вывесок. Ее платье и золотые серьги-кольца покачиваются при каждом шаге. Но это не запись для телеролика или музыкального клипа. На самом деле, это не кадры чего-то реального. За экраном женщины не существует, как и улицы.
Все в видео было создано с помощью нового инструмента OpenAI для преобразования текста в видео Sora, новейшего виджета генеративного искусственного интеллекта (GAI) от компании, создавшей Dall-E и ChatGPT. Дайте Sora простое неподвижное изображение или краткую письменную подсказку, и он может создать поразительно реалистичное видео продолжительностью до минуты — то, что было описано как время, необходимое, чтобы сходить за буррито.
OpenAI анонсировала Sora 15 февраля, но еще не представила ее публике. Компания заявляет, что в настоящее время ограничивает доступ избранной группе художников и хакеров «красной команды», которые тестируют генератор на предмет полезного использования и вредоносных приложений соответственно. Но OpenAI поделилась несколькими десятками примеров видеороликов, созданных с помощью нового инструмента, в своем блоге, кратком техническом отчете и профиле генерального директора и основателя Сэма Альтмана в X (ранее Twitter).
С точки зрения продолжительности и реализма, Sora представляет собой новейшее видео, созданное с помощью искусственного интеллекта. «[Мои коллеги и я] очень удивлены, увидев уровень качества, продемонстрированный Sora», — говорит Чон Джун Пак, доцент кафедры электротехники и информатики в Мичиганском университете. Пак разрабатывает методы генеративного трехмерного моделирования с использованием методов машинного обучения. Семь месяцев назад Пак рассказал журналу Scientific American, что, по его мнению, модели искусственного интеллекта, способные создавать фотореалистичное видео только из текста, еще очень далеки от совершенства и требуют серьезного технологического скачка. «Я не ожидал, что видеогенераторы улучшатся так быстро, а качество Sora полностью превзошло мои ожидания», — говорит он сейчас. Он не одинок.
Руслан Салахутдинов, профессор информатики Университета Карнеги-Меллон, также был «немного удивлен» качеством и возможностями Соры. Салахутдинов ранее разработал другие методы генерации видео на основе машинного обучения. Сора, по его словам, «конечно, очень впечатляет».
Появление Соры сигнализирует о том, насколько быстро достигаются определенные достижения в области искусственного интеллекта, подпитываемые миллиардами долларов инвестиций – и этот головокружительный темп также усиливает обеспокоенность по поводу социальных последствий. Sora и подобные инструменты угрожают средствам существования миллионов людей во многих творческих областях. И они выглядят как вероятные усилители цифровой дезинформации.
Что может сделать Sora
Sora генерирует видео продолжительностью до 60 секунд, и OpenAI утверждает, что пользователи могут расширить это время, попросив инструмент последовательно создавать дополнительные клипы. Это немалый подвиг; предыдущие инструменты GAI с трудом поддерживали согласованность между видеокадрами, не говоря уже о подсказках. Но, несмотря на свои возможности, Sora не представляет собой существенного скачка в технике машинного обучения как таковой. «Их алгоритм практически идентичен существующим методам. Они просто увеличили масштаб данных и моделей», — говорит Пак. Это «не обязательно что-то новое», соглашается Салахутдинов. «Это грубый подход».
По сути, Sora — это очень большая компьютерная программа, обученная связывать текстовые субтитры с соответствующим видеоконтентом. С технической точки зрения, Sora — это диффузионная модель (как и многие другие инструменты искусственного интеллекта, генерирующие изображения) с системой кодирования преобразователя, напоминающей ChatGPT. Используя итеративный процесс удаления визуального шума из видеоклипов, разработчики научили Sora выводить результаты из текстовых подсказок. Основное отличие Sora от генератора изображений заключается в том, что вместо кодирования текста в неподвижные пиксели он переводит слова во временно-пространственные блоки, которые вместе составляют полный клип. Google Lumiere и многие другие модели работают аналогичным образом.
OpenAI не опубликовала много информации о разработке или обучении Sora, и компания отказалась отвечать на большинство вопросов Scientific American. Но эксперты, в том числе Пак и Салахутдинов, сходятся во мнении, что возможности модели обусловлены огромными объемами обучающих данных и многими миллиардами параметров программы, работающими на больших вычислительных мощностях. OpenAI заявляет, что для обучения она использовала лицензированный и общедоступный видеоконтент; некоторые ученые-компьютерщики предполагают, что OpenAI, возможно, также использовал синтетические данные, созданные программами разработки видеоигр, такими как Unreal Engine. Салахутдинов соглашается, что это вполне вероятно, учитывая необычно плавный внешний вид изображения и некоторые сгенерированные ракурсы «камеры». По его словам, это сходство с искусственностью видеоигр — лишь одна из причин, почему Sora, хотя и «замечательная», далека от совершенства.
При более тщательном рассмотрении видео идущей женщины выясняется, что некоторые детали неточны. Низ ее платья движется слишком жестко для ткани, а панорама камеры кажется необычайно гладкой. При разрезе крупным планом на платье виден пятнистый узор, которого раньше не было. На некоторых кадрах отсутствует ожерелье, застежки на лацканах кожаной куртки сдвинулись, а сама куртка стала длиннее. Подобные несоответствия всплывают в видеороликах, которыми OpenAI поделилась до сих пор, хотя многие из них, вероятно, были выбраны специально для разжигания ажиотажа. В некоторых клипах целые люди или предметы мебели исчезают или внезапно размножаются в сцене.
Возможности и опасности
Если ИИ-видео будет развиваться так же, как генерация изображений, все эти недостатки вскоре станут гораздо менее распространенными и их будет гораздо труднее обнаружить, говорит Хани Фарид, профессор информатики Калифорнийского университета в Беркли, который с энтузиазмом относится к Sora и другим текст-инструментам для видео. Он видит потенциал «действительно крутых приложений», которые позволят авторам легче задействовать свое воображение. По его словам, такая технология может также снизить барьер для входа в кинопроизводство и другие часто дорогостоящие художественные вещи.
Это «то, о чем мы, как исследователи искусственного интеллекта, мечтали», — говорит Сивэй Лю, профессор информатики в Университете Буффало. «Это большое достижение с научной точки зрения».
Но там, где ученые-компьютерщики видят достижения и потенциал, многие художники, скорее всего, видят воровство. Sora, как и ее предшественники, создающие изображения, почти наверняка содержит некоторые материалы, защищенные авторским правом, в своем хранилище обучающих данных. И программа может копировать или точно имитировать эти работы, защищенные авторским правом, и представлять их как собственный оригинальный, созданный контент. Брайан Мерчант, технологический журналист и автор книги «Кровь в машине», выявил по крайней мере один случай, когда клип Sora очень похож на видео, вероятно, содержащееся в наборе обучающих данных. На обоих видео яркая синяя птица с оперенным гребнем на голове и красными глазами поворачивается в профиль на фоне зеленой листвы.
И, конечно же, существуют более широкие опасения по поводу будущего, в котором факты становится все труднее отделить от вымысла.
Топливо для огня фейковых новостей
Благодаря своей работе по обнаружению дипфейков Фарид прекрасно понимает, как генеративный искусственный интеллект может использоваться в гнусных целях. Как и любой новый быстрый и простой инструмент для создания контента, Sora готова еще больше обострить постоянную проблему онлайн-дезинформации. В настоящее время создание фейковых видеороликов предполагает работу с комбинацией изменений ИИ и реальных кадров. Платформы преобразования текста в видео устраняют потребность пользователя в исходных материалах, ускоряя и расширяя потенциальные злоупотребления. Фарид предупреждает, что такие инструменты, как Sora, могут быть «усиливающим фактором» для вредоносного контента, включающего фейковую порнографию и политическую пропаганду.
У Лю, которая также является экспертом в области цифровой криминалистики, тоже есть опасения, особенно в отношении обычного пользователя социальных сетей, который может прокрутить короткий клип и просмотреть его без тщательного анализа. «Для неосведомленных пользователей видео, созданные ИИ, будут очень обманчивы», — предупреждает он. И для выявления фейкового контента потребуются новые инструменты анализа. Лю и его коллеги опробовали некоторые существующие алгоритмы обнаружения на видео Sora, и он говорит, что «они сработали не очень хорошо».
OpenAI заявляет, что предпринимает шаги, чтобы сделать Sora более безопасной, включая контролируемый выпуск платформы, а также внутреннее тестирование, защиту контента и использование протокола, известного как стандарт Коалиции за происхождение и подлинность контента (C2PA), который использует для этого метаданные, позволяющие легче определить, откуда происходит фрагмент контента. Фарид и Люу согласны с тем, что эти шаги важны, но их недостаточно, чтобы предотвратить весь потенциальный вред. По их словам, для каждой функции безопасности есть обходной путь.
Проверка реальности нереального
Однако дезинформация существует и за пределами Sora, и решение этой проблемы в конечном итоге является социальным, а не техническим вопросом, говорит Ирен Паскетто, доцент Университета Мэриленда, исследующая дезинформацию. Она предупреждает, что преувеличение рисков или возможного вреда от Sora может легко способствовать возникновению ажиотажа вокруг ИИ. У компаний есть финансовый стимул продвигать идеи о том, насколько эффективны их модели, добавляет Паскетто, даже если некоторые люди считают, что эти продукты представляют собой экзистенциальную угрозу обществу.
По ее словам, важно держать вред в контексте и сосредоточиться на первопричинах: хотя Sora упрощает и ускоряет создание коротких видеороликов — в настоящее время доминирующего контента в социальных сетях — это само по себе не создает новой проблемы. Уже существует множество способов манипулировать онлайн-видео. По словам Паскетто, даже публикация реальной записи с неправильной подписью может привести к появлению новых теорий заговора.
Хотя Паскетто отмечает, что для прекращения потока вредоносного онлайн-контента необходимы социальные, законодательные и образовательные решения, она признает, что быстрого решения не существует. В то же время имейте в виду, что объекты, места и люди на видео могут оказаться менее реальными, чем кажутся.
Оригинал: Scientific American