The Verge: нейросеть теперь может вас слышать

Автор: Эмилия Дэвид

Gemini 1.5 Pro теперь находится в стадии публичного тестирования

Обновление Gemini 1.5 Pro от Google наделило модель слухом. Теперь модель может прослушивать загруженные аудиофайлы и извлекать информацию из аудиоматериалов, без необходимости обращаться к письменному транскрипту.

Во время мероприятия Google Next компания Google также объявила, что впервые сделает Gemini 1.5 Pro доступной для общественности через свою платформу для создания приложений искусственного интеллекта Vertex AI. Впервые Gemini 1.5 Pro был анонсирован в феврале.

Новая версия Gemini Pro, которая должна стать средней по весу моделью семейства Gemini, уже превосходит по производительности самую большую и мощную модель Gemini Ultra. Gemini 1.5 Pro может понимать сложные инструкции и избавляет от необходимости точной настройки моделей, утверждают в компании.

Gemini 1.5 Pro недоступен для людей, не имеющих доступа к Vertex AI и AI Studio. Сейчас большинство людей знакомятся с языковыми моделями Gemini через чат-бот Gemini. Gemini Ultra работает с чатботом Gemini Advanced, и хотя он мощный и способен понимать длинные команды, он не такой быстрый, как Gemini 1.5 Pro.

Gemini 1.5 Pro — не единственная крупная модель ИИ от Google, получившая обновление. Imagen 2, модель генерации текста в изображение, которая помогает Gemini генерировать изображения, также добавит функции inpainting и outpainting, которые позволяют пользователям добавлять или удалять элементы из изображений. Google также сделал функцию цифрового водяного знака SynthID доступной для всех изображений, созданных с помощью моделей Imagen. SynthID добавляет на изображения невидимый для зрителя водяной знак, который отмечает их происхождение при просмотре с помощью инструмента обнаружения.

Многие из новых функций Imagen, особенно инпайтинг и аутпайтинг, уже были частью других моделей преобразования текста в изображение, таких как Stability AI от Stable Cascade и Generative AI от Getty by iStock, не говоря уже о более широкой доступности на новых телефонах Samsung Galaxy.

Google утверждает, что в настоящее время также разрабатывается способ привязки ответов искусственного интеллекта к поиску Google, чтобы он отвечал на вопросы, используя актуальную информацию. Это не всегда возможно в ответах, создаваемых большими языковыми моделями, иногда ограничение введено намеренно: Google специально не давал Gemini отвечать на вопросы, связанные с выборами в США в 2024 году.

Недавно Gemini также подвергся критике за создание фотографий с исторически неточными людьми.

Оригинал: The Verge

Похожие Записи

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Последние <span>истории</span>

Поиск описаний функциональности, введя ключевое слово и нажмите enter, чтобы начать поиск.