Главная
Новости

Visual ChatGPT: как работает, варианты использования

Концепция Microsoft — создание универсального помощника, который может справляться с любыми задачами, для этого чат-бот будет использовать сторонние ИИ-модели, на базе Visual Foundation Model (VFM), например, Visual Transformers, BLIP или Stable Diffusion для распознавания изображений или генерации новых.
Благодаря инструменту под названием Prompt Manager, вам не придется создавать сложные описания — общение останется таким же естественным, как и в случае с текстовой версией ChatGPT, а бот станет своеобразным “мостиком” между вами и другими ИИ-моделями.

Ключевые отличия

Взаимодействие с Visual ChatGPT все еще напоминает привычный диалог, но теперь вы с ботом можете еще и пересылать друг другу картинки. Вы описываете, что хотите получить, а бот предлагает изображение. Далее вы можете заменить, убрать или откорректировать отдельные элементы на получившейся картинке, просто указав боту на них новыми фразами в диалоге, а бот, как и ранее, “поймет” по контексту, что именно вы от него хотите. Также можно загрузить боту изображение и попросить отредактировать его.
В примере, опубликованном Microsoft, бот распознает мотоцикл на фотографии, может назвать его цвет и полностью удалить с фото. Также ИИ генерирует простое изображение по описанию и вносит в него правки по указаниям пользователя.

Перспективы использования

Первое, что приходит на ум — создание и редактирование изображений, однако на деле функциональность Visual ChatGPT шире. Теперь бот сможет описать изображение, это будет полезно слабовидящим пользователям. В некоторых простых задачах Visual ChatGPT сможет заменить фоторедакторы, требующие от пользователя специальных знаний и умений.
Наверняка эти опции, помноженные на естественное управление ботом, найдут применение в самых разных сферах деятельности, например, архитектуре, дизайне интерьеров, медицине, а также будут полезны для рядовых пользователей в быту.

Проект на GitHub

Недостатки

Конечно, от Visual ChatGPT все еще нельзя ожидать стопроцентной надежности: бот может ошибиться в распознавании изображений и генерации новых.
К сожалению, с развитием нейросетей мы все меньше можем доверять тому, что видим и слышим в Сети: подобные алгоритмы первоклассно имитируют голоса, подменяют лица на видео и редактируют, а то и просто создают с нуля реалистичные изображения. Впрочем, это всего лишь инструмент и ответственность за его использование все равно лежит на человеке.
Еще одна немаловажная проблема — скорость обработки запросов. На данном этапе системе нужно довольно много времени, чтобы создать изображение или внести в него правки.