Исследователи создают первые оптические генеративные модели

Исследователи из Калифорнийского университета в Лос-Анджелесе (UCLA) совершили важный шаг в развитии искусственного интеллекта (ИИ) и фотоники, создав оптические генеративные модели, способные создавать новые изображения, используя физику света вместо традиционных электронных вычислений.

Работа, опубликованная в журнале Nature, представляет новую парадигму генеративного ИИ, которая может значительно сократить потребление энергии, обеспечивая при этом масштабируемое и высокопроизводительное создание контента.

Генеративные модели, включая модели диффузии и большие языковые модели , составляют основу современной революции искусственного интеллекта. Эти системы способны создавать реалистичные изображения, видео и текст, похожий на человеческий, но их быстрое развитие сопряжено с высокими затратами: растущим энергопотреблением, значительным углеродным следом и всё более сложными требованиями к оборудованию. Для работы таких моделей требуется мощная вычислительная инфраструктура, что вызывает опасения по поводу их долгосрочной устойчивости.

Команда Калифорнийского университета в Лос-Анджелесе под руководством профессора Айдогана Озкана выбрала другой путь. Вместо того, чтобы полагаться исключительно на цифровые вычисления, их система выполняет генерационный процесс оптически, используя присущий ей параллелизм и скорость света для создания изображений за один проход. Таким образом, команда решает одну из самых серьёзных проблем ИИ: баланс между производительностью и эффективностью.

Модели объединяют в себе поверхностный цифровой кодер и дифракционный оптический декодер свободного пространства, которые обучаются вместе как единая система. Случайный шум сначала преобразуется в «оптические генеративные семена», которые проецируются на пространственный модулятор света и освещаются лазерным излучением.

Проходя через статический, предварительно оптимизированный дифракционный декодер, этот свет формирует изображения, статистически соответствующие целевому распределению данных. В отличие от цифровых диффузионных моделей, требующих сотен или тысяч итеративных шагов, этот процесс позволяет получить изображение в моментальном режиме, не требуя дополнительных вычислений, помимо начального кодирования с помощью неглубокой цифровой сети и светового освещения.

Для подтверждения своего подхода команда продемонстрировала как численные, так и экспериментальные результаты на различных наборах данных. Модели генерировали новые изображения рукописных цифр, предметов одежды, бабочек, человеческих лиц и даже произведений искусства, вдохновлённых Винсентом Ван Гогом.

Было показано, что оптически сгенерированные результаты статистически сопоставимы с результатами, полученными с помощью продвинутых моделей диффузии, основанных на стандартных метриках качества изображений. Они также создавали многоцветные изображения и произведения искусства высокого разрешения в стиле Ван Гога, что подчёркивает творческий потенциал подхода оптической генеративности ИИ.

Исследователи разработали две платформы: модели моментальной оптической генеративности, которые создают новые изображения за один оптический проход, и итеративные модели, которые имитируют цифровую диффузию для уточнения выходных данных на последовательных этапах. Эта гибкость позволяет выполнять несколько задач на одном и том же оптическом оборудовании, просто обновляя закодированные начальные значения и предварительно обученный дифракционный декодер.

Помимо эффективности и универсальности, команда продемонстрировала, что оптические генеративные модели также могут обеспечивать встроенные функции конфиденциальности и безопасности. Один закодированный фазовый паттерн, сгенерированный из случайного шума, может быть освещен различными длинами волн, при этом каждый канал будет декодироваться только своей уникально подобранной дифракционной поверхностью.

Это обеспечивает безопасную генерацию мультиплексированных изображений, в которых содержимое, мультиплексированное по длинам волн, недоступно без правильного декодера — возможность, невозможная при стандартном декодировании в свободном пространстве из-за перекрестных помех.

Этот физический механизм «замка-ключа» гарантирует, что неавторизованные зрители не смогут восстановить мультиплексированный по длине волны сгенерированный новый контент, доставленный отдельным авторизованным пользователям, что открывает новые возможности для безопасной связи, борьбы с подделками и персонализированной доставки контента.

Исследователи также указывают на потенциал интеграции оптических генеративных моделей в носимые и портативные устройства, где необходимы компактные конструкции с низким энергопотреблением.

Заменив громоздкие модуляторы нанотехнологичными пассивными поверхностями или используя интегрированную фотонику, эти модели можно будет встроить в умные очки, гарнитуры дополненной и виртуальной реальности (AR/VR) или мобильные платформы. Такие реализации позволят создавать генеративный ИИ в режиме реального времени и на ходу, предоставляя пользователям возможность создавать передовой контент непосредственно через носимые и портативные устройства.

Более широкие последствия этого прорыва значительны. Оптические генеративные модели могут снизить энергопотребление ИИ в масштабных системах, делая возможным устойчивое развёртывание и одновременно открывая сверхвысокие скорости вывода. Потенциальные области применения охватывают биомедицинскую визуализацию, диагностику, иммерсивные медиа и периферийные вычисления, где всё более востребован маломощный распределённый ИИ.

«Наша работа показывает, что оптику можно использовать для выполнения масштабных задач генеративного ИИ», — сказал профессор Айдоган Озкан, старший автор исследования.

«Устраняя необходимость в сложных итеративных цифровых вычислениях в процессе вывода, оптические генеративные модели открывают путь к созданию моментальных, энергоэффективных систем ИИ, которые могут преобразовать повседневные технологии».

Заглядывая в будущее, команда представляет себе компактные и недорогие оптические генеративные устройства, созданные на основе достижений в области нанотехнологий и фотонной интеграции. Их способность генерировать разнообразные выходные данные без цифровых «узких мест» может стать основой будущих приложений для безопасной связи, доставки контента с сохранением конфиденциальности и распределенных систем искусственного интеллекта.

Благодаря этой работе исследователи из Калифорнийского университета в Лос-Анджелесе также указали на устойчивое и масштабируемое будущее машинного творчества, сигнализируя о конвергенции фотоники и искусственного интеллекта, которая может преобразовать вычислительную технику в XXI веке.


Автор Станислав Иванов

Контакты, администрация и авторы

ТОП