Модели искусственного интеллекта испытывают трудности с простым умножением без специальных методов обучения


В наши дни большие языковые модели способны справляться со все более сложными задачами, писать сложный код и применять изощренные рассуждения. Но когда дело доходит до умножения четырёхзначных чисел, задачи, изучаемой в начальной школе, даже самые современные системы терпят неудачу. Почему?

В новой статье, опубликованной на препринт-сервере arXiv аспирантом факультета компьютерных наук Чикагского университета Сяоянем Баем и соруководителем исследовательской инициативы по новым интеллектуальным решениям Института науки о данных Ченхао Таном, ответы находятся путём обратного проектирования неудач и успехов.

Они работали в сотрудничестве с коллегами из Массачусетского технологического института, Гарвардского университета, Университета Ватерлоо и Google DeepMind, чтобы исследовать « неровные границы » искусственного интеллекта — термин, обозначающий его способность преуспевать в сложных рассуждениях, но при этом спотыкаться на, казалось бы, простых задачах.

Как вы, возможно, помните (или забыли), умножение больших чисел требует переноса цифр и мысленного «удержания» частичных произведений, чтобы затем сложить их и получить итоговую сумму. Процессы, требующие хранения информации для последующего использования таким образом, называются «дальними зависимостями».

Стандартные большие языковые модели работают, обучаясь распознавать закономерности в данных, на которых они обучаются. Но чем сложнее задача, тем меньше вероятность того, что модель её конкретно обнаружила. Так как же научить модель не просто запоминать ответы, а осваивать процесс?

Почему стандартное обучение терпит неудачу

Модели часто обучаются новым задачам с помощью процесса, известного как стандартная тонкая настройка, который основан на масштабировании обучающих данных или добавлении дополнительных шагов или «слоев».

Но даже когда исследовательская группа тестировала модели с двумя слоями и до 12 слоями, все они показали точность менее 1% при умножении двух четырёхзначных чисел. Стандартные подходы явно не справлялись, и исследователи хотели понять, почему.

Они обнаружили, что при стандартном подходе модели сходятся к «локальному оптимуму», или тому, что они определяют как наилучшее решение в каждом наборе данных. Но такие задачи, как умножение многозначных чисел, требуют от модели способности запоминать предыдущие вычисления при одновременном получении последующих цифр.

Без архитектуры, способной хранить и извлекать промежуточную информацию, модель застревает, не в силах выйти за пределы локального оптимума — независимо от того, как долго она обучается или насколько масштабируется.

Далее исследователи выявили модель, обученную с использованием другого метода: неявной цепочки мыслей (ICoT).

В то время как стандартная тонкая настройка давала точность менее 1%, модель ICoT смогла достичь 100% точности. Чтобы понять, чем этот подход отличается, команда проанализировала оба варианта и выявила ряд фундаментальных закономерностей.

Во-первых, они увидели, что модель ICoT учится запоминать то, что действительно важно.

В отличие от стандартной модели тонкой настройки, модель ICoT научилась отслеживать эти долгосрочные зависимости, или информацию, которую она постепенно собирала для решения задачи. Команда проверила это, протестировав, могут ли они расшифровать промежуточные значения, такие как текущие суммы, из внутренних состояний модели. В модели ICoT они могли это сделать, а в стандартной модели — нет.

Метод ICoT постепенно исключает промежуточные этапы рассуждений в процессе обучения, в некотором смысле заставляя модель усваивать процесс рассуждений в своих скрытых состояниях, а не полагаться на явные пошаговые токены.

Далее они увидели, что модель ICoT организует своё внимание по различным путям во времени.

Представьте это как хорошо организованную систему хранения данных: на ранних уровнях модель вычисляет произведения пар цифр и сохраняет их в определенных местах. На более поздних уровнях она извлекает именно те значения, которые необходимы для вычисления каждой цифры окончательного ответа. В результате получается эффективная внутренняя структура для выполнения умножения, которая никогда не возникает в стандартной модели.

Наконец, и, пожалуй, самое примечательное, исследователи обнаружили, что модель ICoT внутренне представляет эти операции с помощью элегантных структур. Вместо того чтобы рассматривать цифры только как символы, модель кодирует их в виде волнообразных паттернов, известных как базисы Фурье, и организует свои арифметические операции визуальным, пространственным способом.

При умножении пар цифр модель использует естественную геометрическую операцию, называемую суммой Минковского — операцию, которую исследователи не программировали, а которая возникла естественным образом в процессе обучения модели ICoT. Как будто успешная модель вывела свой собственный эффективный математический язык для арифметических операций.

Простое решение

Исследователи предположили, что если стандартные модели тонкой настройки терпят неудачу из-за отсутствия необходимых встроенных указаний, то предоставление правильного обучающего сигнала должно это исправить. Для проверки этого команда предложила простое решение: дополнительную обучающую цель, которая учит модель отслеживать текущие суммы на каждом шаге, позволяя ей переносить промежуточные значения и частичные произведения.

Оказалось, что добавление всего одного элемента к двухслойной модели, которая полностью провалилась при стандартном обучении, решило проблему. Результат: 99% точности без явного контроля за цепочкой рассуждений.

Изучив модели паттерны внимания, исследователи обнаружили, что она освоила механизмы, аналогичные механизмам ICoT, — структуры, которые хранят и извлекают частичные результаты по мере необходимости. Модель также разработала дополнительные стратегии, включая способ отслеживания нескольких пар цифр одновременно.

Новый интеллект

Хотя умножение может показаться специфическим видом задачи, полученные результаты освещают фундаментальные аспекты того, как большие языковые модели учатся и «думают».

Проблема зависимости на больших расстояниях не уникальна для арифметики — она встречается во всем языковом моделировании и других задачах последовательного выполнения. Подход команды из Чикагского университета задает фундаментальные вопросы о различиях между запоминанием и обучением, а также о том, какие архитектурные ограничения способствуют или препятствуют производительности моделей.

«Поскольку искусственный интеллект все больше интегрируется в процессы принятия важных решений, крайне важно понимать его уникальные способы обучения и мышления», — сказал Тан. «Наше исследование направлено на изучение этой области».

Основной вклад этой статьи: архитектурные решения и методы обучения могут преодолеть препятствия, которые невозможно устранить одним лишь масштабированием. Ключ к развитию возможностей ИИ — это правильное встроенное руководство, а не просто дополнительные параметры или данные.

Хотя решение проблемы умножения зависит от конкретной задачи, исследователи предполагают, что в будущих работах будут разработаны более общие подходы к улучшению обучения в задачах, требующих от моделей отслеживания информации на протяжении многих этапов.


Автор Станислав Иванов

Контакты, администрация и авторы

ТОП