Агентный ИИ представляет собой существенный шаг в развитии от чат-ботов без сохранения состояния к сложным рабочим процессам, и для его масштабирования требуется новая архитектура памяти.

По мере того, как базовые модели масштабируются до триллионов параметров, а контекстные окна достигают миллионов токенов, вычислительные затраты на запоминание истории растут быстрее, чем способность ее обрабатывать.

Организации, внедряющие эти системы, теперь сталкиваются с проблемой узкого места, когда огромный объем «долговременной памяти» (технически известной как кэш-память типа «ключ-значение» (KV)) перегружает существующие аппаратные архитектуры.

Существующая инфраструктура ставит перед выбором два варианта: хранить контекст вывода в дефицитной, высокоскоростной памяти графического процессора (HBM) или использовать для этого медленное, универсальное хранилище. Первый вариант непомерно дорог для больших контекстов; второй создает задержки, которые делают невозможным взаимодействие агентов в реальном времени.

Для решения проблемы растущего разрыва, сдерживающего масштабирование агентного ИИ, компания NVIDIA представила платформу Inference Context Memory Storage (ICMS) в рамках своей архитектуры Rubin, предложив новый уровень хранения, специально разработанный для обработки временного и высокоскоростного характера памяти ИИ.

Внедрение этой архитектуры требует изменения подхода ИТ-команд к сетевым решениям для хранения данных. Платформа ICMS использует технологию NVIDIA Spectrum-X Ethernet для обеспечения высокоскоростного соединения, необходимого для обработки флэш-памяти практически как локальной памяти.

Для команд, занимающихся корпоративной инфраструктурой, точкой интеграции является уровень оркестровки. Такие фреймворки, как NVIDIA Dynamo и Inference Transfer Library (NIXL), управляют перемещением блоков ключ-значение между уровнями. Эти инструменты взаимодействуют с уровнем хранения, чтобы гарантировать загрузку правильного контекста в память графического процессора или память хоста именно тогда, когда это требуется модели ИИ. Фреймворк NVIDIA DOCA дополнительно поддерживает это, предоставляя уровень связи ключ-значение, который рассматривает кэш контекста как ресурс первого класса.

О переосмыслении инфраструктуры для масштабирования агентного ИИ в контексте появления платформы ICMS рассказывает доцент кафедры искусственного интеллекта Финансового университета при Правительстве Российской Федерации Емельянова Наталия Юрьевна:

Внедрение выделенного уровня контекстной памяти влияет на планирование мощностей и проектирование центров обработки данных. Руководители ИТ-отделов должны понимать, что кэш ключ-значение представляет собой уникальный тип данных. Он является «временным, но чувствительным к задержкам», в отличие от «долговечных и неактуальных» данных, необходимых для соблюдения нормативных требований. Успех зависит от программного обеспечения, способного интеллектуально размещать рабочие нагрузки. Система использует оркестровку с учетом топологии сети (через NVIDIA Grove) для размещения заданий вблизи их кэшированного контекста, минимизируя перемещение данных по сети. Размещая больше полезной мощности на той же площади стойки, организации могут продлить срок службы существующих объектов. Однако это увеличивает плотность вычислительных ресурсов на квадратный метр, что требует адекватного планирования охлаждения и распределения электроэнергии.

О переходе к агентному ИИ рассказывает профессор кафедры искусственного интеллекта Финансового университета при Правительстве Российской Федерации Емельянов Виталий Александрович:

Переход к агентному ИИ требует физической переконфигурации центра обработки данных. Преобладающая модель полного отделения вычислительных ресурсов от медленного, постоянного хранилища несовместима с потребностями ИИ-агентов с фотографической памятью в оперативном доступе. Внедрение специализированного контекстного уровня позволяет предприятиям отделить рост объема памяти модели от стоимости памяти графического процессора (GPU HBM). Такая архитектура для агентного ИИ позволяет нескольким ИИ-агентам совместно использовать огромный пул маломощной памяти, что снижает затраты на обработку сложных запросов и повышает масштабируемость за счет обеспечения высокопроизводительного рассуждения. По мере того, как организации планируют следующий цикл инвестиций в инфраструктуру, оценка эффективности иерархии памяти будет столь же важна, как и выбор самого графического процессора.

Другие пресс-релизы