Парадигма контрэволюции моделей машинного обучения

Незакономерное развитие моделей машинного обучения, а крайне взрывное движение по эволюции моделей машинного обучения, ставит множество вопросов перед разработчиками. Уже сейчас, вопросы касаются не столько софтовой части и разработки ПО, а напрямую хардовой части и расчёта серверных ресурсов, задействованных на просчёт моделей машинного обучения и систем с использованием ИИ. Уже сейчас появляются аналитические сводки, по данным Телеграм пабликов, что грамм SSD стоит дороже, чем грамм золота. Всё это происходит на фоне ИИ-бума и дефицита памяти: 8-терабайтный NVMe-накопитель весит около 8 граммов и стоит 1500 $ и выше, тогда как золото сейчас оценивается примерно в 148 $ за грамм — слиток того же веса обошёлся бы около 1150 $. Более того, последнее неуклонно растёт, уже более чем два года в подряд, а вместе с ним растут медь (системы охлаждения), серебро (электрические контакты в серверных системах), литий (батареи питания), уран (топливо для АЭС) и ряд других металлов и компонентов, задействованных в серверных системах. По данным мировых финансовых бирж, долгосрочные контракты на уран подскочили до 86 $ за фунт — это максимум с 2008 года и потребности в топливе ещё удвоятся к 2040 году (до 150 000 тонн в год), а старые шахты истощаются. Если посмотреть фьючерсы на все остальные материалы, они также бьют все рекорды. Видя, как идёт развитие и эволюция моделей особого спада, пока не предвидится, кроме того, намечаются уже новые тренды, такие как квантово-гибридное машинное и нейроморфное обучение, как указано в статье Expressive Quantum Perceptrons for Quantum Neuromorphic Computing от Rodrigo Araiza Bravo, Taylor L. Patti и Khadijeh Najafi.

Так, по мнению старшего преподавателя кафедры “Искусственного интеллекта” Финансового университета при Правительстве РФ, Миронова Владимира Олеговича, говоря, в целом о механике и внутренней кухне ИИ, было замечено, что развитие идёт по нескольким векторам сразу и во многом это связано больше с внутренней эволюцией сетей, чем с внешней. Это положение отражено в виде отдельной главы в работе Distributionally Robust Optimization за авторством Daniel Kuhn, Soroosh Shafiee и Wolfram Wiesemann.

Рост цен на энергоресурсы и стремительное движение алгоритмической составляющей (самоэволюции сетей, по данным проекта Sakana.ai, у них есть отличная работа ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution), говорит, что сейчас идёт пересмотр устоявшейся парадигмы для самих сетей: хранение – анализ – обработка – тестирование – предсказание к более функциональному подходу, когда сеть выполняет только своё прямое назначение: составление предикшена, в то время как у неё появляются много “обслуживающего персонала”. При этом уже появляются узконаправленные сборки, такие как Agent Skills for Context Engineering. Эти сборки представляют собой обширный открытый набор навыков для агентов, основанный на принципах контекстной инженерии для создания систем ИИ-агентов производственного уровня.

Исходя из вышесказанного на текущий момент видятся следующие пути развития:

Во-первых: разработка внутренней базы данных для нейросетей с определением алгоритмов индексирования данных и поиска новых структур хранения самих данных; Во-вторых: снижение энергозатрат на работу сети и более плотная упаковка самой структуры сети с множественным переиспользованием нейронов и применение нейроморфной архитектуры; В-третьих: пересмотр самого понятия архитектуры данных и снижение вычислений на самих данных к переходу вычислений между блоками данных; В-четвёртых: пересмотр самого смысла о постоянстве сети, как некого статичного алгоритма, а сдвиг в сторону адаптации вычислительной архитектуры к возможностям железа и потребностям задачи, а так в постоянной работе и вычислениям по запросу; В-пятых: погружение в исследования для формирования новых путей обучения моделей посредством активной работы с архивами, редкими и маломерными данными, а также “мёртвыми” данными; В-шестых: введение нового понятия “эпиплексия” - новую метрику из теории информации, которая оценивает объём структурной информации, доступной *вычислительно ограниченному* наблюдателю, для формирования понятия о конечности модели (программы) и процесса обучения (вычислений). Это понятие отражено в работе From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence за авторством Marc Finzi, Shikai Qiu, Yiding Jiang.

Резюмируя, можно сказать, что системы эволюционируют в сторону более адаптивных моделей, благо, мультиагентый подход, как мы увидели, этому очень поспособствовал. Исходя из этого встаёт резонный вопрос: а достаточен ли тот язык, на котором мы сейчас с чат-ботами общаемся посредством промптов, или требуется выработка новой формы взаимодействия? По аналогии с языками программирования, такой системы уже недостаточно, так как изначально была переменная, затем появились функции и классы, после этого настал черёд шаблонам проектирования и процедурам рефакторинга, именно для “разворачивания” более сложных систем.

Исходя из этого, мы в своей статье (Типология мышления в аналитической культуре больших языковых моделей (Часть_1), Миронов В.О., Кальченко С.Н.) предложили задуматься над выработкой нового языка общения с моделями и рассматривать системы, осуществляя переход к ним с позиции топологического подхода, именно, в парадигме формирования промптов. Во время наших исследований мы попытались понять, как большие языковые модели воспринимают язык и поняли, что вместо рассмотрения векторов и матричных представлений необходимо уже переходить к анализу топологической структуры сети и изучению смысла слов и понятий. Этот подход позволяет анализировать динамическое изменение смысла слов в зависимости от контекста и окружения. Более того, мы увидели, что сеть “мыслит” не объектами, а словоформами, причём у них есть несколько метрик – это значение и время сохранения этого значения в контексте окружения. Также мы подняли вопросы о формировании новой ветки в развитии сетей, когда у нас начинаются формироваться технико-биологические системы и формируется полные цифровые образы реальных людей и их бесконечных вариативных копий, а также вопросы ментального здоровья.

Уже сейчас мультиагентные системы стали, де-факто, в любой системе как некое должное, как новый слой обязательной разработки и настал черёд оркестраторов мультиагентов, следовательно, и вопросы FinOPS уже спустились ещё ниже: от разработчиков к мультиагентам и внедрению в оборот нейроморфных систем. Здесь многое будет браться опять же из биологических систем, таких представлений у нас более чем хватает, остаётся вопрос, как это встроить в наши технические системы. Например, акула-молот (лат. Sphyrna zygaena) по данным последних исследований для сохранения энергоэффективности плавает на боку под строго определённым углом; волки (лат. Canis lupus) во время бега, при подпрыгивании, максимально расслабляют половину тела, не задействованную в беге в данную секунду, тем самым снижая мышечный тонус неактивной части тела, такое же поведение характерно и для дельфинов такие механизмы позволяют живым системам экономить значительное количество энергии. Более того, такие системы уже активно разрабатываются, например, проект codex.flywire.ai.

Смысл всего вышесказанного, заключается в том, что развитие сетей говорит нам о том, что постоянная “накачка” новыми параметрами для систем уже неактуально на текущем этапе и стоит переходить к более плотной упаковке самих систем и переиспользовать ресурсы внутри самих себя. Отсюда и название заметки: “контрэволюция”, которое сводится к тому, что текущий алгоритмический уровень нейросетей близок к выработке или уже практически выработан, настало время наращивать иерархию сетей и переходить к новым алгоритмам.

Другие пресс-релизы