В современном технологическом ландшафте наблюдается глобальный рост интереса к разработке метавселенных. Согласно аналитическим оценкам McKinsey & Company, капитализация мирового рынка метавселенных достигает приблизительно 0,7–1 трлн долларов США.
Концепция метавселенной была впервые представлена в научно-фантастическом произведении Нила Стивенсона «Лавина» (1992 г.). В романе описывалось киберпространство, представляющее собой эволюционную ступень развития интернета, где пользователи, используя аватары, могли постоянно находиться в виртуальном пространстве, совершать покупки, получать информацию и осваивать цифровые территории. Для постоянного подключения к этой среде применялись шлемы и очки виртуальной реальности, а также другие устройства.
Современные метавселенные, включая такие платформы, как VRChat, Roblox, Neos, Resonite и Cluster, представляют собой интерактивные виртуальные пространства, где участники могут общаться, совместно работать и производить контент в трёхмерной среде. Ключевым элементом этих систем является пользовательский контент, позволяющий проектировать и распространять виртуальные миры, объекты и уникальный опыт. Тем не менее, создание динамичных и интерактивных 3D-объектов остаётся трудной задачей для многих пользователей из-за необходимости освоения специализированного программного обеспечения для 3D-моделирования, такого как Blender, и наличия навыков программирования для реализации интерактивности в таких средах, как Unity или Unreal Engine. Эти препятствия ограничивают вовлечённость широкой аудитории и снижают разнообразие контента в метавселенных.
Стимулом к развитию метавселенных стало совершенствование технологий виртуальной реальности, которые обеспечили погружение пользователей в интерактивные пространства, где они взаимодействуют с помощью аватаров и создаваемого контента. Платформы, подобные VRChat, Roblox и Cluster, привлекли многомиллионную аудиторию по всему миру благодаря детализированным трёхмерным средам.
Современные разработки в области больших языковых моделей и генеративного искусственного интеллекта открывают новые возможности для автоматизации создания контента. Эти нейросети обучаются на обширных наборах данных, содержащих соответствия между текстовыми описаниями и трёхмерными моделями. Вместо создания геометрии «с нуля» модель прогнозирует форму объекта, обеспечивая интерактивный процесс уточнения характеристик на основе вербальных инструкций пользователя. Однако внедрение подобных технологий в метавселенные связано с рядом сложностей.
Первой проблемой является обеспечение совместимости созданных объектов со спецификациями конкретных платформ, что требует учёта различий в файловых форматах, процессах визуализации и механизмах взаимодействия.
Второй вызов заключается в преобразовании текстовых описаний на естественном языке в функциональные 3D-модели с точным поведением, что требует координации нескольких моделей ИИ, каждая из которых имеет индивидуальные ограничения по точности визуализации и трёхмерной реконструкции.
Третья трудность — определение интерактивных сценариев между созданными объектами и пользователями, что осложняется отсутствием универсальных соответствий между объектами и шаблонами взаимодействия.
В настоящее время уже существуют системы, например MagicCraft, которые позволяют пользователям на основе текстовых запросов создавать готовые к использованию 3D-объекты для метавселенных. Такие системы управляют всем процессом создания контента: генерацией изображений по тексту, преобразованием их в трёхмерные модели, прогнозированием поведения объектов и назначением соответствующих атрибутов и скриптов. Кроме того, предоставляется интерактивный интерфейс для корректировки созданных объектов, включая изменение ориентации, масштаба, положения и точек взаимодействия.
Подобные решения уже интегрированы в коммерческие платформы метавселенных, совокупная аудитория которых превышает 35 миллионов пользователей.
Следует отметить, что современная технология генерации 3D-моделей по текстовым описаниям имеет ряд ограничений. В частности, остаются сложности с моделированием полых объектов, созданием сложных многокомпонентных сцен и объектов.
Одной из перспективных областей применения данной технологии является использование в целях предупреждения и ликвидации последствий чрезвычайных ситуаций. Например, в случае пожара в здании для установления причины и очага возгорания может быть использовано описание очевидца: «Пламя сначала пошло из-за стойки с какими-то коробками в углу торгового зала. Рядом была дверь в подсобку, а над ней висела большая синяя вывеска. Зал был прямоугольным, кассы слева от входа, стойка с товарами в дальнем правом углу». На основе этих данных формируется примерная планировка помещения: воссоздаётся базовая геометрия зала, расставляются мебель и стойки. Очевидцу демонстрируется 3D-модель с различных ракурсов, уточняются форма и содержимое коробок. Затем модель интегрируется в программу моделирования распространения пожара, после чего запускается симуляция возгорания в указанной точке. Это позволяет проверить соответствие показаний очевидца реальной динамике развития пожара, зафиксированной пожарными.
Под руководством профессора кафедры «Безопасность жизнедеятельности» Финансового университета при Правительстве РФ, доктора технических наук М.А. Шахраманьяна, ведутся исследования по применению технологии создания 3D-моделей по словесным описаниям свидетелей для моделирования и анализа различных чрезвычайных ситуаций.
В заключение можно констатировать, что генерация трёхмерных моделей по текстовым описаниям стала технологической реальностью. Тем не менее, для создания сложных многокомпонентных сцен или объектов со сложной механикой, помимо использования искусственного интеллекта, на текущем этапе требуется участие человека-оператора.