На заре машинного обучения компьютер видел миллионы размеченных фотографий, чтобы научиться отличать кота от собаки. Но что делать, если у вас нет ни единого изображения редкого животного? Сегодняшний искусственный интеллект предлагает удивительный ответ: он может понять, что такое зебра, даже если никогда не видел её фото, если ему объяснить, что это «лошадь в полоску». Этот подход называют нулевым обучением (zero‑shot learning) или «обучением без примеров».
Суть метода в переносе знаний: модель изучает общие представления о предметах на огромных датасетах, а затем сопоставляет новые классы с тем, что она уже знает. Визуальная сеть, которая видела тысячи лошадей, знает форму корпуса, число ног, хвост. Если мы задаём ей текстовое описание «зебра – это лошадь с полосками», она ищет похожие черты и отмечает новые полосы. Модель сопоставляет входное изображение с текстовым описанием в общем семантическом пространстве и выбирает наиболее близкий вариант. В примере из руководства Lightly Zero‑Shot Learning система, не видевшая зебр, успешно распознала их, опираясь на описание, а в обработке текстов та же идея позволяет классифицировать новости по темам без обучения на примерах.
Технология получила новый импульс после выхода модели CLIP от OpenAI. Она обучалась на сотнях миллионов пар «изображение – подпись» и научилась связывать картинки с естественным языком. Исследователи показали, что, чтобы классифицировать фото, достаточно подать на вход названия классов, как подсказки, и модель выдаст ответ без дополнительного обучения. CLIP смогла показать конкурентную точность на наборе ImageNet, не используя ни одного из его миллиона размеченных изображений. Именно поэтому сегодня zero‑shot внедряют в голосовых ассистентах и системах поиска: достаточно описать объект словами, и алгоритм найдёт его среди изображений.
Доцент кафедры искусственного интеллекта Финансового университета Андриянов Н. А. подчёркивает, что нулевое обучение не является чудом, а результатом богатой предварительной подготовки. «Такие модели пропитываются знаниями из огромных корпусов текста и изображений, а затем используют семантические связи. Если объяснить, что зебра похожа на лошадь, но с полосками, модель сделает вывод сама. С одной стороны, это открывает удивительные возможности: можно быстро добавлять новые классы без сбора данных. С другой – точность всё ещё может уступать классическому обучению на тысячах и миллионах примеров, особенно если описание неполное или двусмысленное», – говорит он.
Применение zero‑shot не ограничивается животными. Компьютерное зрение использует его для распознавания редких болезней, опасных предметов или деталей, которые редко встречаются на фотографиях. В обработке языка нулевое обучение помогает анализировать тональность отзывов, классифицировать тексты по темам или выполнять перевод на непривычные языки. В медицинских задачах оно может помочь врачам, подсказывая диагнозы по описанию симптомов, даже если таких пациентов раньше не было.
Однако технология имеет и ограничения. Она полагается на качество семантических описаний и предобученных представлений. Если модель не знакома с некоторыми понятиями или описание слишком общее, результат окажется неточным. Кроме того, глубокое понимание контекста пока остаётся сложной задачей: модели могут ошибиться, перепутав «полоску» на зебре с тенью на фотографии. Поэтому исследователи продолжают совмещать zero‑shot с few‑shot‑подходами, когда для новых классов добавляют хотя бы несколько примеров.
Нулевое обучение показывает, что искусственный интеллект уже умеет «читать между строк» и экстраполировать от известного к неизвестному. В ближайшие годы мы увидим новые приложения: от поиска по изображениям по произвольному описанию до помощи людям с ограниченными возможностями. Главное – понимать, что чудеса достигаются не волшебством, а тщательной работой с данными и внимательным отношением к ограничениям технологии.