Ученые Института искусственного интеллекта и цифровых наук (Института ИИиЦН) факультета компьютерных наук НИУ ВШЭ разработали модель, которая с точностью до 95% предсказывает, будут ли белки взаимодействовать друг с другом. GSMFormer-PPI использует три типа данных о белке, в том числе и о его поверхности, и анализирует связи между ними, в отличие от предыдущих моделей, где данные просто объединялись. Разработка может ускорить поиск молекулярных механизмов болезней, биомаркеров и потенциальных мишеней для лекарств. Работа опубликована в журнале Scientific Reports.
Почти все процессы в клетке зависят от взаимодействия белков внутри нее. С их помощью клетка передает сигналы, запускает и регулирует химические реакции, образует молекулярные комплексы, необходимые для ее работы. И если такие взаимодействия нарушаются и клетка работает неправильно, это может приводить к заболеваниям.
Поэтому для изучения механизма болезней и поиска мишеней для лечения ученым важно понимать, какие белки могут взаимодействовать друг с другом, а какие нет. Выяснять это экспериментально трудно: если в исследовании рассматриваются десятки или сотни белков, число возможных пар оказывается слишком большим для проверки. Из-за этого биологи используют методы машинного обучения, предсказывающие такие связи по структуре и свойствам молекул.
Исследователи НИУ ВШЭ разработали систему GSMFormer-PPI, которая учитывает три типа данных о каждом из белков в предполагаемой паре: аминокислотную последовательность, трехмерную структуру и свойства молекулярной поверхности. Для их обработки авторы использовали существующие модели, которые переводят эти данные в числовые представления. Аминокислотную последовательность — порядок цепочки аминокислот, из которой построен белок, — анализирует белковая языковая модель. Трехмерная структура белка представляется как граф, где аминокислоты становятся вершинами, а их пространственные контакты — связями. Такое описание обрабатывает графовая нейронная сеть. Также с помощью отдельного алгоритма учитывались свойства поверхности белка — форма и физико-химические характеристики участков, через которые белки распознают друг друга.
Затем эти числовые представления о белках поступали в разработанный авторами трансформерный модуль — нейросеть, которая совместно анализирует разные типы данных о белке. Если в работах других исследователей признаки часто просто объединялись в один вектор, то здесь модель не складывает их механически, а выявляет связи между ними.
«При взаимодействии белков особенно важна их поверхность: именно через нее молекулы распознают друг друга и на ней сосредоточены физико-химические свойства, от которых зависит связывание. В нашей модели мы попытались учесть эту информацию вместе с последовательностью и трехмерной структурой белка, а затем не просто объединить признаки, а дать алгоритму возможность анализировать связи между ними. Именно это и позволило точнее предсказывать белок-белковые взаимодействия», — комментирует один из авторов статьи, директор Центра биомедицинских исследований и технологий Института ИИиЦН ФКН НИУ ВШЭ Мария Попцова.
Чтобы проверить, насколько хорошо работает новая модель, исследователи протестировали ее на наборе данных PINDER — крупной базе известных белковых взаимодействий. В экспериментах GSMFormer-PPI показала точность 95,7% и превзошла популярные графовые модели, например GCN и GAT. Также исследователи провели тест с более простым вариантом GSMFormer-PPI — без модуля, который анализирует связи между разными типами данных. Эта версия работала хуже, что доказывает: дело не только в самих данных о белке, но и в том, как именно модель их сопоставляет.
Дополнительные тесты показали, что для точного прогноза важны все три типа данных: последовательность, пространственная структура и свойства поверхности белка. Когда исследователи поочередно убирали один из компонентов, качество предсказания снижалось. Иными словами, модель работает лучше именно потому, что рассматривает белок сразу на нескольких уровнях. В перспективе такие системы могут помочь быстрее отбирать пары белков при изучении механизмов болезней и поиске мишеней для лекарств.
Работа выполнена при поддержке гранта для исследовательских центров в области искусственного интеллекта Министерства экономического развития РФ, реализуемого на базе НИУ ВШЭ.