МОСКВА, 12 авг – РИА Новости. Молекулярные биологи и математики из "Сколтеха", МФТИ и их коллеги из Индии создали методику, которая позволяет создавать системы машинного обучения, умеющие предсказывать то, какие мутации в молекуле того или иного белка будут вредными. Ее описание было представлено в журнале PLoS One.
«
"В этой работе мы использовали сочетание "одномерной" информации об аминокислотных последовательностях белков и трехмерных данных по их структуре для создания модели, которая позволяет выявлять те замены в мембранных белках, которые непосредственно связаны с различными заболеваниями", ‒ рассказывает Петр Попов из "Сколтеха".
Сложные белковые молекулы в наших организмах состоят из нескольких тысяч аминокислот, чьи цепочки часто бывают закручены в сложную форму благодаря взаимодействиям между отдельными "звеньями" этих пептидных цепей. Пока биологи не до конца раскрыли законы, по которым белки принимают определенную форму, и которые позволяют определять форму молекулы по ее формуле.
Поэтому структуру отдельных белков ученым приходится определять "вручную" – или используя компьютерные симуляции, или же замораживая отдельные молекулы белков при помощи жидкого азота и гелия и "просвечивая" их при помощи сверхмощных рентгеновских лазеров.
Подобные подходы, как отмечают Попов и его коллеги, не позволяют ученым быстро или точно предсказывать то, какие "опечатки" в структуре генов, отвечающих за сборку этих белковых молекул, будут менять характер их работы или никак не скажутся на свойствах этих ферментов, рецепторов или сигнальных веществ. Это значительно усложняет поиск новых мутаций и делает это занятие очень дорогим и долгим увлечением.
Как передает пресс-служба "Сколтеха", российские и индийские математики и биологи значительно упростили эту задачу, создав методику, которая позволяет искать подобные изменения в структуре белков при помощи искусственного интеллекта.
Для этого ученые разработали систему машинного обучения, получившую имя BorodaTM, способную анализировать линейную и трехмерную структуру уже изученных белков, отмечать полезные, нейтральные и вредные мутации и искать общие закономерности в их структуре.
При этом анализе ИИ учитывал не только то, где находятся подобные "опечатки" в ДНК, но и то, как они меняли физические свойства белка, в том числе его гидрофильность, поляризацию, число водородных связей, стабильность и прочие характеристики. Это позволяет алгоритму достаточно быстро и точно учиться предсказывать то, как похожие изменения в структуре других белков будут менять их функцию и свойства.
Для демонстрации его работоспособности ученые "натренировали" систему искать вредные мутации в так называемых трансмембранных белках – пептидах, встроенных в оболочки клеток и играющих важную роль в распознавании "внешних" химических сигналов. Нарушения в их структуре и работе, как правило, очень часто приводят к развитию самых серьезных болезней.
Для обучения ИИ ученые собрали данные о том, как меняется структура и функции примерно шести дюжин подобных молекул при появлении 400 вредных и 150 неопасных мутаций в их структуре. Этот относительно небольшой набор данных помог BorodaTM научиться предсказывать качественные характеристики произвольных мутаций с точностью в 72%.
Как предполагают ученые, качество работы "бороды" можно будет заметно улучшить, если расширить набор мутаций и белков, используемых для обучения. С другой стороны, уже сейчас BorodaTM заметно превосходит остальные системы искусственного интеллекта в предсказании свойств трансмембранных белков, хотя и уступает им при изучении растворимой части пептидов.
Этот недостаток, по мнению Попова и его коллег, можно будет ликвидировать аналогичным способом, расширив набор примеров и адаптировав систему машинного обучения для работы с подобными молекулами. Все это, надеются ученые, ускорит и удешевит поиск мутаций, вызывающих болезни, а также поможет открыть полезные изменения в структуре разных генов.