Добавь сайт в закладки нажми CTRL+D
Метод может ускорить аннотирование геномов организмов, для которых пока отсутствуют детальные биологические данные.
Искусственный интеллект013:44
Российская нейросеть GENATATOR автоматизирует разметку генов в ДНК, и это может значительно ускорить создание генетических карт для недостаточно изученных организмов. Модель, разработанная учеными из Института AIRI, анализирует последовательность ДНК, определяя границы генов, их тип и внутреннюю структуру, что является непростой задачей из-за отсутствия у генов универсальных маркеров начала и конца.


В отличие от традиционных методов, основанных на жестких правилах, новая система применяет машинное обучение на обширных наборах геномов. Это дает ей возможность обнаруживать не только белок-кодирующие области, но и сложные для анализа гены длинных некодирующих РНК. Модель функционирует поэтапно: сначала прогнозирует границы, затем проверяет участки, классифицирует их и уточняет внутреннюю структуру, отделяя экзоны от интронов.
Технология особенно ценна для «немодельных» организмов, для большинства из которых имеются лишь «сырые» сборки генома без аннотаций. В ходе тестирования GENATATOR, обученная на генах человека и 38 видах млекопитающих, успешно применила свои закономерности к совершенно иным организмам, таким как плодовая мушка, растение и дрожжи. Кроме того, система смогла выявить редкие «ядовитые» экзоны, которые при включении приводят к деградации РНК-молекулы.
Как отметили в AIRI, точность определения границ критически важна, так как ошибка всего в один нуклеотид может привести к сдвигу рамки считывания и полностью исказить предсказание структуры белка. Для оценки и сравнения качества модели создан открытый лидерборд, где она демонстрирует наилучшие результаты по ряду метрик. Модели можно найти по ссылке на Hugging Face.
VerKoИсточники:AIRIИскусственный интеллект0РоссияИИ13:44
ИсточникПоделись видео:
