Биологическая информатика) представляет собой совокупность методов и подходов, включающих в себя: математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика); разработку алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика), исследование стратегий и создание вычислительных методологий управления биологическими системами.
В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях фундаментальной науки. Эта наука появилась в 1970 г., когда, опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, Полина Хогевег ввела этот термин, определив его как изучение информационных процессов в биотических системах.
В качестве примеров биологических информационных процессов, изучавшихся в первые годы существования биоинформатики, можно привести сложные структуры социального взаимодействия по простым поведенческим правилам, а также хранение и техническое обслуживание информации в моделях биогенеза и абиогенеза.
В начале геномной революции термин «биоинформатика» был открыт заново, и обозначал создание и техническое обслуживания базы данных для хранения биологической информации, такой как последовательности нуклеотидов. Создание таких баз данных включало в себя создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые.
Главная цель биоинформатики – способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов, алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей, нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка, предсказания экспрессии генов и взаимодействий «белок–белок», полногеномного поиска ассоциаций и моделирования процессов эволюции. Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов
и теории для решения многих практических и теоретических проблем, возникающих при управлении биологическими процессами и анализе биологических данных. Таким образом, современная генетика, эволюционная биология, вычислительная биология и другие информационно-ёмкие отрасли фундаментальной биологии нуждаются в методах информатизации и компьютеризации, алгоритмизации и программирования, информационных технологиях, без которых немыслима сама обработка данных.
Анализ генетических последовательностей. C тех пор как в 1977 году был расшифрован (секвенирован) фаг Phi–X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков.
Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом, могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска, по геномам, тысяч организмов, состоящих из миллиардов пар нуклеотидов, используются компьютерные программы. Программы могут однозначно сопоставить похожие последовательности ДНК в геномах разных видов; часто такие последовательности имеют сходные функции, а различия возникают в результате мелких мутаций, таких, как замены отдельных нуклеотидов, вставки нуклеотидов, и их выпадения (удаления). Один из вариантов такого выравнивания применяется при самом процессе секвенирования.
Техника дробного секвенирования была использована Институтом генетических исследований для расшифровки (секвенирования) первого бактериального генома вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600–800 нуклеотидов). Концы фрагментов накладываются друг на друга и совмещаются, что даёт полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть очень сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодня.
Другим примером компьютерного анализа генетических последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. В геномах высших организмов большие сегменты ДНК не кодируют белки, и их функциональная роль неизвестна. Разработка алгоритмов выявления участков генома, кодирующих белки, является важной задачей современной биоинформатики.
Биоинформатика помогает связать геномные и протеомные проекты, помогая идентифицировать белки в последовательности ДНК.
Аннотация геномов. В контексте геномики аннотацией называется процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 г. Оуэном Уайтом, работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии. Доктор Уайт построил систему для нахождения генов, РНК и других объектов ДНК, и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, и эти программы постоянно развиваются и улучшаются.
Вычислительная эволюционная биология. Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Биологическая информатика помогает эволюционным биологам и генетикам в нескольких аспектах:
_ изучать эволюцию всего многообразия организмов, обитающих на Земле, измеряя в них изменения ДНК;
_ сравнивать целые геномы, что позволяет изучать комплексные эволюционные события, происходящие в биологической истории Земли: дупликацию генов, латеральный перенос генов, бактериальные факторы;
_ строить компьютерные модели биологических популяций для изучения развития биосистемы во времени;
_ отслеживать публикации по эволюции большого количества видов.
Область компьютерных наук, использующая генетические алгоритмы для решения биологических задач, также связана с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений. Принцип исследований основывается на эволюционных методах и принципах, таких, как репликация, диверсификация, рекомбинация, мутация, выживание в естественном отборе.
Оценка биологического разнообразия. Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля.
Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации. Компьютерные симуляторы моделируют популяционную динамику, вычисляют общее генетическое здоровье биологической культуры в агрономии.
Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью исчезнут.
Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия – таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.
Биоинформатика и вычислительная биология. Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. Под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. Термины биоинформатика и вычислительная биология указывают на разработку алгоритмов и конкретные вычислительные методы. Использование вычислительных методов в биологии связано также с математическим моделированием биологических процессов.
Биоинформатика использует методы прикладной математики, статистики и информатики. Исследования в вычислительной биологии пересекаются с системной биологией. Основные усилия исследователей направлены на изучение геномов, анализ и предсказание структуры белков, взаимодействий молекул белка друг с другом и другими молекулами, что необходимо для реконструкции эволюционных процессов.