Начало XXI века ознаменовано выходом в свет прекрасной книги Mathematical Models in Biology An Introduction / Elizabeth S. Allman, University of Southern Maine, John A. Rhodes, Bates College, Maine, содержащей обзор достижений века предшествующего, которая легла в основу данного издания, поэтому если уже знакомы с ней, то мне вас практически нечем удивить. В противном случае – добро пожаловать в чудесный мир тесного переплетения идей биологии, криптографии, абстрактной общей алгебры, конкретной дискретной математики и вероятностной математической статистики, на пользу бурно развивающейся ныне биоматематики. Хотите узнать в чём практический смысл вычисления собственных значений и собственных векторов матриц? Как определяется доля населения, которая должна быть успешно вакцинирована для обеспечения коллективного иммунитета? Как из структуры ДНК можно почерпнуть принципы СУВ? И много-многое другое? Тогда эта книга именно для вас.
Приведённый ознакомительный фрагмент книги Математические модели в естественнонаучном образовании. Том II предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других
Глава 5. Построение филогенетических деревьев
Смоделировав эволюцию ДНК в предыдущей главе, теперь готовы использовать эти модели для важных выводов из реальных данных ДНК. Увидим, как модель молекулярной эволюции вместе с некоторыми новыми математическими методами может быть использована для восстановления хронологии событий эволюционной истории. Давайте рассмотрим хорошо изученный, но все же удивительный вопрос: кем приходятся люди современным обезьянам? Более точно, какие из горилл, шимпанзе, орангутанов и гиббонов являются нашими ближайшими эволюционными родственниками, или все эти обезьяны более тесно связаны друг с другом, чем с нами?
Рисунок 5.1. Две возможные филогении гоминоидов.
Ранние эволюционисты рассматривали шимпанзе и горилл как наших ближайших родственников. Считалось, что люди и эти африканские обезьяны образуют одну эволюционную группу, которая отделилась от других линий обезьян в более отдаленном прошлом. Чуть позже господствующим стало мнение, что все современные человекообразные обезьяны более тесно связаны друг с другом, чем с людьми. Две возможные схемы, представляющие более подробные версии этих конкурирующих взглядов на эволюцию гоминоидов, показаны на рисунке 5.1.
Вопросы для самопроверки:
— Поскольку шимпанзе и горилла являются африканцами, в то время как орангутанг и гиббон являются азиатами, что, если вообще что-либо, каждое из этих деревьев укажет о вероятном месте появления первых людей?
Как выбрать, какое из этих или многих других возможных эволюционных деревьев является лучшим описанием происхождения гоминоидов? Один из подходов заключается в том, что сначала выбирают конкретный ген, общий для всех человекообразных обезьян и людей, но последовательность ДНК которого показывает вариации от вида к виду. Если предположить, что этот ген является общим и сходным для всех гоминоидов, поскольку он произошел от общего предка (то есть последовательности ортологичны, другими словами, к их разделению привел процесс видообразования), то вариации последовательностей среди видов должны содержать информацию об их эволюционной истории.
Например, 898-элементные пары последовательностей митохондриальной ДНК HindIII из этих гоминоидов и семи других приматов были зарегистрированы в работе Хаясака с соавторами 1988 года, он в свою очередь опирался на работу коллективов под руководством Андерсона 1981 года и Брауна 1982 года. Эти последовательности согласуются на 67-97% участков, в зависимости от того, какие из них сравниваются. Чтобы увидеть эти последовательности, загрузите базу данных primatedata в MATLAB, а затем посмотрите имена переменных, в которых они хранятся.
Хотелось бы вывести филогенетическое дерево, подобное одному из представленных на рисунке 5.1, показывающее, как все обезьяны эволюционировали от общего предка. Но какие данные указывают на «лучшее» дерево или даже «хорошее» дерево, чтобы объективно описать эволюционное происхождение?
Конечно, ученые уже рисовали деревья, показывающие подозрительные эволюционные отношения между видами задолго до появления методов секвенирования ДНК. Морфологическое сходство между видами является одним из источников подсказок относительно того, какие деревья адекватно описывают происхождение видов. Идентификация общих предков по окаменелостям — это другой подход. Теперь данные последовательности предоставляют новый источник информации об эволюционной истории, но использование их для вывода филогенетических деревьев требует разработки новых математических инструментов.
5.1. Филогенетические деревья
Прежде чем начнем разрабатывать методы построения филогенетических деревьев, понадобится некоторая терминология. Поскольку последовательности, которые, возможно, захотим связать, могут происходить от разных видов, как в примере с гоминоидами, или вместо этого от разных подвидов, популяций или даже отдельных особей, будем называть каждый источник последовательности ДНК таксоном (множественное число таксоны). Эквивалентный общеупотребительный термин — операционная таксономическая единица, обычно обозначаемая аббревиатурой ОТЕ (в иностранной литературе можно встретить обозначение OTU).
Будет стараться нарисовать диаграмму, состоящую из отрезков линий, которая представляет собой эволюционную историю таксонов. Каждый из сегментов линии на диаграмме по устоявшейся в теории графов терминологии называется ребром. Диаграмма, подобная приведенной выше, в которой нет циклов и петель, образованных ребрами, называется деревом.
Вопросы для самопроверки:
— Почему разумно предположить, что эволюционные отношения могут быть смоделированы путем рисования именно деревьев? Что бы это значило, если бы существовали цикл или петля?
Поскольку существует боковой перенос генов, например, когда вирусная ДНК постоянно включается в ДНК хозяина, деревья не могут описать все эволюционные отношения. Они обеспечивают простейшую модель, которая, тем не менее, полностью адекватна для большинства применений.
Точка, в которой сходятся нескольких ребер называется внутренней вершиной, в то время как висячий конец ребра у таксона называется конечной вершиной или листом дерева. Вершина, в которой будет находиться общий предок всех таксонов, называется корнем.
Говорят, что дерево раздваивается, находится в состоянии бифуркации, если на каждой его внутренней вершине встречаются по три ребра, а у корня сходится два ребра, как на деревьях на рисунке 5.1. Такие деревья называют двоичными или бинарными. Хотя с биологической точки зрения возможно, что дерево, отличное от двоичного, могло бы описывать эволюционную историю, обычно эту возможность игнорируют.
Вопросы для самопроверки:
— Каково было бы эволюционное значение вершины в дереве, где встречаются четыре ребра (то есть, где маршрут из одного ребра расходится на три направления)? Можете ли представить себе правдоподобные обстоятельства, при которых несколько видов могут расходиться таким образом?
Хотя в идеале каждое филогенетическое дерево должно иметь корень, показывающий общего предка таксонов, иногда приходится обходиться без него. Некоторые методы филогенетического построения деревьев дают некорневые деревья. Например, на рисунке 5.2 показано некорневое дерево и несколько корневых деревьев, которые с ним согласуются. Два дерева справа могли быть согнуты и растянуты, чтобы выглядеть как дерево слева; их отличает только расположение корня.
Рисунок 5.2. Некорневое дерево (слева) и две его корневые версии (в центра и справа).
Посмотрим на деревья с топологической точки зрения. Дерево, относящееся к ряду таксонов, может фактически указывать несколько различных типов информации об их отношениях. Во-первых, если не указываем длины ребер, а значит, смотрим только на ветвящуюся структуру, то рассматриваем только топологию дерева. Считается, что два дерева топологически одинаковы, если можно согнуть и растянуть ребра одного из них, чтобы получить второе дерево. Однако нельзя отрезать ребро и снова прикреплять его в другом месте; это может дать дерево, которое топологически отличается от исходного.
На рисунке 5.3 деревья , и топологически совпадают с некорневыми деревьями, потому что, если бы какая-либо из этих фигур была сделана из резины, ее можно было бы деформировать в другие, не разрезая и не склеивая куски вместе. Дерево , напротив, топологически отличается от , и .
Для корневых деревьев используем аналогичную концепцию. Два корневых дерева топологически эквивалентны, если одно можно преобразовать в другое, не перемещая корень. Можно изменить длину ребер, но не структуру ветвления.
Рисунок 5.3. Четыре топологических дерева; как некорневые деревья, все, кроме правого нижнего, они идентичны.
Вопросы для самопроверки:
— Как на рисунке 5.3 расположить корень дерева , чтобы полученное дерево не было топологически эквивалентным корневому дереву ? А чтобы получилось топологически то же самое, что и корневое дерево ?
Топологическое дерево, даже некорневое, довольно многое говорит об эволюционной истории таксонов, к которым оно относится. Например, все деревья на рисунке 5.2 показывают, что таксоны и связаны одним разделением линии, точно так же как и . Тем не менее, несколько раздвоений линии произошли между и , эволюционировавших от общего предка, поскольку в процессе возникли два других таксона.
Знание местоположения корня передает больше информации и может дать лучшее представление о порядке событий во времени. Например, изображенное справа на рисунке 5.2 дерево однозначно задаёт следующий порядок бифуркаций: общий предок дал начало двум таксонам, один из которых, возможно, эволюционировал дальше, чтобы стать ; другой впоследствии породил и третий таксон; этот третий таксон затем породил и .
Дерево в центре рисунка 5.2 можно интерпретировать аналогичным образом. Общий предок дал начало двум таксонам, один из которых дал начало как , так и , в то время как другой дал начало и . Обратите внимание, однако, что только с топологическим деревом не можем сказать, какое из этих двух последних бифуркации произошло первым: существовал ли самый последний общий предок и более поздний, чем и ? Нет возможности определить это по дереву.
Количество различных топологических деревьев, которые могут соотносить несколько терминальных таксонов, быстро растёт с увеличением числа таксонов. Например, существует только 1 некорневое топологическое дерево, относящееся к 3 таксонам, но есть 3 некорневых топологически различных дерева, относящиеся к 4 таксонам.
Вопросы для самопроверки:
— Нарисуйте одно некорневое топологическое дерево, которое может относиться к терминальным таксонам , и . Нарисуйте три некорневых топологических дерева, которые могут относиться к терминальным таксонам , , и .
На 5 терминальных таксонов приходится 15 таких деревьев. Таким образом, если не принимать во внимание местонахождение корня, существует на 13 деревьев, которые могут связать 5 гоминоидов, а больше, чем было представлено во введении к главе. Для 6 терминальных таксонов насчитывается более 100 возможных некорневых деревьев. По мере увеличения числа таксонов количество деревьев быстро вырастает до астрономических размеров. В упражнениях найдете точные формулы, определяющие количество некорневых и корневых деревьев, относящихся к таксонам. Также увидите, насколько велики эти числа, даже для относительно небольшого числа таксонов. Большое количество деревьев вызывает дискомфорт, потому что это означает, что некоторые подходы к поиску хорошего дерева для соотнесения таксонов будут медленными. Если метод находит «лучшее» дерево, рассматривая каждое возможное дерево по отдельности, то его использование будет чрезвычайно трудоемким, когда задействовано много таксонов.
На помощь в решении обозначенной проблемы поиска лучшей классификации приходят метрические деревья. В дополнение к топологической структуре дерево может иметь метрическую структуру; каждому ребру может быть присвоена определенная длина. Эта метрическая структура может быть задана путем записи чисел для обозначения длин рядом с ребрами (см. Рисунок 5.4 (слева)), или ребро может быть наглядно представлено путем рисования дерева с ребрами соответствующей длины, но без их явной нумерации. Таким образом, топологическое дерево и немаркированное метрическое дерево неотличимы друг от друга. Для ясности, будем маркировать ребра их длиной, когда нужно задать метрическое дерево.
Как правило, длины ребер в филогенетическом дереве, построенном из данных последовательности ДНК, каким-то образом представляют собой количество мутаций, которые произошли между расщеплениями линии. Чем длиннее ребро, тем больше последовательность ДНК мутировала в ходе эволюции, которую представляет это ребро.
Если, например, модель Джукса-Кантора замещения оснований адекватно описала эволюцию нескольких таксонов, то длина ребра в дереве, относящемся к ним, может быть расстоянием Джукса-Кантора между последовательностями на двух концах. Как видели в главе 4, это расстояние представляет собой среднее число замен оснований на сайт, произошедших при происхождении новой последовательности. Сюда включены мутации, скрытые другими мутациями, для оценки которых была разработана формула расстояния. Поскольку расстояние Джукса-Кантора является аддитивным и симметричным, общее расстояние между двумя таксонами вдоль дерева должно быть расстоянием Джукса-Кантора между ними.
Если предположение о молекулярных часах справедливо для эволюции связанных последовательностей, то расстояния в дереве имеют постоянное значение. Напомним, что молекулярные часы просто означают, что скорость мутаций постоянна для всех рассматриваемых линий. Если обозначает скорость мутации, измеряемую, например, в количестве произошедших за год замен оснований на сайт, а обозначает время в годах, то количество мутаций, которое произойдет в течение этого времени, составляет базовых замен на сайт.
Таким образом, молекулярные часы означают, что количество мутаций на любом ребре пропорционально прошедшему времени, при этом константа пропорциональности представляет собой постоянную скорость мутации. Если предположить, что существуют молекулярные часы, то независимо от того, рисуем ли длины ребер, представляющие количество мутаций или только прошедшее время, то нарисуем одну и ту же фигуру с точностью до масштаба этой константы.
Если гипотеза молекулярных часов справедлива для корневого метрического дерева, то каждый лист будет расположен на одинаковом общем расстоянии от корня дерева. Это связано с тем, что расстояния от корня пропорциональны времени, прошедшему с тех пор, как таксоны начали расходиться с общим предком. У каждого таксона было одинаковое количество времени, чтобы эволюционировать от корневого предка, поэтому каждый таксон накопит одинаковое количество мутаций.
Без молекулярных часов связь между количеством мутаций вдоль ребра и количеством времени может быть сложной для моделирования. Предположим, что вдоль одного ребра филогенетического дерева частота мутаций была довольно мала, а вдоль другого — частота мутаций была большой. Затем несмотря на то, что оба края могут соответствовать одинаковому количеству времени, вдоль одного из них произойдет значительно больше мутаций. Без получения какой-либо дополнительной информации о скорости мутации — возможно, путем сравнения с летописью окаменелостей — обычно нет способов определения прошедшего времени, связанного с ребрами деревьев.
Метрические деревья иногда рисуются в «квадратном» стиле, чтобы было легче сравнивать расстояния по различным эволюционным путям. Например, два дерева на рисунке 5.4 представляют одну и ту же информацию. В дереве слева ребра имеют указанную длину, а в дереве справа горизонтальные ребра имеют те же длины. Таким образом, вертикальные ребра на правом дереве считываются как не вносящие никакого вклада в количество мутаций; они служат исключительно для разделения различных линий для повышения читабельности.
Рисунок 5.4. Разные изображения одного и того же метрического дерева.
Задачи для самостоятельного решения:
5.1.1. Рассмотрим деревья на рисунке 5.5.
Рисунок 5.5. Деревья для задачи 5.1.1.
а. Какие из них совпадают с корневыми метрическими деревьями?
б. Какие из них совпадают с некорневыми метрическими деревьями?
в. Какие из них такие же, как корневые топологические деревья?
г. Какие из них такие же, как некорневые топологические деревья?
д. Для каких деревьев работают молекулярные часы?
5.1.2. а. Нарисуйте единственное топологически уникальное некорневое раздвоенное дерево, которое могло бы описать связь между 3 таксонами.
б. Нарисуйте три топологически различных корневых раздвоенных дерева, которые могли бы описать связь между 3 таксонами.
5.1.3. а. Нарисуйте все 3 топологически различных некорневых раздвоенных деревьев, которые могли бы описать связь между 4 таксонами.
б. Нарисуйте все 15 топологически различных корневых раздвоенных деревьев, которые могли бы описать связь между 4 таксонами.
5.1.4. Для терминальных таксонов количество некорневых раздвоенных деревьев можно найти как . Составьте таблицу значений и отобразите эту функцию для .
5.1.5. Для терминальных таксонов количество корневых раздвоенных деревьев равно значению . Составьте таблицу значений и отобразите эту функцию для .
5.1.6. В этой задаче рассмотрим рассуждения, лежащие в основе формул для числа топологически различных деревьев, корневых и некорневых.
а. Предположим известно, что некорневое дерево с концевыми вершинами состоит из ребер. Объясните, почему некорневое дерево с концевыми вершинами будет иметь ребра. Подсказка: подумайте о том, как добавление еще одной конечной вершины в существующее дерево влияет на количество ребер.
б. Поскольку некорневое дерево с 2 концевыми вершинами имеет 1 ребро, объясните из пункта (а), почему некорневое дерево с концевыми вершинами будет иметь ребра.
в. Предположим известно, что существует некорневых деревьев с концевыми вершинами. Объясните, почему существует некорневых деревьев с концевой вершиной. Подсказка: подумайте, сколькими различными способами можно добавить еще одну конечную вершину к существующему дереву.
г. Поскольку существует только 1 некорневое дерево с 2 концевыми вершинами, объясните используя пункт (c), почему существует некорневых деревьев с концевыми вершинами при .
д. Объясните, почему .
е. Почему число корневых деревьев с концевыми вершинами такое же, как число некорневых деревьев с концевыми вершинами?
ж. Сделайте вывод о правильности формул в задачах 5.1.4 и 5.1.5.
5.1.7. Поскольку митохондриальная ДНК у человека наследуется исключительно от матери, она может быть использована для структуры, относящейся к любому количеству людей из разных этнических групп, предполагая, что все люди произошли от одной первой человеческой самки. В зависимости от модели кластеризации этнических групп, это может дать представление о физическом местоположении той женщины, которую иногда называют митохондриальной Евой.
В работе Канна 1987 года была впервые предпринята попытка определить местонахождение митохондриальной Евы в Африке. Поддерживая теорию происхождения человека «из Африки», было построено дерево с корнями, которое, как утверждается, показывает отношения между 147 людьми. Сколько топологически различных деревьев нужно было бы рассмотреть, если бы действительно рассматривалась каждая возможность? Возможно, для ответа на этот вопрос придется использовать формулу Стирлинга: . Здесь символ «∼» можно интерпретировать как «приблизительно». Изучению последствий трудности рассмотрения стольких деревьев посвятил свою работу Гиббонс в 1992 году.
5.1.8. Филогенез четырех терминальных таксонов A, B, C и D связан по определенному метрическому дереву. Суммарные расстояния между таксонами вдоль дерева оказались такими же, как в таблице 5.1.
Таблица 5.1. Расстояния между таксонами для задачи 5.1.8
A B C D
A.6.6.2
B.4.6
C.6
а. Используя любой подход, который пожелаете, определите правильное некорневое дерево, относящееся к этим таксонам, а также все длины его ребер. Объясните, как исключили другие топологические деревья.
б. Можете ли определить корень дерева по этим данным? Объясните, почему да или почему нет.
Примечание: Методы решения такого рода проблем являются предметом следующих разделов.
5.2. Построение дерева дистанционными методами UPGMA и FM
При построении филогенетического дерева таксоны, которые хотим связать, обычно являются теми, которые живут в настоящее время. Есть информация, такая как последовательности ДНК, от терминальных таксонов и нет информации от тех, которые представлены внутренними вершинами. В действительности, даже не знаем, какие внутренние вершины должны существовать, потому что не знаем даже топологию дерева.
Первым классом методов построения филогенетических деревьев, которые обсудим, являются дистанционные методы. Они пытаются построить дерево, используя информацию, которая предположительно описывает общие расстояния между терминальными таксонами вдоль дерева.
Чтобы понять, как получить эти расстояния, представьте, что пытаемся найти эволюционные отношения четырех видов: , , и . Выбирая тот или иной ортологичный участок ДНК из их геномов, получаем и выравниваем последовательности из каждого. Если модель замены оснований Джукса-Кантора, рассмотренная в главе 4, кажется подходящей для имеющихся данных, то вычисляем расстояния Джукса-Кантора между каждой парой последовательностей. Получатся оценки расстояний по дереву, которые сводим в Таблицу 5.2.
В зависимости от данных последовательности могли бы вместо этого принять другую модель подстановки оснований, что привело бы к использованию другой формулы расстояния, такой как в 2-параметрической модели Кимуры или логарифмическое расстояние. Несмотря на это, расстояние, которое вычисляем между последовательностями, считается мерой количества произошедших мутаций. Если бы эти расстояния были точной мерой количества произведенных мутаций, они бы соответствовали между конечными таксонами в найденном метрическом дереве.
Таблица 5.2. Расстояния между таксонами
.45.27.53
.40.50
.62
На самом деле даже не ожидаем найти дерево, которое точно соответствует имеющимся данным; в конце концов, расстояния выводятся из данных последовательности и не должны быть точно правильными. Более того, метод вывода расстояний зависел от модели, которая включала дополнительные предположения, которые, безусловно, не встречаются в реальных организмах. Надеемся, однако, что построенное дерево не будет слишком чувствительно к такого рода ошибкам на больших расстояниях.
Первый метод, который рассматриваем, называется методом среднего расстояния или, более формально, невзвешенным парно-групповым методом с арифметическими средними (UPGMA). Этот метод создает корневое дерево и предполагает наличие молекулярных часов. Самый простой способ понять алгоритм — это ознакомиться с примером его использования.
По приведенной выше таблицы данных выберем два ближайших таксона, и . Поскольку они находятся на расстоянии 0,27 друг от друга, изобразим на рисунке 5.6 каждое ребро с длиной .
Рисунок 5.6. UPGMA; шаг 1.
Затем объединяем и в группу и усредняем расстояния и до каждого отдельного таксона, чтобы получить расстояние от группы до этого таксона. Например, расстояние между группой и равно , а расстояние между и равно . Таким образом, исходная таблица сводится к таблице 5.3.
Таблица 5.3. Расстояния между групп; UPGMA, Шаг 1
.425.575
.50
Теперь просто повторяем процесс, используя расстояния в таблице 5.3. Поскольку ближайшими таксонами и/или группами в новой таблице являются и , которые находятся на расстоянии 0,425 друг от друга, то получаем рисунок 5.7.
Рисунок 5.7. UPGMA; шаг 2.
Ребро должно иметь длину , в то время как другое новое ребро должно иметь длину , потому что уже есть ребро длины для учета некоторого расстояния между и другими таксонами.
Снова объединив таксоны, формируем группу и вычисляем расстояние от неё до путем усреднения исходных расстояний от до каждого из , и . Это приводит к значению . Обратите внимание, что это не то же самое, что усреднение расстояния от до и до . Поскольку новая таблица расстояний будет иметь это значение в качестве единственной записи, нет необходимости приводить ее. Изобразим рисунок 5.8, считая, что расстояние от корня до равно . Конечное ребро имеет длину. 0625, таким образом, помещаем оставшийся таксон на расстоянии от корня.
Рисунок 5.8. UPGMA; шаг 3.
Как и подозревали, дерево, которое построили для имеющихся данных, не совсем соответствует этим данным. Расстояние на дереве от до , например, равно , хотя по исходным данным должно быть . Тем не менее, расстояния между вершинами построенного дерева, по крайней мере, достаточно близки к расстояниям, указанным в исходных табличных данных.
Если бы было больше таксонов, то пришлось бы сделать больше шагов для завершения процесса UPGMA, но не было бы никаких принципиально новых действий. На каждом шаге объединяем два ближайших таксона или группы вместе, всегда размещая их на равных расстояниях от общего предка. Затем сворачиваем объединенные таксоны в группу, используя усреднение для вычисления расстояния от этой группы до таксонов и групп, которые еще предстоит объединить. Один момент, с которым следует быть особенно осторожным, заключается в том, что при вычислении расстояний между двумя группами нужно усреднить все расстояния от членов одной группы до членов другой — если одна группа имеет членов, а другая имеет членов, придется усреднить расстояний. Каждый шаг алгоритма уменьшает размер таблицы расстояний на единицу, так что после достаточного количества шагов все таксоны объединяются в единое дерево.
Обратите внимание, что предположение о молекулярных часах неявно присутствовала в UPGMA. В примере, когда поместили и на концы ветвей одинаковой длины, предположили, что количество мутаций, которые каждый из них претерпел от своего общего предка, было одинаковым. Метод UPGMA всегда размещает все таксоны на одинаковом расстоянии от корня, так что количество мутаций от корня до любого таксона одинаково.
Вторым рассмотрим алгоритм Фитча-Марголиаша. Этот метод немного сложнее, чем UPGMA, но основан на том же подходе. Тем не менее, попытаемся отказаться от предположения UPGMA о молекулярных часах.
Прежде чем изложить алгоритм, сделаем несколько математических наблюдений. Во-первых, если попытаемся поместить 3 таксона на некорневое дерево, то будет только одна топология, которую необходимо учитывать. Кроме того, для 3 таксонов можем назначить желаемые длины ребер, чтобы точно соответствовать данным. Чтобы убедиться в этом, рассмотрим дерево на рисунке 5.9. Если есть некоторые данные о расстоянии , и , то можно составить систему уравнений , , .
Эти уравнения могут быть решены либо путем записи системы в виде матричного уравнения и нахождения обратной матрицы, либо путем подстановки формулы для одной переменной, полученной из одного уравнения, в другие. Любой способ гарантированно приведёт к следующему решению , , .
Рисунок 5.9. Некорневое 3-таксонное дерево.
Будем называть эти формулы 3-точечными формулами для подгонки таксонов к дереву. К сожалению, с более чем 3 таксонами точная подгонка данных к дереву обычно невозможна. Однако алгоритм Фитча-Марголиаша (кратко называемый в таблицах как FM) использует случай 3 таксонов для обработки большего количества таксонов. Теперь объясним работу алгоритма на примере. Будем использовать данные о расстоянии, приведенные в таблице 5.4.
Таблица 5.4. Расстояния между таксонами
.31 1.01.75 1.03
1.00.69.90
.61.42
.37
Начинаем с выбора ближайшей пары таксонов для присоединения, как это делали в UPGMA. Глядя на таблицу расстояний, и являются первой парой, которая соединится. Чтобы соединить их, не помещая их на равное расстояние от общего предка, временно сводим задачу к случаю 3-таксонов, объединяя все остальные таксоны в группу. Таким образом, для имеющихся данных вводим группу . Находим расстояние от каждого из и до группы, усредняя их расстояния до каждого члена группы. Таким образом, расстояние от до равно , в то время как от до оно равно . Это дает таблицу 5.5.
Таблица 5.5. Расстояния между группами; FM-алгоритм, шаг 1a
.31.93
.863
Имея только три таксона в этой таблице, можем точно подогнать данные к дереву, используя 3-точечные формулы, чтобы получить рисунок 5.10. Ключевым моментом здесь является то, что 3-точечные формулы, в отличие от UPGMA, могут давать неравные расстояния таксонов от общего предка.
Рисунок 5.10. FM-алгоритм; шаг 1.
Теперь оставляем только ребра, заканчивающиеся в и на рисунке 5.10, и возвращаемся к исходным данным. Помните, что группа была нужна только временно, чтобы могли использовать 3-точечные формулы; пока не собирались объединять эти таксоны. Однако, поскольку объединили и , объединяем их в группу для остальной части алгоритма, как сделали бы с UPGMA. Это формирует таблицу 5.6.
Таблица 5.6. Расстояния между группами; FM-алгоритм, шаг 1b
1.005.72.965
.61.42
.37
Снова ищем ближайшую пару (теперь это и ) и соединяем их аналогичным образом. Объединяем все, кроме и , в одну временную группу и вычисляем расстояния и . Полученными значениями заполняем таблицу 5.7. Применение трехточечной формулы к таблице 5.7 дает рисунок 5.11.
Таблица 5.7. Расстояния между группами; FM-алгоритм, шаг 2a
.683.783
.37
Рисунок 5.11. FM-алгоритм; шаг 2.
Оставляем ребра инцидентные с и на рисунке 5.11, отбрасывая ребро, ведущие к временной группе . Таким образом, теперь есть две объединенные группы, и . Чтобы вычислить новую таблицу, содержащую эти две найденные группы, усредняем расстояния и . Выше уже вычислили , поэтому получаем таблицу 5.8.
Таблица 5.8. Расстояния между группами; FM-алгоритм, шаг 2b
1.005.8425
.515
На этом этапе можем получить итоговое дерево по таблице путем окончательного применения 3-точечных формул, что дает рисунок 5.12.
Рисунок 5.12. FM-алгоритм; шаг 3.
Теперь заменяем группы на этой последней диаграмме шаблонами ветвления, которые уже нашли ранее. Это дает рисунок 5.13.
Последним шагом является заполнение оставшихся длин и , используя длины, показанные на рисунке 5.12. Так как и в среднем дают расстояние от соединяющей их вершины, а и находятся в среднем на от соединяющей их вершины, то и получаем для присвоения длин оставшимся ребрам.
Рисунок 5.13. FM-алгоритм; завершение.
Обратите внимание, что одно ребро оказалось отрицательной длины. Поскольку этого не может быть, многие на практике предпочли бы просто переопределить длину в 0. Однако, если это произойдет, то должны будем по крайней мере проверить, что отрицательная длина была близка к 0, иначе придётся беспокоиться о качестве используемых данных.
Хотя на первый взгляд это может показаться странным, но как алгоритм Фитча-Марголиаша, так и UPGMA будут создавать точно такое же топологическое дерево при применении к набору данных. Причина этого заключается в следующем: при принятии решения о том, к каким таксонам или группам присоединиться на каждом шаге, оба метода учитывают точно такую же свернутую таблицу данных и оба выбирают пару, соответствующую наименьшей записи в таблице. Отличаться будут только метрические характеристики результирующих деревьев. Это немного подрывает надежду на то, что FM-алгоритм лучше, чем UPGMA. Хотя это может привести к лучшему метрическому дереву, но топологически оно никогда не отличается.
Фитч и Марголиаш в 1967 году фактически предложили свой алгоритм не как самоцель, а скорее, как эвристический метод получения дерева, которое, вероятно, будет иметь определенное свойство оптимальности, о чем еще поговорим в ходе решения связанных с этим задач. Рассматриваем его здесь, как и UPGMA, в качестве шага на пути к изложению алгоритма из следующего раздела. Знакомство с UPGMA и FM-алгоритмом поможет понять более сложный метод.
Конечно, и UPGMA, и FM-алгоритм лучше выполнять компьютерными программами, чем вручную. Тем не менее, несколько ручных расчетов необходимо выполнить, чтобы полностью понять, как функционируют методы и какие предположения в них входят.
Хотя алгоритм Фитча-Марголиаша позволил получить неравные длины ветвей в деревьях, за это заплатили высокую цену — построенные деревья оказываются некорневыми. Однако, поскольку поиск корня часто желателен, возникает необходимость обойти этот недостаток.
При применении любого метода филогенетического дерева, который дает некорневое дерево, может быть включен дополнительный таксон. Этот дополнительный таксон выбран так, чтобы было известно, что он более отдаленно связан с каждым из представляющих интерес таксонов, чем они связаны друг с другом, и присоединяется как внешняя группа. Например, если пытаемся связать разные виды уток друг с другом, то можем включить другой тип птиц в качестве внешней группы. Как только дерево без корней построено, находим корень такой, чтобы ребро из внешней группы соединялось с остальной частью дерева. Информация о том, что внешняя группа должна была отделена от других таксонов до того, как они отделились друг от друга, помогает определить место корня на дереве общего предка.
Задачи для самостоятельного решения:
5.2.1. Для дерева на рисунке 5.8, построенного методом UPGMA, вычислите таблицу расстояний между таксонами вдоль дерева. Как это соотносится с исходной таблицей данных расстояний?
5.2.2. Предположим, что четыре последовательности , , и ДНК разделены филогенетическими расстояниями, как показано в таблице 5.9. Создайте корневое дерево, показывающее отношения между , , и с помощью UPGMA.
Таблица 5.9. Данные о расстоянии для задач 5.2.2 и 5.2.5
1.2.9 1.7
1.1 1.9
1.6
5.2.3. Выполните UPGMA для данных расстояния в таблице 5.4, которые были использованы в примере FM-алгоритма. Производит ли UPGMA топологически то же дерево, что и алгоритм FM? А метрически?
5.2.4. FM-алгоритм использует тот факт, что данные о расстоянии, относящиеся к трем терминальным таксонам, могут быть точно подогнаны по одному некорневому дереву, относящемуся к ним.
а. Выведите 3-точечных формулы, приведенные в разделе.
б. Если расстояния равны , и , то каковы длины , и ?
5.2.5. Используйте FM — алгоритм для построения некорневого дерева на данных в таблице 5.9, которая также использовалась в задаче 5.2.2. Насколько отличается получившийся результат?
5.2.6. Предположим, что три терминальных таксона связаны некорневым метрическим деревом.
а. Если три длины ребер равны 0.1, 0.2 и 0.3, объясните, почему гипотеза молекулярных часов должна быть неверной, независимо от того, где находится корень.
б. Если длины трех ребер равны 0.1, 0.1 и 0.2, объясните, почему гипотеза о молекулярных часах может быть верной. В случае, когда гипотеза оказывается верна, где должен находиться корень?
в. Если три длины ребер равны 0.1, 0.2 и 0.2, объясните, почему гипотеза молекулярных часов должна быть неверной, независимо от того, где находится корень.
5.2.7. В то время как данные о расстоянии для 3 терминальных таксонов могут точно соответствовать дереву без корней, при наличии 4 (или более) таксонов это обычно невозможно.
а. Нарисуйте некорневое дерево с терминальными таксонами A, B, C и D. Обозначьте длины пяти ребер .
б. Используя для расстояния между терминальными таксонами обозначения типа , запишите уравнения для каждого из 6 таких расстояний выраженных через . Объясните, почему, если даны числовые значения расстояний между терминальными таксонами, эти уравнения вряд ли будут иметь точное решение.
в. Приведите такой конкретный пример значений 6 расстояний между терминальными таксонами, чтобы уравнения в части (б) не могли иметь точного решения. Приведите еще один пример значений, для которых уравнения могут быть решены.
5.2.8. Известен ряд различных мер для оценки степени согласованности между данными о расстояниях и метрическими деревьями. Пусть обозначает расстояние между таксонами и , полученное из экспериментальных данных, а обозначает расстояние, полученное при обходе от до вдоль дерева. Во второй половине прошлого века были предложены следующие три меры:
(Фитч и Марголиаш, 1967)
(Фаррис, 1972)
(Татено и др., 1982)
Во всех этих мерах суммы включают слагаемые для каждой отдельной пары таксонов и .
а. Вычислите эти меры для дерева, построенного в разделе, используя FM — алгоритм, а также дерева, построенного из тех же данных с помощью UPGMA в задаче 5.2.3. Согласно каждому из этих показателей, какое из двух деревьев лучше подходит для данных?
б. Объясните, почему эти формулы разумно использовать для оценки соответствия. Объясните, как различия между формулами делают их более или менее чувствительными к различным типам ошибок.
Примечание: Фитч и Марголиаш предложили выбрать оптимальное метрическое дерево для соответствия данным как такое, которое минимизирует . Алгоритм FM был введен в попытке получить аппроксимацию оптимального дерева.
5.2.9. Смоделируйте данные a1, a2, a3 и a4 в соответствии с моделью Джукса-Кантора с молекулярными часами. Сохраните их в файл seqdata.mat путём ввода save seqdata.mat. Загрузите ранее сохраненные данных из файла seqdata.mat в MATLAB путем ввода load seqdata. Затем исследуйте производительность UPGMA с расстоянием Джукса-Кантора, чтобы построить дерево для последовательностей a1, a2, a3 и a4. Все расстояния между последовательностями можно легко вычислить, поместив последовательности в строки массива с помощью команды a=[a1;a2;a3;a4], а затем используя команду [DJC DK2 DLD]=distances(a). Хотя эта команда вычисляет расстояния, используя каждую из формул Джукса-Кантора, 2-параметрической модели Кимуры и формул логарифмического расстояния, для решения этой задачи используйте только расстояния Джукса-Кантора.
а. Нарисуйте дерево UPGMA для 4 таксонов, пометив каждое его ребро длиной.
б. По длинам ребер вычислите расстояния между таксонами при обходе вдоль дерева. Близки ли они к исходным расстояниям?
5.2.10. Повторите решение предыдущей задачи, но используя алгоритм FM вместо UPGMA. Является ли дерево, которое получится в результате, «лучше», чем то, которое получалось раньше? Объясните почему.
5.2.11. Смоделируйте данные b1, b2, b3, b4 и b5 в соответствии с моделью Джукса-Кантора, но без молекулярных часов. Сохраните их в файле seqdata.mat. Исследуйте возможность применения UPGMA с расстоянием Джукса-Кантора для построения дерева для последовательностей b1, b2, b3, b4 и b5 в файле данных seqdata.mat. Полезные команды MATLAB см. в задаче 5.2.9.
а. Нарисуйте дерево UPGMA для 5 таксонов, пометив каждое ребро его длиной.
б. По длинам ребер вычислите расстояния между таксонами вдоль дерева. Близки ли они к исходным данным?
5.2.12. Повторите решение предыдущей задачи, но используя алгоритм FM вместо UPGMA. Является ли дерево, которое получилось в результате, «лучше», чем то, которое было получено ранее? Объясните почему.
5.2.13. Построение дерева с помощью UPGMA предполагает молекулярные часы. Предположим, что некорневое метрическое дерево на рисунке 5.14 правильно описывает эволюцию таксонов A, B, C и D.
Рисунок 5.14. Дерево для задачи 5.2.13.
а. Объясните, почему, независимо от местоположения корня, молекулярные часы не могли здесь работать.
б. Задайте массив расстояний между каждой парой из четырех таксонов. Выполните UPGMA для этих данных.
в. UPGMA не реконструировала правильное дерево. Что получилось в результате? Что такого было в этом метрическом дереве, что ввело алгоритм в заблуждение?
г. Объясните, почему алгоритм FM также не построит правильное дерево.
5.3. Построение дерева дистанционным методом присоединения соседей
На практике метод UPGMA и FM-алгоритм редко используются для построения дерева, потому что существует дистанционный метод, который как правило работает лучше, чем любой из них. Тем не менее идеи, лежащие в их основе, помогают понять популярный алгоритм присоединения соседей, на котором сосредоточимся в дальнейшем. Чтобы понять, почему UPGMA или FM-алгоритм могут быть ошибочными, рассмотрим метрическое дерево с 4 таксонами на рисунке 5.15. Здесь и представляют определенные длины, причем намного меньше, чем . Говорим, что вершины и в этом дереве являются соседями, потому что ребра, ведущие от них, соединяются в общей вершине. Точно так же и являются соседями, но и — нет.
Рисунок 5.15. 4-таксонное метрическое дерево с дальними соседями, .
Предположим, что метрическое дерево на рисунке 5.15 описывает истинную филогению таксонов. Тогда идеальные данные дадут нам расстояния в таблице 5.10.
Таблица 5.10. Расстояния между таксонами на рисунке 5.15
3х x+y 2х + y
2x+y x+y
x+2y
Но, если намного больше (на самом деле, уже достаточно хорошо), то ближайшими таксонами по расстоянию являются и , которые не являются соседями. Таким образом, UPGMA или FM-алгоритм, выбирая ближайшие таксоны, выбирает для присоединения не соседей. Самый первый шаг соединения будет неправильным, и как только присоединимся к не соседям, то не восстановим истинное дерево. Суть проблемы заключается в том, что если молекулярные часы не работают, как в случае с деревом на рисунке 5.15, то ближайшие таксоны по расстоянию не обязательно должны быть соседями по дереву.
Вопросы для самопроверки:
— Если намного меньше , то откуда уверенность в том, что молекулярные часы не работают в эволюции, описанной деревом на рисунке 5.15?
Рисунок 5.16. Дерево с соседями и .
Таким образом, выбор ближайших таксонов для присоединения ввел заблуждение; нужен более сложный критерий выбора таксонов для присоединения. Чтобы изобрести его, представьте себе дерево, в котором таксоны и являются соседями, соединенными в вершине , а каким-то образом соединена с оставшимися таксонами , как показано на рисунке 5.16.
Если данные точно соответствуют этому метрическому дереву, то для каждого , дерево будет включать поддерево, подобное изображенному на рисунке 5.17.
Рисунок 5.17. Поддерево дерева на рисунке 5.16.
Но на этом рисунке видим, что , так как в сумму слева входят только длины четырех ребер, отходящих от листьев дерева, а в сумму справа — все они и, кроме того, удвоенная длина центрального ребра. Это неравенство называется 4-точечным условием для соседей. Если и являются соседями, то неравенство верно для любых значений из диапазона от 3 до .
Условие 4-точек лежит в основе метода присоединения соседей, но предстоит еще много работы, чтобы перевести его в простую для применения форму. Для фиксированного существует возможных значения удовлетворяющих условию при . Если просуммировать 4-точечные неравенства по этим , то получим следующее неравенство, содержащее сумму расстояний .
Чтобы упростить это неравенство, определим общее расстояние от таксона до всех других таксонов как , где расстояние в сумме интерпретируется как 0, естественным образом. Затем, добавление к каждой стороне исходного неравенства позволяет записать его в более простой форме следующим незамысловатым образом .
Вычитание из частей неравенство придает ему ещё более симметричную форму .
Наконец, если рассмотреть эту последовательность действий для произвольных и , а не только для и , то можно ввести обозначение .
Тогда, если и являются соседями, то имеет место для всех .
Это дает критерий, используемый в методе присоединения соседей: из данных расстояний , заполоняется новая таблица значений . Затем для соединения выбирается пара таксонов с наименьшим значением . Приведенный выше вывод формулы для вычисления показывает, что если и являются соседями, то соответствующее им значение будет наименьшим из значений в -й строке, -м столбце таблицы. Более глубокий анализ, который провели Штудер и Кеплер в 1988 году, показывает, что если данные идеально подходят к дереву, то наименьшая запись во всей таблице значений будет указывать на пару таксонов, которые являются соседями.
Поскольку полный алгоритм присоединения соседей довольно сложен, приведём лишь краткое описание этого метода:
Шаг 1: Учитывая данные о расстоянии для таксонов, вычислите новую таблицу значений . Выберите наименьшее значение, чтобы определить, к каким таксонам присоединиться. Это значение как правило оказывается отрицательным; в этом случае «наименьшее» означает отрицательное число с наибольшим значением по абсолютной величине.
Шаг 2: Если и должны быть соединены на новой вершине , временно сверните все остальные таксоны в одну группу и определите длины рёбер от и до , используя 3-точечные формулы из предыдущего раздела для , и , как в FM-алгоритме.
Шаг 3: Определите расстояния от каждого из таксонов в до , применив 3-точечные формулы к данным расстояния для 3 таксонов , и . Теперь включите в таблицу данных о расстоянии и отбросьте и .
Шаг 4: Таблица расстояний теперь включает таксонов. Если есть только 3 таксона, используйте 3-точечные формулы для завершения работы алгоритма. В противном случае вернитесь к шагу 1.
Как уже можете видеть, метод присоединения соседей утомительно реализовывать вручную. Несмотря на то, что шаги относительно просты, легко потеряться в процессе с таким количеством арифметики. В упражнениях найдете пример частично отработанных данных, с которыми нужно завершить алгоритм, для лучшего понимания шагов. После этого предлагается написать и использовать компьютерную программу, чтобы избежать ошибок.
Точность различных методов построения деревьев — трех, описанных до выше в этой главе, и многих других — проверялась в первую очередь путем моделирования мутаций ДНК в соответствии с определенными филогенетическими деревьями, а затем применяя разные методы, сравнивали, как часто они восстанавливают правильное дерево. Некоторые исследования также были проведены с реальными таксонами, связанными известным филогенетическим деревом; деревья, построенные из последовательностей ДНК с использованием различных методов, можно было затем сравнить с заведомо правильным деревом. Эти тесты привели исследователей к большей уверенности в результативности описанного метода присоединения соседей, чем других методах, которые обсуждали ранее. Хотя UPGMA или FM-алгоритм могут быть надежными при некоторых обстоятельствах, метод присоединения соседей хорошо работает с более широким диапазоном данных. Например, если молекулярные часы не существуют, то лучше использовать метод присоединения соседей, поскольку он не предполагает неявных допущений о молекулярных часах. Поскольку в настоящее время накоплено много данных, указывающих на то, что гипотеза молекулярных часов часто нарушается, таким образом метод присоединения соседей становится предпочтительным дистанционным методом для построения дерева.
Задачи для самостоятельного решения:
5.3.1. Перед проработкой примера, в целях более глубокого понимания метода присоединения соседей, полезно вывести формулы используемые на шаге 2 и 3 изложенного алгоритма. Предположим, что решили объединить и на шаге 1.
а. Покажите, что на шаге 2 расстояния от и до внутренней вершины могут быть найдены по следующим формулам: , .
Затем покажите, что вторая из этих формул может быть заменена на .
б. Покажите, что на шаге 3 расстояния от до , для , могут быть вычислены с помощью формулы .
Таблица 5.11. Расстояния между таксонами для задачи 5.3.2
.83.28.41
.72.97
.48
5.3.2. Рассмотрим данные о расстояниях, приведенные в таблице 5.11. Используйте алгоритм присоединения соседей для построения дерева следующим образом:
а. Вычислите , , и , а затем заполните таблицу значений для таксонов , , и . Для начала посчитаем и , получим .
б. Если правильно справились с частью (а), то должно получиться несколько пар, имеющих одинаковое наименьшее значение . Одним из таких наименьших значений является , поэтому попробуем сначала присоединиться к и .
Для новой вершины , с соединяются и , вычислите и по формулам из части (a) предыдущей задачи.
в. Вычислите и по формулам из части (б) предыдущей задачи.
Поместите свои ответы в новую версию таблицы расстояний 5.12.
г. Поскольку осталось только 3 таксона, используйте 3-точечные формулы, чтобы поместить , и в дерево.
д. Нарисуйте последнее дерево, присоединив и к с расстояниями, найденными в части (б).
Таблица 5.12. Групповые расстояния для задачи 5.3.2
??
.72
Таблица 5.13. Расстояния таксонов для задачи 5.3.3
.3.4.5
.5.4
.7
5.3.3. Рассмотрим данные о расстояниях в таблице 5.13, которые точно соответствуют дереву с рисунка 5.15, при и .
а. Используйте UPGMA для восстановления дерева на основе этих данных. Применим ли этот метод?
б. Используйте метод присоединения соседей, чтобы восстановить дерево из этих данных. Применим ли этот метод?
5.3.4. Выполните алгоритм присоединения соседей на данных о расстояниях, используемых в примерах из раздела 5.2. Чтобы использовать MATLAB для этого в первом примере, введите массив расстояний D=[0.45.27.53; 0 0.40.50; 0 0 0.62; 0 0 0 0] и названия таксонов Taxa={'S1','S2','S3','S4'}, затем запрограммируйте функцию nj, реализующую построение дерева методом присоединения соседей, чтобы можно было её использовать nj(D,Taxa{:}).
а. Построит ли метод присоединения соседей на примере с 4 таксонами то же самое дерево, что и метод UPGMA?
б. Производит ли метод присоединения соседей на примере с 5 таксонами то же самое дерево, что и FM-алгоритм?
5.3.5. Используйте расстояние Джукса-Кантора и программу построения деревьев методом присоединения соседей из предыдущей задачи для смоделированных данных последовательности ранее сохранённых в seqdata.mat. Сравните полученные результаты с результатами, полученными другими методами в задачах 5.2.9-5.2.12 предыдущего раздела. Как повлияли на результаты молекулярные часы, работающие в симуляции?
а. Данные a1, a2, a3 и a4 смоделируйте в предположении с молекулярными часами
б. Данные b1, b2, b3, b4 и b5 смоделируйте без молекулярных часов.
5.3.6. Сгенерируйте с использованием 2-параметической модели Кимуры последовательности c1, c2, c3, c4, c5 и сохраните их в seqdata.mat.
а. Даже не зная заранее, какая именно модель была использована, как сравнение некоторых из этих последовательностей поможет определить, что именно 2-параметрическое расстояние Кимуры было бы хорошим выбором для моделирования этих последовательностей?
б. Постройте дерево методом присоединения соседей, используя значение расстояния вычисляемого 2-параметрическим методом Кимуры.
в. Соответствует ли полученное дерево гипотезе молекулярных часов хотя бы приближенно? Обоснуйте свою точку зрения.
5.3.7. Сохраните последовательности d1, d2, d3, d4, d5 и d6 в файл seqdata.mat.
а. Выберите формулу расстояния для использования на этих последовательностях и объясните, почему сделанный выбор оптимален.
б. Постройте дерево методом присоединения соседей из имеющихся данных.
в. Один из этих 6 таксонов является внешней группой, которая была включена для того, чтобы получить корневое дерево на оставшихся 5. Какая именно из них является внешней группой? Нарисуйте корневое метрическое дерево, относящее к оставшимся таксонам.
5.4. Построение дерева методом максимальной экономии
Одним из критических недостатков дистанционных методов построения дерева заключается в том, что, поскольку они начинаются со сведения полных данных о последовательности ДНК к набору попарных расстояний между таксонами, то они могут не использовать всю информацию об исходных последовательностях.
Метод максимальной экономии предполагает несколько иной подход к построению дерева, использующий целые последовательности. Среди всех возможных деревьев, которые могут связывать таксоны, он ищет то, которое потребовало бы наименьшего количества возможных мутаций. Чтобы оценить количество мутаций никогда не вычисляются расстояния, а вместо этого рассматривается, как мутации происходят в имеющихся последовательностях на каждом отдельном участке.
Общий план таков: для данного дерева каким-то образом подсчитывается наименьшее количество мутаций, которое потребовалось бы, если бы последовательности возникли от общего предка в соответствии с этим деревом. Это число называется скупой оценкой дерева. Далее одно за другим рассматриваются все деревья, которые могут связать интересующие таксоны, и вычисляется оценку экономии для каждого из них. Затем выбирается дерево, которое имеет наименьшую оценку экономии. Это дерево, самое экономное, является тем, которое метод считает оптимальным для имеющихся данных о мутирующей последовательности.
В качестве первого шага реализации намеченного плана понадобится найти способ вычисления оценки экономии для определенного дерева и последовательностей. Предположим, что смотрим на один участок в ДНК для каждого из таксонов и видим, например, : A, : T, : T, : G, : A.
Если представить, что они были связаны деревом, показанным на рисунке 5.18, то можно пройти обратно вверх по дереву, чтобы определить, какое основание могло быть на этом на каждой внутренней вершине, предполагая наименьшее количество возможных мутаций.
Рисунок 5.18. Вычисление оценки экономии для дерева на одном сайте.
Например, выше и мог быть либо A, либо T, но не C или G, и, по крайней мере, должна была произойти 1 мутация. Обозначаем эту вершину двумя возможностями {A, T}, но до сих пор имеем количество мутаций равное 1. Однако, учитывая то, что в появляется T, на вершине, соединяющей с и должно быть T; никакой дополнительной мутации не требуется, кроме той, которую уже посчитали. Теперь обозначили две внутренние вершины и по-прежнему имеем одну мутацию.
Продолжая продвигаться вверх по дереву, помещаем основание или набор возможных оснований на каждой вершине. Если под вершиной находятся два разных основания (или множества оснований, которые не пересекаются), нужно будет увеличить количество мутаций на 1 и объединить два основания (или взять объединение множеств) в один больший набор возможных оснований на более высокой вершине. Если два низших основания согласуются (или множества имеют общие элементы), то обозначаем высшую вершину этим основанием (или пересечением двух множеств). В этом случае не нужно подсчитывать дополнительную мутацию. Когда все вершины дерева помечены, конечное значение количества мутаций дает минимальное количество мутаций, необходимое для того, чтобы это дерево правильно описало эволюцию таксонов. Таким образом, дерево на рисунке 5.18 будет иметь минимальное количество мутаций, или показатель экономии, равный 3.
На самом деле есть несколько важных фактов, которые здесь использовались без доказательства. Во-первых, не совсем очевидно, что изложенный метод дает минимально возможное количество мутаций, необходимые для построения дерева. Хотя это должно казаться очевидным и на самом деле верно, что нет возможности назначать основания внутренним вершинам таким способом, который потребует меньшего количества мутаций, но не будем углубляться в строгое доказательство этого средствами комбинаторной теории графов. Как увидите в упражнениях, могут существовать такие разметки оснований на внутренних вершинах, которые не согласуются с разметками, производимыми данным методом, но при этом достигается то же самое минимальное количество мутаций. Это означает, что невозможно интерпретировать изложенный метод вычисления показателя экономичности как однозначную «реконструкцию» последовательности предков таксонов.
Во-вторых, показатель экономии дерева не зависит от расположения корня. Если используется одно и то же дерево, но корень перемещается, то данный метод подсчета может привести к тому, что поставим разные основания или наборы оснований в каждой из вершин. Тем не менее, можно доказать, что будет получен тот же коэффициент экономии. Таким образом, в то время как процедура подсчета требует временной вставки корня, в действительности можно говорить о пригодности некорневого дерева. Однако всегда можно добавить внешнюю вершину, как обсуждалось в предыдущих разделах, если требуется такое расположение корня.
Наконец, поскольку метод не позволяет однозначно восстановить последовательности на внутренних вершинах, то нет возможности узнать, вдоль каких ребер происходили мутации. Это означает, что не получится определить точную длину ребра, используя количество мутаций, происходящих при переходе вдоль него. Таким образом, метод максимальной экономии — это метод, который фокусируется только вокруг использования некорневых топологических деревьев для отыскания связей таксонов.
Теперь, когда получили оценку экономии дерева на рисунке 5.18, давайте рассмотрим другое дерево, на рисунке 5.19, которое может относиться к тем же 1-базовым последовательностям. Имейте в виду, дерево рисуется с корнем только для удобства. Применяя предыдущий метод для получения маркировки на внутренних вершинах, приходим к тому, что это дерево имеет оценку экономии 2; то есть необходимы только две мутации. Таким образом, дерево на рисунке 5.19 является более экономным, чем на рисунке 5.18.
Рисунок 5.19. Более экономное дерево.
Чтобы найти наиболее экономное дерево для этих таксонов, нужно было бы рассмотреть все 15 возможных топологий некорневых деревьев с 5 таксонами и вычислить минимальное количество мутаций для каждой. Вместо того, чтобы перебирать 13 оставшихся деревьев, давайте попробуем подумать о том, какие деревья, вероятно, будут иметь низкие показатели экономии. Если оценка низкая, то и , вероятно, будут рядом друг с другом, как и , но может быть где угодно.
Вопросы для самопроверки:
— Для 5 таксонов нарисуйте несколько некорневых деревьев, которые топологически отличаются от изображенных на рисунке 5.19, но также имеют оценку экономии 2.
— Объясните, почему ни одно дерево, относящееся к этим 5 таксонам, не может иметь оценку экономии 1. Подсказка: если бы для дерева требовалась только одна мутация, то как выглядели бы основания на листьях?
Существует несколько деревьев (на самом деле, пять деревьев имеют оценку экономии 2), которые можно считать наиболее экономными. Когда это происходит, использование метода экономии требует отчета обо всех найденных деревьях, которые достигают минимального балла, потому что все они одинаково хороши согласно сформулированным критериям их выбора.
При работе с реальными данными последовательности, конечно, нужно подсчитать количество мутаций, необходимых для дерева, среди всех сайтов в последовательностях. Это можно сделать так же, как и раньше, просто обрабатывая каждый сайт параллельно. Пример приведём на рисунке 5.20.
Рисунок 5.20. Вычисление оценки экономии для дерева на трех участках.
Переходя вверх по дереву, начиная с 2 последовательностей таксонов, ATC и ACC в крайнем левом углу, видим, что там не нужны мутации ни в первом, ни в третьем узлах, но понадобятся мутации во втором. Таким образом, количество мутаций теперь равно 1, а вершина предка помечена, как показано на рисунке. На вершине, где соединяется ребро из третьего таксона, обнаруживаем, что первый участок нуждается в мутации, второй нет, а третий снова нуждается. Это увеличивает количество мутаций на 2, чтобы суммарно дать 3. Наконец, в корне обнаруживаем, что нужна мутация только во втором месте, для окончательной оценки экономии 4.
Хотя это нетрудно сделать вручную с небольшим количеством сайтов, когда считается много сайтов, это становится очень трудоёмкой задачей. Хуже то, что если есть взять еще немного таксонов, то количество топологий деревьев, которые необходимо учитывать, огромно. Таким образом, метод экономии на практике выполняется только с помощью компьютера. На самом деле, при большом количестве таксонов количество возможных деревьев настолько велико, что часто компьютерные программы проверяют не все, а только определенные конфигурации, чтобы выбрать наиболее экономное сочетание. Хорошее программное обеспечение, управляемое профессиональными пользователями, часто поможет найти то, что, вероятно, будет самыми экономными деревьями, но в этом нет никакой гарантии. Это вызывает некоторое смущение у исследователей, публикующих деревья, найденные машинным перебором. Так как, не имея малейшего представления, насколько хороши найденные варианты, им приходится использовать то, что есть, пока фактически случайным образом не будет найдено ещё более оптимальной конфигурации.
Можно исключить некоторые варианты из перебора при использовании метода экономии, если заметим, что не все сайты будут влиять на количество мутаций, необходимых для дерева. Очевидным случаем является то, что если все последовательности имеют одно и то же основание в определенном сайте, то всем деревьям потребуется 0 мутаций для этого сайта. Таким образом, можем исключить этот сайт из последовательностей перед применением алгоритма. Менее очевиден случай, когда в сайте все последовательности имеют одно и то же основание (например, А), за исключением не более чем одной последовательности, каждая из которых имеет другие основания (С, Т и G). В этом случае, независимо от топологии дерева, если поставим A в каждой внутренней вершине, то получим минимально возможное количество мутаций. Это означает, что такой сайт не повлияет на то, какое дерево выберем как самое экономное. Данная возможность приводит к возникновению следующего понятия.
Определение. Информативный сайт — это сайт, на котором по крайней мере два разных основания встречаются как минимум по два раза каждое среди рассматриваемых последовательностей.
Прежде чем применять алгоритм экономии, можем исключить все неинформативные сайты из последовательностей, потому что они не повлияют на выбор самого экономного дерева. Обратите внимание, что в предыдущих примерах использовались только информативные сайты.
Метод максимальной экономии не использует ни модель молекулярной эволюции Джукса-Кантора, ни какую-либо другую явную модель мутации ДНК. Вместо этого метод подразумевает неявное предположение о том, что мутации случаются редко, а лучшее объяснение истории эволюции — это то, которое требует наименьшего количества мутаций. Между исследователями, выступающими за основанные на перечисленных моделях методы реконструкции эволюционных деревьев, и теми, кто выступает за метод экономии, велись ожесточенные, а иногда и жесткие споры. Вместо того, чтобы присоединяться к философскому спору, просто отметим, что, когда есть несколько мутаций, скрывающих предыдущие мутации, то и методы дистанцирования, и методы экономии, по-видимому, на практике работают достаточно хорошо. Предположения каждого из методов могут быть подвергнуты обоснованной критике, и многое еще предстоит сделать, чтобы найти лучшие решения.
Задачи для самостоятельного решения:
5.4.1. а. Вычислите минимальное количество базовых изменений, необходимых для деревьев на рисунке 5.21.
Рисунок 5.21. Деревья для задачи 5.4.1.
б. Дайте по крайней мере три дерева, которые связывают наиболее экономные последовательности с одним основанием, используемые в части (a). Помните: можно перечислять таксоны в другом порядке.
в. Среди деревьев, прослеживающих эволюцию только на одном участке, как в частях (а) и (б), почему всегда можно найти дерево, требующее не более трех замен, независимо от того, сколько таксонов присутствует?
5.4.2. а. Найдите оценку экономии деревьев, изображенных на рисунке 5.22, где показаны только информативные сайты в последовательностях ДНК.
б. Нарисуйте третье возможное (некорневое) топологическое дерево, относящееся к этим последовательностям, и найдите для него оценку экономии. Какое из трех деревьев является наиболее скупым?
Рисунок 5.22. Деревья для задачи 5.4.2.
5.4.3. Рассмотрим следующие последовательности из четырех таксонов.
: AATCG CTGCT CGACC
: AAATG CTACT GGACC
: AAACG TTACT GGAGC
: AATCG TGGCT CGATC
а. Какие сайты являются информативными?
б. Используйте информативные сайты, чтобы определить наиболее скупое некорневое дерево, относящееся к этим последовательностям.
в. Если известно, что является внешней группой, используйте свой ответ на часть (б), чтобы создать корневое дерево, относящееся к , и .
5.4.4. Хотя неинформативные сайты не влияют на то, какое дерево считается наиболее экономным, они влияют на показатель экономии. Объясните, почему, если и являются скупыми оценками для дерева, использующего все сайты и использующего только информативные сайты соответственно, то , где, для , за обозначаем количество сайтов со всеми таксонами в согласии, за исключением таксонов, которые все различны. Примечание: Принимая во внимание, что и могут быть различаться для разной топологии, значение не зависит от топологии.
5.4.5. Для первого дерева на рисунке 5.23 рассчитайте минимальное количество требуемых изменений базы, разметив внутренние вершины по алгоритму из предыдущего раздела. Затем покажите, что второе дерево требует точно такого же количества изменений основания, даже если это не согласуется с тем, как обозначили внутренние вершины на первом дереве. Основной вывод, к которому нужно прийти после решения этой задачи заключается в том, что алгоритм, который используется для подсчета минимального количества изменений базы, необходимых для дерева, не обязательно покажет все способы, которыми можно достигнуть минимума.
Рисунок 5.23. Деревья для задачи 5.4.5.
5.4.6. Если приведены последовательности для 3 терминальных таксонов, то информативных сайтов быть не может. Объясните, почему это так, и почему это не имеет значения.
5.4.7. Основания на определенном участке в выровненных последовательностях из разных таксонов образуют закономерность. Например, при сравнении последовательностей на участке шаблонная запись (ATTGA) означает, что A появляется на этом участке в последовательности первого таксона, T во второй, T в третьей, G в четвертой и A в пятой.
а. Объясните, почему при сравнении последовательностей для таксонов может появиться возможных шаблона.
б. Некоторые шаблоны неинформативны. Простыми примерами являются четыре паттерна, показывающие одно и то же основание во всех последовательностях. Объясните, почему существуют неинформативных паттернов, все последовательности которых совпадают, кроме одной.
в. Сколько всего существует неинформативных шаблонов, в которых 2 основания появляются один раз, а все остальные совпадают?
г. Сколько существует неинформативных шаблонов, в которых 3 основания появляется один раз, а все остальные согласованы?
д. Объедините свои ответы, чтобы рассчитать количество информативных шаблонов для таксонов. Являются ли большинство шаблонов информативными для больших ?
5.4.8. Компьютерная программа, вычисляющая оценки экономии, может работать следующим образом: сначала сравните последовательности и подсчитайте количество сайтов для каждого появляющегося информативного шаблона. Затем для данного дерева вычислите оценки экономии каждого из этих шаблонов. Наконец, используйте эту информацию для вычисления оценки экономии дерева, используя все последовательности. Какая формула необходима для выполнения заключительного шага? Другими словами, выразите оценку экономии дерева через и .
5.4.9. Показатели экономичности можно рассчитать еще эффективнее, используя тот факт, что несколько разных шаблонов всегда дают одинаковую оценку. Например, при сопоставлении 4 таксонов шаблоны (ATTA) и (CAAC) будут иметь одинаковую оценку.
а. Используя это наблюдение для 4 таксонов определите, сколько различных информативных таблиц должно быть рассмотрено, чтобы получить оценку экономии для всех возможных комбинаций?
б. Повторите часть (а) для 5 таксонов.
5.4.10. Используйте метод максимальной экономии для построения некорневого дерева для моделируемых последовательностей a1, a2, a3 и a4 в файле данных seqdata.mat. Сначала поместите последовательности в строки массива командой a=[a1;a2;a3;a4]. Затем найдите информативные сайты самостоятельно запрограммированной функцией infosites=informative(a). Наконец, извлеките информативные сайты с помощью команды ainfo=a(:,infosites).
а. Каков процент информативных сайтов?
б. Сколько различных деревьев следует проанализировать, чтобы найти самое экономное, относящееся к четырем таксонам?
в. Бывает слишком сложно использовать все информативные сайты для ручного расчета. Если это так, то используйте хотя бы первые 10 информативных сайтов, чтобы выбрать самое экономное дерево.
г. Согласуется ли найденное дерево топологически с тем, которое получается методом UPGMA и/или методом присоединения соседей с использованием расстояния Джукса-Кантора?
5.4.11. В этой задаче попытайтесь использовать метод максимальной экономии для построения некорневого дерева для ранее смоделированных последовательностей d1, d2, d3, d4, d5 и d6 в файле данных seqdata.mat. Начните с поиска информативных сайтов, как в предыдущей задаче.
а. Каков процент информативных сайтов?
б. Вычислите количество некорневых деревьев, которые необходимо изучить, если рассматривать все комбинации.
в. Используйте метод присоединения соседей, с логарифмическим расстоянием, вычисляемым из полных последовательностей, чтобы получить дерево, которое является хорошей отправной точкой для поиска наиболее экономных. Рассчитайте его оценку экономии, используя только первые 10 информативных сайтов.
г. Опять же, используя только первые 10 информативных сайтов, найдите по крайней мере 4 других дерева, которые похожи на одно из части (в). Можно ли найти более экономные?
д. Насколько уверены в том, что самое экономное дерево, которое нашли, действительно является самым экономным из всех возможных комбинаций? Для какого процента возможных деревьев вычислили оценки экономии? Какой процент информативных сайтов использовали?
5.5. Другие методы
На самом деле существует много других подходов к построению филогенетического дерева. Список предлагаемых методов довольно длинный и с каждым годом становится все длиннее, так как исследователи продолжают развивать данную проблематику.
В дополнение к дистанционным методам и методу максимальной экономии существует третий основной класс подходов, называемых методами максимального правдоподобия. Идея метода максимального правдоподобия состоит в том, что сначала предстоит выбрать конкретную модель молекулярной эволюции, например, модель Джукса-Кантора, 2 — или 3-параметрическую модель Кимуры или более сложную. Затем нужно рассмотреть конкретное дерево, которое является кандидатом для описания связи данных таксонов. Предполагая, что эволюционная модель и конкретное дерево верны, можно рассчитать вероятность того, что последовательность ДНК могла быть получена именно на этих исходных данных. Вычисляется вероятность дерева, охватывающего имеющиеся данные. Повторяем этот процесс на всех остальных деревьях, получая значение вероятности для каждого. Затем выбираем дерево, к которого получилась наибольшая вероятность, поскольку именно такое дерево, как оказалось, лучше всего соответствует имеющимся данным.
Для многих исследователей методы максимального правдоподобия, которые следуют давней традиции в математической статистике, дают наибольшую надежду на то, что построенное дерево получилось хорошим. Однако можно столкнуться с рядом проблем. Во-первых, вычисляемые вероятности зависят от выбора конкретной модели эволюции, и если эта модель плохо описывает реальный процесс, то можно поставить под сомнение достоверность результатов. Во-вторых, как и в случае с экономностью, метод требует рассмотрения всех возможных деревьев, а значит, больших вычислительных затрат. Для каждой рассматриваемой топологии дерева требуется громоздкий расчет, чтобы найти оптимальные параметры модели, согласующиеся с данными. Если количество таксонов велико, то невозможно перебрать все возможные деревья, оптимизируя параметры модели для каждого, поэтому на практике используются эвристические методы сокращения числа свободных переменных. Хотя с практической точки зрения кажется, что данные методы работают хорошо, максимизация вероятности требует гораздо больше вычислительных ресурсов, чем другие подходы.
Другой способ классификации методов построения филогенетических деревьев состоит в том, чтобы разделить их на два класса: те, которые выбирают дерево на основе некоторого критерия оптимальности, и те, которые представляют собой алгоритмы, создающие дерево. Метод максимальной экономии и метод максимального правдоподобия основаны на критериях оптимальности, тогда как обсуждаемые ранее дистанционные методы являются алгоритмическими. Некоторые исследователи утверждают, что методы имеющие критерии оптимальности по своей сути превосходны, потому что они, по крайней мере, ясно указывают, на чем основан выбор дерева. Однако, поскольку поиск оптимального из большого числа деревьев может оказаться невыполнимым с вычислительной точки зрения, компьютерные реализации методов экономии и правдоподобия иногда начинаются с рассмотрения деревьев, созданных алгоритмическим методом, например, методом присоединение соседей, или одного из его вариантов, полученного путем циклического перемещения нескольких веток исходного дерева.
Одна из трудностей выбора оптимального метода для использования заключается в том, что можно найти хорошие аргументы за и против любого из методов. Тем не менее, необходимость строить деревья для исследования биологических проблем слишком велика, чтобы можно было не использовать существующие методы, а ожидать появления новых. Достаточно разумный подход заключается в том, чтобы всегда использовать несколько различных методов для имеющихся данных. Вместо того, чтобы доверять одному методу, для получения точного дерева, посмотрите, дают ли разные методы примерно одинаковые результаты. Они часто это делают и если используемые методы этого не делают, то стоит выяснить, почему такое происходит. Недостаточно просто запустить компьютерную программу на имеющихся данных и принять получившееся дерево как истинное.
Даже когда дерево уже выбрано тем или иным методом, было бы желательно дать количественную оценку, насколько можно быть уверенным в правильности выбора. Частичный ответ на этот вопрос может дать статистический метод самопроверки, — бутстрэппинга, что буквально означает «подтягивание за ремешки обуви». В процедуре самопроверки истинные последовательности данных используются для создания набора новых, псевдореплицированных последовательностей той же длины. Основания в конкретном сайте для генерации новых последовательностей выбираются с той же вероятностью какую имели основания, появляющиеся в случайно выбранном сайте в исходных последовательностях. Таким образом будет построено и записано дерево для филогении псевдорепликантов. Затем эта процедура повторяется много раз, что дает большую коллекцию подобных деревьев. Если достаточно высокий процент получаемых таким способом деревьев согласуется с первоначальным деревом, полученным с использованием исходных данных, то можем быть уверены в истинности проверяемого дерева.
Однако важным предостережением при использовании вышеописанного метода является то, что этот метод помогает только оценить влияние изменчивости в последовательностях на построение дерева. Данный метод ничего не говорит о фундаментальной обоснованности алгоритма, с помощью которого выбирается дерево — он только указывает, как изменчивость данных могла повлиять на результат.
На большом количестве таксонов настоятельно рекомендуется использовать специализированное компьютерное программное обеспечение для использования любого из упомянутых методов. Двумя широко используемыми пакетами, реализующими различные методы, являются PAUP* (Суоффорд, 2002) и PHYLIP (Фельзенштейн, 1993). Если вдруг когда-нибудь получите доступ к любому из них, то стоит изучить их возможности.
5.6. Приложения и перспективы
Вернемся к вопросу о гоминоидной филогении, который звучал по введении в эту главу. Какое дерево можно вывести из данных митохондриальной ДНК? Хотя можно было бы прочитать ответ в специализированной литературе, но предпочтительно, если найдете его самостоятельно. В упражнениях ниже будет возможность применить некоторые методы пройденной главы к данным, начиная либо с необработанных последовательностей, либо с некоторых расстояний, уже вычисленных из последовательностей.
Анализ данных, который впервые выполнил Хаясака с соавторами в 1988 году опирается в первую очередь на использование алгоритма присоединения соседей, как и анализ, который можно легко осуществить с помощью MATLAB. Если есть доступ к специализированному программному обеспечению, предназначенному для применения метода максимальной экономии, максимального правдоподобия или других методов, то настоятельно рекомендуется посмотреть, дают ли эти методы аналогичные результаты.
Кроме того, имейте в виду, что анализ, который делаете, всегда основан лишь на одном конкретном участке ДНК. Исследования, основанные на других ортологичных последовательностях, могут дать разные результаты. Кроме того, существует много подходов к филогенетическому выводу, которые не основаны на последовательностях. Должны быть скрупулёзно изучены доказательства адекватности каждого из используемых методов, прежде чем делать сильные заявления о филогении гоминоидов.
По мере развития методов построения филогенетического дерева из данных последовательности ДНК они были использованы и для изучения ряда других интересных вопросов. Даже беглый обзор высокорейтингового исследовательского журнала, такого как Science, обнаруживает большое количество статей, в которых генетические последовательности используются для исследования эволюции различных видов от общего предка. Вот лишь несколько примеров некоторых недавних приложений.
1. Исследование того, параллельна ли эволюция нескольких видов друг другу: например, эволюцию хозяев и паразитов можно изучить, построив отдельные филогенетические деревья для каждого из них. Сходство топологий деревьев может указывать на то, эволюционировали ли паразиты вместе с хозяином, или паразиты «перепрыгнули» от одного вида хозяина к другому, изучал Хафнер в 1994 году. Аналогичным образом, деревья для двух симбиотических видов, таких как муравьи, растущие грибы и грибы, которые они выращивают, помогают указать, как далеко в эволюционной истории простирается симбиотическое партнерство. Эти вопросы изучали Чапел и Хинкл в 1994.
2. Определение вероятных источников инфекции вируса иммунодефицита человека (ВИЧ) путем построения деревьев из последовательностей ВИЧ у ряда инфицированных лиц: Было несколько судебно-медицинских применений этого, к случаям СПИДа во Флориде, как следует из публикаций Альтмана 1994 года и Оу 1992 года, а так же их приложения к делу врача, обвиняемого в умышленном введении ВИЧ бывшему любовнику, исследовал Фогель в серии работ 1997 и 1998 годов.
3. Изучением того, вошли ли гены в геном определённого вида через латеральный перенос занимались Андерссон и Зальцберг в 2001 году: когда дерево строится из последовательностей ДНК для гена, это действительно «генное дерево», показывающее отношения генов, которые могут быть, а могут и не быть такими же, как отношения таксонов. Поскольку считается, что некоторые человеческие гены были получены путем латерального переноса от бактерий, заразивших нас, некоторые гены могут оказаться более тесно связанными с некоторыми бактериями, чем с другими млекопитающими. Если подозревается, что ген возник у эукариот в результате латерального переноса от бактерий, то можно построить дерево, используя последовательности генов как эукариот, так и бактерий. Модель кластеризации должна помочь определить, были ли гены латерально переданы или нет.
4. Мониторинг ограничений на охоту на китов: образцы ДНК из китового мяса, продаваемого в качестве пищи, и от китов в дикой природе были использованы для строительства дерева, указывая не только на виды продаваемых китов, но даже на океан происхождения, что доказали Бейкер и Палумби в 1994 году.
5. Исследование гипотезы происхождения человека «Из Африки»: паттерн кластеризации на дереве, построенном из последовательностей ДНК человека из этнических групп по всему миру, должен помочь указать, как человеческие популяции связаны и, следовательно, как и откуда они распространяются. Этим вопросом занимался Канн, опубликовав результаты в 1987 году, и Гиббонс, — в 1992.
Поскольку последовательности, используемые в большинстве опубликованных исследований, легко доступны через Интернет в базах данных, таких как GenBank, можно самостоятельно исследовать набор данных из этих или других исследований.
Филогенетические методы, основанные на последовательностях, все еще активно исследуются биологами, химиками, статистиками, информатиками, физиками и математиками. Есть много проблем, подходов и методов, которые здесь не затронули. То, как последовательности ДНК идентифицируются как хорошие данные, на которых основывается филогения, как эти последовательности выравниваются и как можно измерить уверенность, которую должны иметь в дереве, — это только три из актуальных тем, которые были проигнорированы. Более полные обзоры классических результатов настоящей тематики можно найти в работах Хиллисеталь 1996 года и Ли 1997 года.
Задачи для самостоятельного решения:
Прежде чем пытаться решить предлагаемые задачи, загрузите базу данных primatedata в MATLAB, чтобы получить доступ к этим аспектам и искажениям, упомянутым выше, все из которых происходят из работы Хаясака от 1988 года. Введите команду who, чтобы увидеть имена переменных, создаваемых данным m-файлом.
5.6.1. Массив расстояний Distprimates представляет собой матрицу 12 × 12, с расстояниями, вычисляемыми по 6-параметрической модели подстановки основания. Названия таксонов в порядке записей матрицы находятся в переменной с именем Namesprimates. Выполните алгоритм присоединения соседей для этих данных с помощью команды nj(Distprimates,Namesprimates{:}).
Нарисуйте метрическое дерево, получившееся в результате.
5.6.2. Используйте имеющиеся знания и свой ответ на предыдущую задачу, чтобы изобразить корневое топологическое дерево, которое могло бы описать эволюционную историю пяти гоминоидов, упомянутых во введении.
5.6.3. Сколько возможных некорневых топологических деревьев может описать эволюцию 12 приматов? Сколько возможных корневых топологических деревьев может описать эволюцию пяти гоминоидов упомянутых во введении к главе?
5.6.4. Команды Nameshominoids=Namesprimates(1:5), Dist hominoids=Dist primates(1:5,1:5) извлекут имена и расстояния между первыми пятью приматами, гоминоидами, упомянутыми во введении к этой главе. Используйте программу nj на данных расстояния только для этих пяти, нарисовав полученное метрическое дерево. Согласуется ли полученная топология с топологией, приведенной в задаче 5.6.1? Согласуется ли метрическая структура? Объясните, как могли возникнуть какие-либо расхождения, которые заметили.
5.6.5. Используйте команду Seqhominoids=Seqprimates([1:5],:) для извлечения последовательностей для гоминоидов. Некоторые последовательности имеют пробелы, обозначаемые символом «–». Сайты, где любая последовательность имеет пробел, который должен быть удален перед вычислением расстояний, нужно предварительно отфильтровать. Команды gaps=(Seq hominoids =='-'), gapsites=find(sum(gaps)), Seq nogaps=Seq hominoids, Seq nogaps(:,gapsites)=[ ] найдут и удалят эти сайты. Используя последовательности без пробелов, вычислите расстояние Джукса-Кантора, 2-параметрическое расстояние Кимуры и логарифмическое расстояние. Напомним, что [DJC, DK2, DLD]=distances(Seqnogaps) сделает это легко.
а. Насколько похожи эти расстояния с расстояниями в массиве Distprimates?
б. Используйте каждый массив расстояний, который создаете, для построения дерева методом присоединения соседей. Все ли они одинаковы с топологической точки зрения? А с метрической?
5.6.6. Исследуйте, насколько разумны модели Джукса-Кантора и Кимуры замещения оснований для описания происхождения гоминоидов от общего предка. Сделайте это, рассматривая две последовательности одновременно, используя compseq.m для вычисления частотного массива оснований в двух последовательностях. Затем вычислите базовые распределения для каждой последовательности и матрицы Маркова, которые описывали бы эволюцию одного в другое. Близки ли они к модели Джукса-Кантора или Кимуры? Выбор другой модели, который делает Хаясака в работе 1988 года, кажется ли необходимым? Объясните почему.
5.6.7. Повторите решение задачи 5.6.5, но используйте все 12 последовательностей приматов. Какое из расстояний, по вашему мнению, наиболее целесообразно использовать? Объясните почему.
5.6.8. Из последовательностей гоминоидов выделите первые 10 информативных сайтов. Используйте их для вычисления оценки экономии (вручную) каждого из деревьев в начале этой главы, а также деревьев с соседними парами (шимпанзе, горилла) и (орангутан, гиббон). Какое из трех является наиболее экономным?
5.6.9. Повторите решение предыдущей задачи, но используя 10 информативных сайтов, выбранных для равномерного распределения между информативными сайтами. Считаете ли, что этот выбор информативных сайтов должен быть более или менее обоснованным, по сравнению с предыдущей задачей? Объясните почему. Очевидно, что использование всех информативных сайтов было бы предпочтительнее, но это невозможно сделать вручную, потому что для этих 5 таксонов их 90.
5.6.10. Если у вас есть доступ к программному обеспечению, которое попытается найти самое экономное дерево, используйте его на полных последовательностях для пяти приматов. Примечание: эти последовательности распространяются вместе с образцом файла данных работы Суоффорда от 2002 года.
5.6.11. Векторные кодирующие сайты и некодирующие сайты содержат индексы кодирующих и некодирующих сайтов в последовательностях приматов. Кодирующие сайты могут быть извлечены с помощью команды Seqcoding=Seqprimates(:,codingsites).
а. Вычислите частотные массивы оснований в кодирующих последовательностях для приматов путем сравнения последовательностей по два за раз. Модель Джукса-Кантора или модель Кимуры кажутся разумными, или думаете, что потребуется другая модель?
б. Повторите часть (а) для некодирующих сайтов последовательностей. Считаете ли, что одна и та же модель может применяться как к кодирующим, так и к некодирующим сайтам? Объясните, ссылаясь на данные.
5.6.12. Поскольку кодирование и некодирование могут быть различными, они могут привести к выводу различных деревьев.
а. Используя только кодирующие участки и логарифмическое расстояние, найдите дерево методом присоединения соседей для 12 приматов. Согласуется ли оно топологически с деревом, сделанным с использованием всех сайтов?
б. Используя только некодирующие участки и логарифмическое расстояние, найдите дерево методом присоединения соседей для 12 приматов. Согласуется ли оно топологически с деревом, сделанным с использованием всех сайтов?
Проектные работы:
1. Передача ВИЧ через зубы
В 1990 году в еженедельном отчете центра по контролю и профилактике заболеваний о заболеваемости и смертности сообщалось, что молодая женщина во Флориде, скорее всего, была инфицирована ВИЧ своим стоматологом. Этот вывод был основан в первую очередь на отсутствии альтернативных объяснений инфекции. Стоматолог, который был ВИЧ-положительным, затем публично попросил, чтобы его пациенты были протестированы. В общей сложности семь пациентов были признаны ВИЧ-положительными.
Конечно, амбулаторные ВИЧ-положительные больные были необязательно инфицированы стоматологом. Можно было бы ожидать, что в большой стоматологической практике будут некоторые инфицированные пациенты, чья инфекция не имеет ничего общего с их стоматологической помощью. Эпидемиологическое расследование попыталось оценить другие факторы риска для пациентов. Вероятно, в то время, как и для других заболевания, не зубные инфекции возникают в качестве сопутствующих. Однако из-за трудностей получения точных ответов от пациентов о поведении высокого риска результаты такого исследования нельзя считать окончательными.
Поскольку никаких других возможных случаев стоматологической инфекции никогда не было зарегистрировано, некоторые сомнения оставались в отношении случаев во Флориде.
В 1992 году в Science появилась статья Оу. Эта работа использовала совершенно другой подход с использованием доказательств ДНК, чтобы попытаться установить вероятность пути стоматологической инфекции для пациентов. Поскольку ВИЧ так быстро мутирует в квазивиды, можно было бы ожидать, что люди, недавно инфицированные непосредственным контактом, имеют более похожие виды, чем те, чей общий источник инфекции был более удален. Поэтому исследователи решили секвенировать очень изменчивый ген оболочки ВИЧ у каждого пациента, стоматолога и некоторых других ВИЧ-инфицированных людей, живущих поблизости, которые, как ожидалось, не имели какого-либо тесного контакта с изучаемыми случаями (то есть с местным контролем). Затем они использовали последовательности для построения филогенетического дерева и по схеме кластеризации определили, какие пациенты, по их мнению, были инфицированы стоматологом.
Некоторые из последовательностей ДНК в упомянутой статье были загружены из GenBank для использования. В MATLAB запустите m-файл flhiv.m для чтения данных последовательностей. Это создаст последовательности с именами: dnt, lc1, lc5, ptb, ptc, ptd.
Эти образцы относятся к стоматологу, местному контролю 1, местному контролю 5, пациенту b, пациенту c и пациенту d в научной статье. Хотя эти последовательности уже выровнены, они имеют разную длину, поэтому придется найти самую короткую и отрезать концы других, чтобы сравнить их.
Постройте филогенетические деревья, используя эти последовательности, и сделайте выводы о том, какие пациенты, вероятно, были инфицированы стоматологом.
Рекомендации
Лучше всего попробовать несколько различных методов строительства дерева.
Принимая решение об использовании UPGMA или метода присоединения соседей (или, возможно того и другого), учитывайте предположения, которые делают эти методы.
При выборе формулы расстояния для использования убедитесь, что просматриваете данные, чтобы увидеть, какие модели кажутся наиболее подходящими. Если разные формы дают разные деревья, то в каком из них будете наиболее уверены? Почему?
Если используете метод, который производит некорневое дерево, где нужно разместить корень?
Прежде чем использовать метод максимальной экономии, вычислите, сколько различных деревьев необходимо было бы рассмотреть, если бы все они были исследованы.
Поскольку считать экономичность вручную для большого количества деревьев практически нецелесообразно, нужно использовать столько информативных видов, сколько сочтете приемлемым, и вычислить экономичность для небольшого числа различных деревьев. Одно из этих деревьев должно быть сохранено в файле Distancemethod, а остальные должны быть деревьями, которые, по вашему мнению, также могут быть хорошими кандидатами на эту роль.
Насколько уверены в достоверности полученных результатов и почему? Если отвергаете результаты проделанной работы по построению деревьев как недостаточно строго обоснованные с математической точки зрения, то почувствуете ли большую уверенность в достоверности, просто принимая на веру слова пациентов, заинтересованных в результатах исследования различных факторов риска заражения ВИЧ? Дайте честную оценку тому, насколько ценными, по вашему мнению, являются филогенетические методы.
Приведённый ознакомительный фрагмент книги Математические модели в естественнонаучном образовании. Том II предоставлен нашим книжным партнёром — компанией ЛитРес.
Купить и скачать полную версию книги в форматах FB2, ePub, MOBI, TXT, HTML, RTF и других