TopHat

TopHat
TopHat
Тип	Биоинформатика
Автор	Cole Trapnell
Разработчики	Daehwan Kim, Steven Salzberg, Cole Trapnell
Написана на	C++, Python
Операционная система	Linux, OS X
Первый выпуск	27 октября 2008
Последняя версия	2.1.1 (23 февраля 2016)
Состояние	неактуальное, с 23 февраля 2016 активная поддержка проекта прекращена
Лицензия	Boost Software License
Сайт	ccb.jhu.edu/software/top…

TopHat — программное обеспечение из области биоинформатики, которое выравнивает полученные в результате РНК-секвенирования фрагменты последовательностей РНК — прочтения («риды») — на референсный^[en] геном и определяет границы экзонов. TopHat основан на алгоритме Bowtie^[en], который картирует короткие прочтения. Программа может определять не только известные соединения экзонов, но и идентифицировать новые^[1].

C выпуском последней версии TopHat 23 февраля 2016 разработчики прекратили активно поддерживать проект и предлагают как альтернативу программу HISAT2^[2], обладающую теми же основными возможностями, но способную выполнять задачу выравнивания прочтений и определения экзон-экзонных соединений быстрее, эффективнее и точнее^[3].

Принцип работыПравить

TopHat выравнивает прочтения на геном и самостоятельно находит границы сплайсированных экзонов, не нуждаясь в аннотациях генов^[en], то есть выполняет выравнивания ab initio. Однако, если аннотация генома существует, TopHat использует её: строит базу возможных границ экзонов и выравнивает прочтения на геном соответственно этой информации^[1].

Если аннотация генома отсутствует, то TopHat сначала определяет целые экзоны, то есть находящиеся в границах одного прочтения, используя алгоритм Bowtie^[en]. Bowtie индексирует референсный геном^[en] и определяет позиции прочтений в референсном геноме, используя технику сжатия данных — преобразование Барроуза — Уилера^[4].

Схема работы программы TopHat

Этапы работы алгоритмаПравить

Картирование прочтений на референсный геном и определение «начально некартированных» (ННК) прочтений;
Определение возможных сайтов сплайсинга;
Картирование ННК прочтений по возможным границам экзонов (seed-and-extend).

Картирование прочтений, попадающих в границы экзоновПравить

На первом этапе работы программы осуществляется картирование всех прочтений на референсный геном^[en] при помощи Bowtie. Прочтения, которые на этом шаге не удалось картировать, обозначаются как «начально некартированные» прочтения («initially unmapped reads», IUM или ННК), и они остаются в стороне. Также исключаются из дальнейшей работы прочтения, которые ложатся на несколько участков генома (по умолчанию, больше 10)^[1].

Далее TopHat, используя модуль сборки программного обеспечения Maq (неопр.). Дата обращения: 7 мая 2014. Архивировано 3 марта 2009 года.^[5], формирует из картированных прочтений «островки» — области генома с расшифрованной по картированным прочтениям консенсусной последовательностью. TopHat считает координаты этих «островков» координатами «истинных» экзонов. Если «островок» имеет низкое покрытие, то при сборке предсказание последовательности в нём может быть ошибочным и выдавать неверные основания. Поэтому TopHat использует референсный геном^[en] при предсказании нуклеотидов в таких участках, заменяя спорные основания на соответствующие основания из референса, в итоге последовательности таких «островков» оказываются псевдоконсенсусами^{[неизвестный термин]}. На краях «островка» могут находиться сайты соединения экзонов после сплайсинга, при этом на концах псевдоконсенсусов отсутствует часть последовательности из-за покрытия малым числом прочтений. Чтобы восстановить эти последовательности вместе с донорными и акцепторными сайтами фланкирующих интронов, TopHat добавляет к концам псевдоконсенсуса каждого «островка» последовательности из референсного генома (по 45 оснований, по умолчанию)^[1].

Если ген характеризуется низкой экспрессией, то соответствующий такому гену «островок» тоже имеет низкое покрытие. В его последовательности возникают гэпы, и один экзон дробится на несколько. Поэтому если расстояние между предсказанными экзонами меньше, чем 6 пар оснований, TopHat объединяет эти экзоны в один^[1].

Поиск сайтов сплайсингаПравить

TopHat идентифицирует все канонические сайты доноров и акцепторов (динуклеотиды «GT-AG», «GC-AG» и «AT-AC») внутри «островков» (в обратных цепях тоже). Затем алгоритм рассматривает те пары сайтов донор-акцептор соседних, но не обязательно ближайших друг к другу, «островков», между которыми можно найти последовательности потенциальных канонических интронов. Далее TopHat ищет среди ННК прочтений те, которые охватывают места стыка экзона и интрона, и картирует их по принципу seed-and-extend. По умолчанию программа рассматривает потенциальные интроны длиной от 70 до 20 000 нуклеотидов^[1].

Оптимизация алгоритмаПравить

Для того чтобы уменьшить время работы алгоритма часто снижают максимальную длину потенциального интрона. Чтобы увеличить чувствительность и уменьшить число ложноположительных результатов, программа исключает пары донорных и акцепторных сайтов, находящиеся внутри одного «островка». Но бывают такие случаи, что в пределах одного «островка» происходит соединение двух экзонов. Например, в случае гена, который имеет два альтернативных транскрипта, причем один из них содержит интрон, наложенный на 5'-нетранслируемую область другого транскрипта. Оба транскрипта присутствуют в образце для секвенирования, и TopHat отмечает их как единый «островок». Чтобы детектировать такие границы экзонов без снижения времени работы и специфичности, имеет смысл искать интроны только в пределах глубоко покрытых «островков»^[1].

В ходе алгоритма для каждого «островка», лежащего в координатах $\text{[math]}$ $\text{[math]}$ $(i,j)$ , TopHat рассчитывает статистику, которая соответствует глубине покрытия этого «островка»:

$\text{[math]}$ $\text{[math]}$ $D_{ij}={\frac {\sum _{m=i}^{j}d_{m}}{j-i}}\cdot {\frac {1}{\sum _{m=0}^{n}d_{m}}}$

где $\text{[math]}$ $\text{[math]}$ $d_{m}$ — это глубина покрытия прочтениями в координате $\text{[math]}$ $\text{[math]}$ $m$ в карте программы Bowtie, $\text{[math]}$ $\text{[math]}$ $n$ — длина референсного генома.

Если нормализовать значение $\text{[math]}$ $\text{[math]}$ $D_{ij}$ , так чтобы оно лежало в пределах [0; 1000], то при $\text{[math]}$ $\text{[math]}$ $D_{ij}>=300$ (по умолчанию) TopHat будет искать в этом «островке» границы экзонов. Чем выше это значение, тем быстрее работает программа^[1].

Картирование ННК прочтений по принципу seed-and-extendПравить

Стратегия seed and extend алгоритма TopHat. Подробное описание к тексте

Дальше программа ищет среди ННК множества прочтения, которые покрывают границы экзонов при помощи стратегии seed-and-extend. Алгоритм индексирует ННК прочтения и среди них находит такие, участки которых полностью совпадают с k позициями с каждой стороны от границы экзона (5, по умолчанию). Этот фрагмент прочтения длиной 10 нуклеотидов называется «зерно» («seed»), на рисунке показан темно-серым прямоугольником. Если в НКК прочтении находится «зерно», TopHat выравнивает последовательности дальше вправо и влево от «зерна». Серым на рисунке обозначены области, в которых TopHat может позволять определённое пользователем число несовпадений^[1].

Алгоритм выводит все выравнивания, которые у него получаются, и строит на их основе набор сайтов сплайсинга. Но, при этом, учитывается, что существует множество минорных альтернативных вариантов сплайсинга, поэтому часть предположительных границ экзонов просто не выводится алгоритмом во избежание ложноположительных результатов. Это достигается за счет различной оценки числа прочтений, покрывающих правую и левую границу экзонов: если покрытие хотя бы одной границы прочтениями < 15 %, то такое соединение не выводится^[1].

Модификации программыПравить

TopHat-FusionПравить

TopHat-Fusion — это алгоритм, разработанный для определения транскриптов, которые получаются в результате слияния генов при разрыве или объединении двух различных хромосом, или при перестройках внутри одной хромосомы. Эта программа является усовершенствованной TopHat и не зависит от аннотаций генов^[en], поэтому TopHat-Fusion может обнаружить транскрипты, полученные при объединении известных генов, неизвестных генов и неаннотированных вариантов сплайсинга известных генов. TopHat-Fusion является бесплатным сервисом и доступен на сайте TopHat-Fusion :: Center for Bioinformatics and Computational Biology (неопр.). Дата обращения: 20 апреля 2017. Архивировано 3 мая 2017 года.

В алгоритм TopHat-Fusion были внесены некоторые изменения, чтобы поиск транскриптов слитных генов^[en] стал возможен: после картирования всех прочтений и отделения «начально некартированных», программа делит каждое прочтение на части по 25 пар оснований или длиннее. Например, прочтение длиной 80 пар оснований алгоритм разделит на фрагменты длиной 25, 25 и 30. После чего происходит картирование фрагментов длиной 25 пар оснований относительно генома при помощи Bowtie^[en]. Если транскрипт нормальный, это значит, что выровненные с геномом сегменты могут быть разделены интроном установленной пользователем длины и находиться в одной ориентации на хромосоме. В случае же транскриптов слитных генов TopHat-Fusion снимает эти ограничения, позволяя детектировать объединения генов на разных хромосомах^[6].

На следующем этапе происходит отбор прочтений, являющихся кандидатами на случай слияния генов, но при этом выровненных во многих местах генома. Делается предположение, что такие множественные случаи выравнивания прочтения с геномом являются артефактами. Но есть и случаи нескольких копий слитных генов в геноме, поэтому устанавливается параметр М (2, по умолчанию), согласно которому происходит отбор прочтений: если M > 2, прочтения алгоритмом отбрасываются^[6].

Дополнительно вносится требование: необходимо иметь участок длиной как минимум 13 совпадающих пар оснований с обеих сторон от точки слияния генов, содержащий не более двух несовпадений. Причем участки с разных сторон от точки слияния генов должны: 1) принадлежать различным хромосомам, 2) принадлежать одной хромосоме, но находиться на расстоянии не менее 100 000 пар оснований — минимальное расстояние при хромосомных перестройках. Благодаря этим условиям, алгоритмом отбрасывается большинство прочтений^[6].

Как было сказано выше, TopHat делит ННК прочтения на сегменты, причем крайние могут быть картированы на различных хромосомах. Далее алгоритм использует сегменты для нахождения точки слияния. После нахождения примерной позиции, происходит повторное выравнивание сегментов от границ справа и слева на начальной ДНК по направлению к точке слияния. Алгоритм получает участки длиной 22 пары оснований (с обеих сторон — 44), фланкирующие точку слияния генов, и индексирует при помощи Bowtie, что впоследствии выравнивается с сегментами всех ННК прочтений. Выбирается лучшее выравнивание для каждого прочтения с использованием эвристической функции взвешивания, которая предусматривает штрафы за продление интронов (-2), делеций или вставок (-4) или слияний (-4). Если в итоге, с учетом штрафов, получается больше одного выравнивания с одинаковым минимальным весом, выбирается выравнивание с меньшим числом несовпадений^[6].

TopHat2Править

TopHat2 — улучшенная версия TopHat, позволяющая выравнивать прочтения различной длины и разрешающая вставки и делеции различной длины в соответствии с референсным геномом. Программа может выравнивать прочтения при разрыве гена, вызванного геномными транслокациями. Алгоритм совмещает способность определять новые сайты сплайсинга со способностью картировать прочтения относительно известных транскриптов. TopHat2 доступен на сайте TopHat :: Center for Bioinformatics and Computational Biology (неопр.). Дата обращения: 14 апреля 2017. Архивировано 30 апреля 2017 года.

Одной из задач при улучшении алгоритма являлось то обстоятельство, что если прочтение покрывает целый экзон и часть следующего экзона, то TopHat мог выровнять это прочтение только с первым экзоном. Вторая проблема заключается в том, что прочтения процессированных функциональных мРНК могут быть неверно картированы алгоритмом на участки неактивных псевдогенов^[7].

В случае, если есть известный транскриптом, TopHat2 картирует прочтения на нём, что повышает чувствительность и в общем улучшает картирование. Это также значительно снижает время работы алгоритма, так как размер транскриптома значительно меньше размера генома. Некартированные прочтения, для которых нет аннотации^[en] или которые имеют плохие выравнивания, TopHat2 выравнивает с геномом. Все прочтения, совпадающие с экзонами будут картированы^[7].

При помощи ННК прочтений алгоритм находит новые канонические сайты сплайсинга. TopHat2 может повторно картировать прочтения. Чтобы это стало возможным, некартированные прочтения разделяются на сегменты (аналогичным TopHat-Fusion способом) и выравниваются с геномом. Таким образом детектируются случаи слияния генов^[en] и наличие интронов, после чего TopHat2 повторно выравнивает, но уже целую последовательность прочтения, с участками генома, чтобы найти сайты сплайсинга. Используя похожий подход, в прочтениях детектируются вставки и делеции^[7].

На конечном этапе алгоритм разделяет прочтения на 2 группы: 1) имеющие единичное выравнивание, 2) имеющие несколько выравниваний. Во втором случае, TopHat2 собирает статистическую информацию о местах соединений экзонов, вставках, делециях, которая позволяет пересчитать вес выравнивания для каждого прочтения. Основываясь на таких улучшенных весах, TopHat2 выводит только лучшие выравнивания при нескольких находках для одного прочтения в геноме^[7].

ПримечанияПравить

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ Trapnell C., Pachter L., Salzberg S. L. TopHat: discovering splice junctions with RNA-Seq. (англ.) // Bioinformatics. — 2009. — Vol. 25, no. 9. — P. 1105—1111. — doi:10.1093/bioinformatics/btp120. — PMID 19289445. [исправить]
↑ Kim D., Langmead B., Salzberg S. L. HISAT: a fast spliced aligner with low memory requirements. (англ.) // Nature methods. — 2015. — Vol. 12, no. 4. — P. 357—360. — doi:10.1038/nmeth.3317. — PMID 25751142. [исправить]
↑ TopHat :: Center for Bioinformatics and Computational Biology (неопр.). Дата обращения: 14 апреля 2017. Архивировано 30 апреля 2017 года.
↑ Langmead B., Trapnell C., Pop M., Salzberg S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. (англ.) // Genome biology. — 2009. — Vol. 10, no. 3. — P. 25. — doi:10.1186/gb-2009-10-3-r25. — PMID 19261174. [исправить]
↑ Li H., Ruan J., Durbin R. Mapping short DNA sequencing reads and calling variants using mapping quality scores. (англ.) // Genome research. — 2008. — Vol. 18, no. 11. — P. 1851—1858. — doi:10.1101/gr.078212.108. — PMID 18714091. [исправить]
↑ ¹ ² ³ ⁴ Kim D., Salzberg S. L. TopHat-Fusion: an algorithm for discovery of novel fusion transcripts. (англ.) // Genome biology. — 2011. — Vol. 12, no. 8. — P. 72. — doi:10.1186/gb-2011-12-8-r72. — PMID 21835007. [исправить]
↑ ¹ ² ³ ⁴ Kim D., Pertea G., Trapnell C., Pimentel H., Kelley R., Salzberg S. L. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. (англ.) // Genome biology. — 2013. — Vol. 14, no. 4. — P. 36. — doi:10.1186/gb-2013-14-4-r36. — PMID 23618408. [исправить]

[TopHat-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ Trapnell C., Pachter L., Salzberg S. L. TopHat: discovering splice junctions with RNA-Seq. (англ.) // Bioinformatics. — 2009. — Vol. 25, no. 9. — P. 1105—1111. — doi:10.1093/bioinformatics/btp120. — PMID 19289445. [исправить]

[Hisat2-2] Kim D., Langmead B., Salzberg S. L. HISAT: a fast spliced aligner with low memory requirements. (англ.) // Nature methods. — 2015. — Vol. 12, no. 4. — P. 357—360. — doi:10.1038/nmeth.3317. — PMID 25751142. [исправить]

[tophat-web-3] TopHat :: Center for Bioinformatics and Computational Biology (неопр.). Дата обращения: 14 апреля 2017. Архивировано 30 апреля 2017 года.

[4] Langmead B., Trapnell C., Pop M., Salzberg S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. (англ.) // Genome biology. — 2009. — Vol. 10, no. 3. — P. 25. — doi:10.1186/gb-2009-10-3-r25. — PMID 19261174. [исправить]

[Maq-5] Li H., Ruan J., Durbin R. Mapping short DNA sequencing reads and calling variants using mapping quality scores. (англ.) // Genome research. — 2008. — Vol. 18, no. 11. — P. 1851—1858. — doi:10.1101/gr.078212.108. — PMID 18714091. [исправить]

[TopHat-Fusion-6] ¹ ² ³ ⁴ Kim D., Salzberg S. L. TopHat-Fusion: an algorithm for discovery of novel fusion transcripts. (англ.) // Genome biology. — 2011. — Vol. 12, no. 8. — P. 72. — doi:10.1186/gb-2011-12-8-r72. — PMID 21835007. [исправить]

[TopHat2-7] ¹ ² ³ ⁴ Kim D., Pertea G., Trapnell C., Pimentel H., Kelley R., Salzberg S. L. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. (англ.) // Genome biology. — 2013. — Vol. 14, no. 4. — P. 36. — doi:10.1186/gb-2013-14-4-r36. — PMID 23618408. [исправить]

[1]

[2]

[3]

[4]

[5]

[6]

[7]