Количественный анализ альтернативного сплайсинга
Количественный анализ альтернативного сплайсинга — набор экспериментальных и вычислительных методов, позволяющих определить относительные представленности различных транскриптов одного гена в биологическом образце.
Практическое значение количественного анализаПравить
Альтернативный сплайсинг позволяет одному гену кодировать несколько зрелых транскриптов и, впоследствии, белков. Альтернативный сплайсинг широко распространен у высших эукариот, по современным оценкам до 95 % генов человека сплайсируются альтернативно. Различные изоформы могут производится на разных стадиях развития организма и/или в разных тканях. Альтернативный сплайсинг может меняться в ответ на внешние воздействия или при болезнях. Исследования последних лет указывают на то, что многие генетические заболевания связаны с нарушениями альтернативного сплайсинга. Количественный анализ альтернативного сплайсинга является одной из составляющих анализа транскриптома при решении биологических или медицинских задач.
МетодыПравить
Методы анализа альтернативного сплайсинга включают в себя экспериментальные процедуры, применяемые для анализа транскриптома, а также биоинформатические методы предназначенные для обработки результатов экспериментов. Альтернативный сплайсинг в одном гене можно изучать при помощи секвенирования кДНК или ПЦР с обратной транскрипцией. Однако, вследствие развития методов массовой транскриптомики альтернативный сплайсинг все чаще изучается в масштабе всего транскриптома. Первоначально использовались методы, основанные на анализе экспрессионных меток[en] и ДНК-микрочипов с пробами специфичными к отдельным экзонам и/или экзон-экзонным границам. На данный момент основным методом анализа альтернативного сплайсинга является массовое секвенирование РНК. Количественные методы анализа альтернативного сплайсинга используют выравнивания прочтений[en] полученных в результате массового секвенирования РНК на геном соответствующего организма. Так как транскриптомные прочтения могут проходить через границы экзонов, для их выравнивания используются специальные программы такие как STAR[1], HISAT2[2], GSNAP[3] и другие. Данные программы могут предсказывать границы экзонов и интронов исходя из самих прочтений, или использовать информацию из сторонних источников (например базы данных Ensembl). В некоторых случаях анализ альтернативного сплайсинга может включать создание новой или улучшение существующей геномной аннотации, то есть таблицы координат экзонов, интронов, транскриптов и генов. Для этой цели могут использоваться такие программы как Cufflinks, StringTie, Scripture и другие.
На данный момент опубликовано более десяти различных биоинформатических методов анализа альтернативного сплайсинга на основе данных секвенирования РНК. Большинство из них используют в качестве входных данных выравнивания прочтений на геном в формате bam и геномную аннотацию в формате gff. Некоторые методы включат выравнивание прочтений и аннотацию генома в качестве составных частей. В этом случае входными данными будут являться последовательности прочтений в формате fastq и геномные последовательности в формате fasta.
Существующие биоинформатические методы могут быть разделены на две группы в зависимости от объекта анализа. Часть методов используют транскрипт-центричный подход. В этом случае для каждого транскрипта кодируемого данным геном вычисляется относительная представленность: отношение концентрации данного транскрипта к суммарной концентрации всех транскриптов гена. В экзон-центричным подходе для каждого альтернативно сплайсирующегося экзона или интрона вычисляется частота включения — доля транскриптов содержащих данный экзон или интрон. В английской литературе для обозначения частоты включения обычно используется словосочетание Percent Spliced In или Ψ.
КлассификацияПравить
Алгоритмы, использующиеся при количественном анализе и оценке альтернативного сплайсинга могут быть классифицированы по тому, используют ли они выравнивание с последовательностью референсного генома[en], или нет.
Алгоритмы de novo реконструкцииПравить
Методы, использующие подход ‘сначала сборка’ (de novo) используют риды[en] для непосредственной сборки транскриптов, которые впоследствии могут быть сопоставлены с референсным геномом, если он доступен.
Методы, использующие алгоритмы de novo реконструкции:
- Trinity
- Oases
- SOAPdenovo-Trans
- EBARDenovo
- ABySS[4]
Геном-основанные алгоритмы реконструкцииПравить
Методы, использующие подход ‘сначала сопоставление’ сначала выравнивают все риды по референсному (неаннотированному) геному, а затем объединяют последовательности с перекрывающимися выравниваниями.
Методы, использующие геном-основанные алгоритмы реконструкции:
Примеры методовПравить
iReckonПравить
У алгоритма iReckon[12] есть три основных этапа: идентификация всех возможных изоформ, перестройка ридов в эти изоформы и реконструкция распространенности каждой предполагаемой изоформы.
На первом этапе IReckon ищет изоформы, которые возможно присутствуют в последовательности образца. Для этого выравнивают все риды с геномом используя алгоритм TopHat[13]. Выравнивание и известные изоформы используются для генерирование множества всех наблюдаемых и известных мест сплайсинга, которые используются для построения графика сплайсинга. Данные о соединениях сплайсинга позволяют обнаруживать события альтернативного сплайсинга. Затем для каждого графика, перечисляются все возможные пути транскрипции от сайта старта до сайта конца. Каждый такой путь соответствует изоформе. Затем добавляется изоформы соответствующей пре-РНК в статистическую модель.
На втором шаге для каждой предполагаемой изоформы, мы извлекаем соответствующую ДНК последовательность и перевыравниванием риды на набор возможных изоформ. Этот шаг позволяет использовать более чувствительные инструменты выравнивания. В результате больше ридов правильно выравнены. Следует заметить, что каждая пара ридов может выровнять не только к нескольким изоформ внутри гена, но и множеству генов. Каждой паре присваивается начальное сродство к каждой изоформе, к которой она была выровнена. Это сродство основано на счете выравнивания.
На последнем шаге, можно определить набор изоформ присутствующий в данных и оценить их распространенность, используя EM-алгоритм на множестве всех возможных изоформ. Стандартный EM-алгоритм оценивает количество каждой изоформы на основании посчитанных пар ридов, а затем перераспределяет пары на изофрормы основываясь на счете выравниваний и оценки экспрессии изоформ.
MISOПравить
MISO[14] — Mixture of ISOforms (смесь с изоформами), статистическая модель которая оценивает экспрессию альтернативно спласированных экзонов или изоформ. MISO выдает доверительные интервалы для оценки множества изоформ.
Для оценки альтернативного сплайсинга используются данные RNA-seq. MISO и большинство других методов используют риды выравненные на последовательности сплайсинг-соединений, которые вычислены из известных или предсказанных экзоно-интронные границ. «Процент сплайсинга» (Ψ) обозначает фракцию мРНК, которая представляет включенную изоформу. Риды выравненные на альтернативные экзоны поддерживают включение изоформ, тогда как риды выравненные на соединения между соседними конститутивными экзонами поддерживают исключение изоформ; относительная плотность ридов этих двух множеств является стандартной оценкой Ψ, обозначенной Ψsg.
МISO образцы равномерно считываются из выбранной изоформы, а затем восстанавливают основные распространенные изоформы с помощью базы коротких ридов. В результате мРНК фрагментации в подготовленной библиотеке, множество мРНК и длин вносят приблизительный вклад для прочтения образцов RNA-seq. Этот эффект обрабатывается путём масштабирования множеств Ψ и 1-Ψ двух изоформ количеством возможных ридов, которые могут быть сгенерированы из каждой изоформы, соответственно. В экзон-ориентированном анализе включающий один альтернативный экзон вводят аналитическое решение проблемы ввода, тогда как для изоформ-ориентированного анализа и оценки используются доверительные интервалы найденные е с помощью метода Монте-Карло. Оценка Ψmiso использует все позиции ридов использованные в Ψsg и риды выравненные на соседние экзоны, а также использует информацию о библиотеке распределения длин вставок в paired-end RNA-seq. Обе оценки Ψmiso и Ψsg являются независимы от оценки.
CuffdiffПравить
Cuffdiff[15] генерирует более точную оценку изменений в экспрессии генов, по сравнению с другими существующими подходами. Cuffdiff предполагает, что экспрессия транскрипта в каждом условии может быть измерена путём подсчета количества фрагментов сгенерированная им. Таким образом, изменение в уровне экспрессии транскриптов измеряется путём сравнения количества фрагментов каждом условии. Если возможность увидеть изменение достаточно мало по соответствующей статистической модели, то транскрипт считается значительно экспрессируемым.
Cuffdiff определяет степень избыточное рассеяние в смеси по глобально установленной наблюдаемой дисперсии. Затем алгоритм оценивает число фрагментов, которые произошли из каждого транскрипта. Cuffdiff оценивает неопределенность, рассчитывая достоверность, что каждый фрагмент корректно назначен на транскрипт, который сгенерировал его. Транскрипты с более общими экзонами и несколько фрагментов будут давать большую неопределенность. Также алгоритм находит неопределенности во фрагментах транскрипта как бета-распределение избыточного рассеивания как отрицательное биномиальное распределение, которое отображает изменение экспрессии в изоформах. Cuffdiff оценивает экспрессию генов и транскриптов, ковариацию между изоформами одного и того же гена в повторных экспериментах. Это позволяет точно оценить экспрессию генов и выполнить анализ на уровне генов. Программа сообщает пользователю изменение экспрессии для каждого гена и транскрипта, а также статистические значения для оценки этих изменений.
AIDEПравить
AIDE[16] (с англ. annotation-assisted isoform discover) — метод, позволяющий напрямую отсеивать ошибочно определённые изоформы через принцип выбора модели на основе тестирования.
AIDE поэтапно определяет приоритетность аннотированных изоформ и точно идентифицирует новые изоформы, добавление которых значительно улучшает объяснение наблюдаемых считываний RNA-seq. Чтобы компенсировать потерю информации из-за коротких ридов, AIDE использует информацию из аннотации, тем самым достигая самой высокой точности в обнаружении изоформ и самой низкой частоты ошибок в оценке изобилия изоформ, по сравнению со многими другими методами.
SQANTIПравить
SQANTI[17] (с англ. Structural and Quality Annotation of Novel Transcript Isoforms) — инструмент для анализа транскриптомных данных с длинными ридами, который определяет до 47 различных дескрипторов с описаниями свойств транскрипта, и выдает широкий спектр сводных графов для помощи в интерпретации выходных данных секвенирования. Также, реализует алгоритм машинного обучения для удаления возникающих артефактов на основании этих дескрипторов.
TrinityПравить
Trinity[18] — модульный метод, объединяющий три компонента: Inchworm («гусеница»), Chrysalis («куколка») и Butterfly («бабочка»). На первом этапе Inchworm собирает риды в уникальные последовательности транскриптов. Далее, Chrysalis кластеризует связанные контиги, соответствующие частям альтернативно сплайсированных транскриптов или уникальным частям генов-паралогов. Наконец, Butterfly анализирует пути, выбранные для ридов и пар ридов в контексте соответствующего графа де Брёйна, и сообщает обо всех вероятных последовательностях транскриптов, учитывая альтернативно сплайсированные изоформы и транскрипты, полученные из генов-паралогов.
OasesПравить
Oases[19] — метод для эвристической сборки RNA-seq ридов в отсутствие рефересного генома, в широком спектре значений экспрессии и в присутствии альтернативных изоформ. Это достигается за счет использования массива хэш-длин, динамической фильтрации шума, надежного разрешения событий альтернативного сплайсинга и эффективного объединения нескольких сборок.
Процесс сборки, выполняемый Oases, состоит из независимых сборок, которые варьируются одним важным параметром — хеш-длиной (или k-мером). В каждой из сборок, риды используются для построения графа де Брёйна, который затем упрощается из-за ошибок, организуется в скэффолд, разделяется на локусы и, наконец, окончательно анализируется с последующим извлечением сборок транскриптов. Как только все отдельные сборки k-меров завершены, они объединяются в окончательную сборку.
SOAPdenovo-TransПравить
SOAPdenovo-Trans[20] — алгоритм, включающий в себя модель устранения ошибок метода Trinity и надежный метод обхода эвристического графа, использующийся в Oases.
Алгоритм состоит из двух основных этапов: сборки контигов и сборки транскрипта.
Сборка контиговПравить
- Из ридов строится граф де Брюина.
- Убираются ошибки секвенирования.
- Строятся контиги.
Сборка транскриптаПравить
- Одно- и двухконцевые риды сопоставляются с собранными контигами для построения графов скэффолда.
- Транскрипты создаются путем обхода надежных путей для каждого графа.
- Разрешение неоднозначных контигов.
- Линеаризация контигов в скэффолды
SOAPdenovo-Trans обходит проблемы, встречающиеся у двух предыдущих методов: Oases предсказывает больше избыточных транскриптов, возможно, из-за отсутствия эффективной модели устранения ошибок, а Trinity предсказывает меньше полноразмерных транскриптов, возможно, из-за того, что не использует данные от двухконцевых ридов для построения скэффолда.
EBARDenovoПравить
EBARDenovo[21] (с англ. Extension, Bridging And Repeat-sensing Denovo) — алгоритм de novo сборки, который расшифровывает, соединяет и распознает повторы de novo. Этот алгоритм использует эффективную функцию обнаружения химерных фрагментов, чтобы аннулировать эффект от аберрантных химерных ридов в данных RNA-Seq. EBARDenovo позволяет разрешить проблемы при сборке RNA-Seq, возникающие из-за ошибок секвенирования, повторяющихся последовательностей и аберрантных химерных ампликонов. Было показано, что является более эффективным по сравнению с Trinity и Oases.
CIDANEПравить
CIDANE[22] — система для реконструкции транскриптов на основе генома и количественной оценки по данным RNA-seq. Помимо реконструкции транскриптов ab initio, алгоритм также позволяет использовать уже аннотированные известные сайты сплайсинга, сайты начала и конца транскрипции или полноразмерные транскрипты, которые доступны для большинства модельных организмов. Основная идея CIDANE — определение наилучшего предсказания транскрипта для модели ценой аппроксимации функции потерь. Линейная модель на основе входных данных предсказывает изоформы и их приблизительное содержание методом регуляризованной регрессии. На следующем, необязательном этапе дополнительные изоформы используются для улучшения предсказания. В конечном итоге список изоформ и их количественное содержание выводится в форме gtf-файла.
StrawberryПравить
Strawberry[23] — метод и вычислительный инструмент для реконструкции транскриптов и количественного анализа независимо от того, аннотированы гены или нет. Для определения минимального набора транскриптов, наилучшим способом объясняющих все наблюдаемые выравнивания ридов, используются flow-network алгоритмы. Strawberry можно использовать сразу после выравнивания, используя достоинства последних сборок геномов.
См. такжеПравить
ПримечанияПравить
- ↑ Alexander Dobin, Carrie A. Davis, Felix Schlesinger, Jorg Drenkow, Chris Zaleski. STAR: ultrafast universal RNA-seq aligner // Bioinformatics (Oxford, England). — 2013-01-01. — Т. 29, вып. 1. — С. 15–21. — ISSN 1367-4811. — doi:10.1093/bioinformatics/bts635. Архивировано 6 мая 2020 года.
- ↑ Daehwan Kim, Ben Langmead, Steven L. Salzberg. HISAT: a fast spliced aligner with low memory requirements // Nature Methods. — 2015-04. — Т. 12, вып. 4. — С. 357–360. — ISSN 1548-7105. — doi:10.1038/nmeth.3317. Архивировано 6 мая 2020 года.
- ↑ Thomas D. Wu, Serban Nacu. Fast and SNP-tolerant detection of complex variants and splicing in short reads // Bioinformatics (Oxford, England). — 2010-04-01. — Т. 26, вып. 7. — С. 873–881. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btq057. Архивировано 6 мая 2020 года.
- ↑ Simpson J. T., Wong K., Jackman S. D., Schein J. E., Jones S. J., Birol I. ABySS: a parallel assembler for short read sequence data. (англ.) // Genome Research. — 2009. — June (vol. 19, no. 6). — P. 1117—1123. — doi:10.1101/gr.089532.108. — PMID 19251739. [исправить]
- ↑ Cole Trapnell, Brian A. Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation // Nature Biotechnology. — 2010-05. — Т. 28, вып. 5. — С. 511–515. — ISSN 1546-1696. — doi:10.1038/nbt.1621. Архивировано 6 мая 2020 года.
- ↑ Mitchell Guttman, Manuel Garber, Joshua Z. Levin, Julie Donaghey, James Robinson. Ab initio reconstruction of cell type-specific transcriptomes in mouse reveals the conserved multi-exonic structure of lincRNAs // Nature Biotechnology. — 2010-05. — Т. 28, вып. 5. — С. 503–510. — ISSN 1546-1696. — doi:10.1038/nbt.1633. Архивировано 24 июля 2015 года.
- ↑ Mihaela Pertea, Geo M. Pertea, Corina M. Antonescu, Tsung-Cheng Chang, Joshua T. Mendell. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads // Nature Biotechnology. — 2015-03. — Т. 33, вып. 3. — С. 290–295. — ISSN 1546-1696. — doi:10.1038/nbt.3122. Архивировано 16 сентября 2019 года.
- ↑ Wei Li, Tao Jiang. Transcriptome assembly and isoform expression level estimation from biased RNA-Seq reads // Bioinformatics (Oxford, England). — 2012-11-15. — Т. 28, вып. 22. — С. 2914–2921. — ISSN 1367-4811. — doi:10.1093/bioinformatics/bts559. Архивировано 4 июня 2015 года.
- ↑ Wei Li, Jianxing Feng, Tao Jiang. IsoLasso: a LASSO regression approach to RNA-Seq based transcriptome assembly // Journal of Computational Biology: A Journal of Computational Molecular Cell Biology. — 2011-11. — Т. 18, вып. 11. — С. 1693–1707. — ISSN 1557-8666. — doi:10.1089/cmb.2011.0171. Архивировано 8 июля 2015 года.
- ↑ Akdes Serin Harmanci, Arif O. Harmanci, Xiaobo Zhou. CaSpER identifies and visualizes CNV events by integrative analysis of single-cell or bulk RNA-sequencing data // Nature Communications. — 01 03, 2020. — Т. 11, вып. 1. — С. 89. — ISSN 2041-1723. — doi:10.1038/s41467-019-13779-x.
- ↑ Ali Mortazavi, Brian A. Williams, Kenneth McCue, Lorian Schaeffer, Barbara Wold. Mapping and quantifying mammalian transcriptomes by RNA-Seq // Nature Methods. — 2008-07. — Т. 5, вып. 7. — С. 621–628. — ISSN 1548-7105. — doi:10.1038/nmeth.1226. Архивировано 5 мая 2020 года.
- ↑ Aziz M. Mezlini, Eric J.M. Smith, Marc Fiume. iReckon: Simultaneous isoform discovery and abundance estimation from RNA-seq data (англ.) // Genome Research (англ.) (рус. : journal. — 2013. — Vol. 23 pages=519—529. — doi:10.1101/gr.142232.112.
- ↑ Cole Trapnell, Lior Pachter, Steven L. Salzberg. TopHat: discovering splice junctions with RNA-Seq // Bioinformatics (Oxford, England). — 2009-05-01. — Т. 25, вып. 9. — С. 1105–1111. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btp120. Архивировано 6 мая 2020 года.
- ↑ Yarden Katz,Eric T. Wang, Edoardo M. Airoldi,Christopher B. Burge. Analysis and design of RNA sequencing experiments foridentifying isoform regulation (англ.) // Nature Methods : journal. — 2010. — Vol. 7, no. 12. — P. 1009—1015. — doi:10.1038/nmeth.1528..
- ↑ Cole Trapnell, David G Hendrickson, Martin Sauvageau, Loyal Goff, John L Rinn, Lior Pachter. Differential analysis of gene regulation at transcript resolution with RNA-seq (англ.) // Nature Biotechnology : journal. — Nature Publishing Group, 2013. — Vol. 31, no. 1. — P. 46—53. — doi:10.1038/nbt.2450.
- ↑ Li W. V., Li S., Tong X., Deng L., Shi H., Li J. J. AIDE: annotation-assisted isoform discovery with high precision. (англ.) // Genome Research. — 2019. — December (vol. 29, no. 12). — P. 2056—2072. — doi:10.1101/gr.251108.119. — PMID 31694868. [исправить]
- ↑ Tardaguila Manuel, de la Fuente Lorena, Marti Cristina, Pereira Cécile, Pardo-Palacios Francisco Jose, del Risco Hector, Ferrell Marc, Mellado Maravillas, Macchietto Marissa, Verheggen Kenneth, Edelmann Mariola, Ezkurdia Iakes, Vazquez Jesus, Tress Michael, Mortazavi Ali, Martens Lennart, Rodriguez-Navarro Susana, Moreno-Manzano Victoria, Conesa Ana. SQANTI: extensive characterization of long-read transcript sequences for quality control in full-length transcriptome identification and quantification (англ.) // Genome Research. — 2018. — 9 February (vol. 28, no. 3). — P. 396—411. — ISSN 1088-9051. — doi:10.1101/gr.222976.117. [исправить]
- ↑ Grabherr M. G., Haas B. J., Yassour M., Levin J. Z., Thompson D. A., Amit I., Adiconis X., Fan L., Raychowdhury R., Zeng Q., Chen Z., Mauceli E., Hacohen N., Gnirke A., Rhind N., di Palma F., Birren B. W., Nusbaum C., Lindblad-Toh K., Friedman N., Regev A. Full-length transcriptome assembly from RNA-Seq data without a reference genome. (англ.) // Nature Biotechnology. — 2011. — 15 May (vol. 29, no. 7). — P. 644—652. — doi:10.1038/nbt.1883. — PMID 21572440. [исправить]
- ↑ Schulz M. H., Zerbino D. R., Vingron M., Birney E. Oases: robust de novo RNA-seq assembly across the dynamic range of expression levels. (англ.) // Bioinformatics. — 2012. — 15 April (vol. 28, no. 8). — P. 1086—1092. — doi:10.1093/bioinformatics/bts094. — PMID 22368243. [исправить]
- ↑ Xie Y., Wu G., Tang J., Luo R., Patterson J., Liu S., Huang W., He G., Gu S., Li S., Zhou X., Lam T.-W., Li Y., Xu X., Wong G. K.-S., Wang J. SOAPdenovo-Trans: de novo transcriptome assembly with short RNA-Seq reads (англ.) // Bioinformatics. — 2014. — 13 February (vol. 30, no. 12). — P. 1660—1666. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btu077. [исправить]
- ↑ Chu H. T., Hsiao W. W., Chen J. C., Yeh T. J., Tsai M. H., Lin H., Liu Y. W., Lee S. A., Chen C. C., Tsao T. T., Kao C. Y. EBARDenovo: highly accurate de novo assembly of RNA-Seq with efficient chimera-detection. (англ.) // Bioinformatics. — 2013. — 15 April (vol. 29, no. 8). — P. 1004—1010. — doi:10.1093/bioinformatics/btt092. — PMID 23457040. [исправить]
- ↑ Canzar Stefan, Andreotti Sandro, Weese David, Reinert Knut, Klau Gunnar W. CIDANE: comprehensive isoform discovery and abundance estimation (англ.) // Genome Biology. — 2016. — 30 January (vol. 17, no. 1). — ISSN 1474-760X. — doi:10.1186/s13059-015-0865-0. [исправить]
- ↑ Liu Ruolin, Dickerson Julie. Strawberry: Fast and accurate genome-guided transcript reconstruction and quantification from RNA-Seq (англ.) // PLOS Computational Biology. — 2017. — 27 November (vol. 13, no. 11). — P. e1005851. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1005851. [исправить]
СсылкиПравить
- Charlotte Soneson and Mauro Delorenzi — A comparison of methods for differential expression analysis of RNA-seq data — BMC Bioinformatics, 2013, 14:91