FASTQ
Значимость предмета статьи поставлена под сомнение. |
Формат FASTQ — текстовый формат данных, используемый для представления биологической последовательности (обычно нуклеотидной последовательности) и показателей качества каждого элемента последовательности. Элементы последовательности и их показатели качества кодируются для краткости одиночными символами ASCII[1]. Применяется в биоинформатике.
Первоначально формат был разработан в Wellcome Trust Sanger Institute для объединения отформатированной последовательности FASTA и данных о качестве элементов, но затем он стал стандартом де-факто для хранения результатов высокоэффективных инструментов секвенирования, в частности для анализаторов генома корпорации Illumina[2].
Формат FASTQ не стандартизирован и различные аппаратно-программные системы обработки информации, использующие его для входных/выходных данных могут иметь некоторые различия (например разные системы кодирования показателя качества элементов последовательности).[3]
ФорматПравить
Документ FASTQ обычно использует четыре строки на каждую последовательность.
- Строка 1 начинается с символа «@», за ней следует идентификатор последовательности и необязательное описание (например, строка заголовка FASTA).
- Строка 2 — это необработанные символы последовательности.
- Строка 3 начинается с символа «+» и является необязательной, после чего снова следует тот же идентификатор последовательности (и любое описание).
- Строка 4 кодирует значения качества для последовательности в строке 2 и должна содержать то же количество символов, что и строка последовательности.
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
Байт, представляющий качество, варьируется от 0x21 (самое низкое качество; '!' в ASCII) до 0x7e (самое высокое качество; '~' в ASCII). Ниже приведены символы значения качества в порядке возрастания качества слева направо (ASCII):
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
Исходные файлы Sanger FASTQ также позволяли разбивать строки последовательности и качества на несколько строк файла, но это, как правило, не рекомендуется, поскольку может затруднить синтаксический анализ из-за неудачного выбора «@» и «+» в качестве маркеров (эти символы также могут встречаться в строке качества).
ВариацииПравить
ПримечанияПравить
- ↑ FASTQ Format Specification (неопр.). Дата обращения: 13 декабря 2019. Архивировано 13 декабря 2019 года.
- ↑ FASTQ files explained (неопр.). Дата обращения: 13 декабря 2019. Архивировано 13 декабря 2019 года.
- ↑ drive5: Bioinformatics software and services. FASTQ files (неопр.). Дата обращения: 13 декабря 2019. Архивировано 2 декабря 2019 года.
Это статья-заготовка по биотехнологии. Вы можете помочь проекту, дополнив эту статью, как и любую другую в Википедии. Нажмите и узнайте подробности. |