Як ми вже згадували в попередньому розділі, VCF це стандартний формат введення та виведення SnpEff. Настійно рекомендується використовувати VCF як формат введення та виведення, оскільки це стандартний формат, який також можна використовувати іншими інструментами та програмними пакетами.
SnpEff приймає вхідні файли в такому форматі: Формат VCF, що є стандартом де-факто для варіантів послідовності. Формат BED: щоб анотувати експерименти зі збагачення (наприклад, піки ChIP-Seq) або інші геномні дані.
Щоб створити базу даних, SnpEff потребує:
- Еталонна послідовність геному: це послідовність усіх хромосом у геномі, зазвичай у файлі FASTA.
- Файли анотацій генів: це інформація про те, де в геномі знаходяться гени, транскрипти та екзони. …
- Послідовності CDS або білків з геному.
SnpEff створює три вихідних файли: файл HTML, що містить підсумкову статистику про варіанти та їх анотації; анотований файл VCF; і. текстовий файл, що підсумовує кількість типів варіантів на ген.
Типове використання Вихід: SnpEff аналізує вхідні варіанти. Він анотує варіанти та обчислює вплив, який вони справляють на відомі гени (наприклад, зміни амінокислот). . SnpSift — це набір інструментів, який дозволяє фільтрувати анотовані файли та керувати ними.
Що таке форматування анотації. Анотації можна зберігати в різних форматах – Pascal VOC XML, COCO JSON, YOLO, текстові файли та маски зображень.