56星座屋
当前位置: 首页 星座百科

vcf文件在哪里找(实操合并VCF文件的几种方法及注意事项)

时间:2023-06-08 作者: 小编 阅读量: 1 栏目名: 星座百科

实操合并VCF文件的几种方法及注意事项背景在基因组分析领域的很多不同场景中,需要合并VCF文件VCF文件简单来说,就是记录样本基因型的文件但多数VCF文件不只记录了基因型,也包含有关该基因型的来源的细节其它文件VCF文件的上游是BAM文件。

背 景

在基因组分析领域的很多不同场景中,需要合并VCF文件。

VCF文件。简单来说,就是记录样本基因型的文件。但多数VCF文件不只记录了基因型,也包含有关该基因型的来源的细节。

其它文件。VCF文件的上游是BAM文件,主要记录Reads与参考基因组的比对信息;更上游的,就是FASTQ测序数据,以及物种的参考基因组

不同类型的VCF文件。VCF文件有单样本的、多样本的;也有普通vcf文件 (只记录变异,未测到的、野生型的都不记录),及GVCF文件 (野生型的、变异的都记录,未测到的不记录)。

一个典型的GVCF文件

因此,本篇文章的使用者,需要首先了解GVCF文件与普通VCF文件的不同。因为二者对应的生信处理方法也非常不同。但具体有哪些不同,这里不再继续讲,可自行在网络资源上按照相应的关键词检索。

合并VCF文件需要注意的问题。VCF文件有时是多个样本、多个个体、或多个病例的合并;有时是不同染色体区域的VCF合并。上述每个场景都涉及不同的软件、程序,甚至算法,需要非常小心、谨慎地操作。

合并:不同样本的GVCF文件

GATK的CombineGVCFs GenotypeGVCFs

上面2个程序是一套组合,不可拆分,不可单独使用。

那为什么GATK开发者将二者分开呢,推测有两个原因:① 二者分别有些特定的参数;② 第1个程序非常耗时,第2个程序相对较快、但算法复杂。这个问题对使用者也无关紧要。

#合并队列中每个样本的每一个变异(GVCF文件)gatk CombineGVCFs \-R $ref \$(foriin`tail-n 2metadata.txt|cut-f1`;doecho"--variant${i}.hg38.raw.g.vcf";done)\-Ocohort.g.vcf.gz#获取具体基因型,完成变异CallinggatkGenotypeGVCFs \-R$ref\--dbsnp${dbSNP}\--variantcohort.g.vcf.gz\-OGenotype.cohort.dbSNP.g.vcf

当样本很多、数据量也大时,CombineGVCF程序很消耗内存,并且一旦中断(文件不全)就得重新来。其"-L"参数 (如"-L chr1:1-10000") 也不推荐使用 (否则GenotypeGVCFs步骤可能报错),但"-L chr1"没问题。

解决方法:① 限制内存:用"--java-option Xmx20g"等;② 分染色体,用"-L chrX"等。③ 组合使用①和②。

需要了解的是,GenomicsDB可以替代:CombineGVCFsGenotypeGVCFs,将多个样本GVCF处理生成一起的工作空间。两种方案各有各的优缺点。

根据GATK官网的描述,GenomicsDB更适用于几百个样本以上的情形。

合并:不同染色体区域的VCF文件

cat chr.list.25 # chr1# chr2#chr3# ...# chr22# chrX# chrY#chrMgatk MergeVcfs \$(for i in `cat chr.list.25 | cut -f 1 `; do echo "-I Genotype.cohort.${i}.dbSNP.g.vcf " ;done) \-OGenotype.cohort.dbSNP.g.vcf

MergeVcfs与CombineGVCFs不同。前者用于单纯地合并:样本相同、位点独立的VCF文件。如:同一个(或一组)样本的不同染色体的结果。

不像CombineGVCFs,MergeVcfs不做"gVCF block"的计算。此外MergeVcfs会检测两个VCF文件里的样本名是否相互"match"。

如果只查看MergeVcfs程序的介绍,根本看不出来它的用法的特点 (例如:对GVCF文件的合并可能无效),那么必然容易踩坑:

MergeVcfs (Picard) - Combines multiple variant files into a single variant file.

事实上,MergeVcfs及其等价的程序 (GatherVcfs) 不可用于合并不同样本的GVCF文件。但用来合并不同基因组区域的文件非常方便。

此场景除了MergeVcfs、GatherVcfs外的其它程序

vcf-concatsample1.chr1.vcfsample.chr2.vcf...>sample1.chrAll.vcfbcftoolsconcatsample1.chr1.vcfsample.chr2.vcf...-osample1.chrAll.vcf

其中,通过conda安装的vcftools,可能不带vcf-concat等程序。从这一点看,bcftools更方便

1个经验是:既然有GATK的MergeVcfs可用,那就尽量不用vcftools或bcftools,否则可能踩到另一个坑:不同程序对VCF文件的索引格式的要求不同、VCF的"FORMAT"列等也可能改变。

合并:不同样本的普通VCF文件

普通VCF文件只记录变异,即:① 无0/0基因型 (测序测到了、但未变异,即"Wild type") ;② 无"./."基因型 (即"缺失",测序未测到,即"No call") 。

对不同样本的⽂件合并,共有位点会合并统计;非共有位点若在某1个样本中无变异,则会⾃动记为缺失 ("./.") 。

1个典型的普通VCF文件 (只查看了第9、10列)

vcftools和bcftools在使用之前一般都需要对VCF文件:压缩、索引 (略)。

vcf-merge#略 (对于连软件安装都麻烦的程序)bcftoolssample1.vcfsample2.vcf...-osample.all.vcf

vcf-merge重新计算了AC、AN等指标的值

合并分型质量 ("QUAL"列) 时,vcf-merge取了平均取值,bcftools取了最⼤值, (下图的)gatk CombineVariants (不是CombineGVCFs,也不是MergeVcfs/GatherVcfs)取了最⼩值 (gatk4)

图片来源:https://wenku.baidu.com/view/a0ecad5602f69e3143323968011ca300a7c3f643.html

gatk CombineVariants (GATK4已无此程序)

# 压缩、索引单个VCF文件lssorted.*.vcf|whilereadid;do bcftools view $id -Oz -o $id.gz bcftools index $id.gzdone#合并bcftoolsmerge--threads8-mid-Ozsorted.*.vcf.gz\-obcftools.merged.103samps.vcf.gz #-m,--merge(关于多等位基因)Allowmultiallelicrecordsfor<snps|indels|both|all|none|id>,seemanpagefordetails[both] # -O, --output-type <b|u|z|v> 'b' compressed BCF; 'u' uncompressed BCF; 'z' compressed VCF; 'v' uncompressed VCF [v]# gVCF参数(可能不适用于gVCF文件):# -g, --gvcf <-|ref.fa> merge gVCF blocks, INFO/END tag is expected. Implies -i QS:sum,MinDP:min,I16:sum,IDV:max,IMF:max#测试某个位点# zcatbcftools.merged.103samps.vcf.gz|grep'112626'#有返回结果。但无DP等信息# 索引合并后的文件bcftoolsindexbcftools.merged.103samps.vcf.gz&

bcftools merge虽然有"--gvcf"参数,但根据之前的测试,可能不适用于对gVCF文件的合并。

总 结

总之,① 合并VCF文件要区分其文件类型,如:是否为gVCF文件,是否为基因组的不同区域,其内部的样本名称等;② 考虑到整个流程的兼容性和流畅性,建议当GATK有相应的工具时,优先使用之;③ 其它场景可依次考虑:bcftools、vcftools。

    推荐阅读
  • 形成酸雨的主要气体是什么(形成酸雨的主要气体)

    以下内容大家不妨参考一二希望能帮到您!形成酸雨的主要气体是什么酸雨是指PH小于5.6的雨雪或其他形式的降水,形成的主要气体有二氧化硫、三氧化硫、硫化氢、二氧化氮。酸雨主要是人为的向大气中排放大量酸性物质所造成的。酸雨又分硝酸型酸雨和硫酸型酸雨。

  • 木棉花的花语是什么(木棉花的意义)

    接下来我们就一起去了解一下吧!珍惜眼前的幸福,珍惜身边的人给他们快乐与幸福。它的花期通常在3月或者4月份,在这一段时间盛开,而传说中四月的第十一天,是木棉花盛开的日子,所以4月11被定为木棉花的日子。

  • 炒凉皮不碎技巧(炒凉皮不碎有什么技巧)

    以下内容大家不妨参考一二希望能帮到您!炒凉皮不碎技巧炒凉皮不碎技巧:就是在做凉皮时不能炒太久,变软会失去筋度。胡萝卜切丝,蒜薹切段,葱切花,猪肉切丝,大蒜拍扁。成品凉皮一张张卷起切粗条,抖散备用。生抽,白糖,盐,鸡精,醋,胡椒粉调成汁备用。热锅倒适量食用油烧热加入大蒜,肉丝翻炒至金黄,加入胡萝卜丝和蒜薹炒熟,凉皮翻炒均匀后随即淋入调好的汁儿翻炒均匀。

  • 近几年灭绝的鱼(瞭望在长江源寻鱼)

    长江被誉为我国淡水渔业的摇篮、鱼类基因的宝库。据青海省渔业部门统计,长江流域青海段分布有土著鱼类21种。因此,严格意义上长江源的关键鱼类指的是裂腹鱼中的小头裸裂尻鱼。2019年,李伟带领团队参加长江源科考时,将小头裸裂尻鱼列为长江源鱼类研究的代表对象。2019年4月,科考小组五个人,两台车,开始了沿河寻觅之旅。“全球平均气温上升已是科学界的共识,位于青藏高原的长江源是全球气候变化的敏感区。”科考发现,江源地区

  • 鹧鸪在什么时候季节鸣叫(鹧鸪的孵化期有多长)

    鹧鸪在什么时候季节鸣叫鹧鸪一般会在繁殖季节鸣叫,繁殖期为3-6月,3-4月间开始求偶交配。求偶期间鸣叫更为频繁,常在山岩、树桩、灌木或乔木枝上鸣叫,尤以黎明和黄昏时更甚,往往是一鸟先鸣叫,其他雄鸟一起跟随,此起彼伏。鹧鸪的孵化期在21天左右,雏鸟出壳后不久即可跟随亲鸟活动。鹧鸪的繁殖期为每年的3-6月,3-4月间开始求偶交配,每窝产卵3-6枚,多时可达8枚,卵为椭圆形或梨形,颜色为淡皮黄色至黄褐色。

  • 秋天的诗词(这些都是关于秋天的诗句)

    迢迢新秋夕,亭亭月将圆《戊申岁六月中遇火》,今天小编就来说说关于秋天的诗词?《戊申岁六月中遇火》自古逢秋悲寂寥,我言秋日胜春朝。《秋词》是处红衰翠减,苒苒物华休。惟有长江水,无语东流。宋·柳永《八声甘州》落时西风时候,人共青山都瘦。《昭君怨》雨色秋来寒,风严清江爽。《酬裴侍御对雨感时见赠》秋声万户竹,寒色五陵松。唐·李颀《望秦川》秋色无远近,出门尽寒山。宋·苏轼《九日次韵王巩》

  • 广州有几种车牌(广州车牌你有吗)

    在广州的普通上班族,有房贷还想拥有一辆车,已经不容易了。但有车想让个广州牌,那更是难上加难,再加之限行,参与摇号,竞价的人是越来越多,那中标的机会更是渺茫了!截止日期是8日24时止。9月拟配置的中小客车增量指标共16313个,是这样分配的:1.以摇号方式向单位和个人配置节能车增量指标7285个,其中,单位指标100个,个人指标7185个。

  • qq注销账号有哪几个步骤(QQ将开注销帐号功能)

    1999年2月10日,一个名为OICQ、只有几百K的软件正式上线。当时,腾讯方面表示,这是QQ团队对帐号注销功能的灰度测试。网友截图出于安全考虑,也有网友表示支持有人说,QQ不推出注销服务有自己的考虑,这是为了防止用户QQ密码被他人知道后恶意注销,给用户带来无法挽回的损失。腾讯2018年第三季度财报显示,QQ智能终端月活跃账户同比增长6.9%至6.979亿。

  • 高跟鞋不合脚怎么办(穿高跟鞋不合脚怎么办)

    4、合理利用袜子,如果不喜欢垫各种鞋垫的朋友,可以穿一双船袜,再穿高跟鞋,那样既不影响穿着效果,也不影响美观,也是比较简单和实用的方法。

  • 年四旺名字打分104分 年四旺事迹

    文章目录:一、年四旺相关名字打分113二、年四旺相关名字评分115三、年四旺相关名字推荐四、年四旺相关名字大全五、其他人还看了一、年四旺相关名字打分113年灯石志明年橘纪红兵武尊道后书法孔多塞年贷款孙敬媛年立秋里蓝业珍冯景华年见朱诗词林于思冯桂年粤日林格孟昭毅年家薛邑马布鱼鲁初雪苏沫沫卜庆中年上年掌柜秦源达刘登龙严学锋国韵酒年线高成江裘梦年维泗红沙日年周王克斌王翔千毛淑红龙威信李万和年神范小慧王大