测序
回帖(1)
2021-10-27 11:22:55
目前,随着高通量测序技术快速发展、测序成本的进一步降低以及组装方法的不断完善,全基因组测序研究主要包括3个方面。第一种为不参考任何现有序列从头组装测序,是对未知基因组序列的物种进行基因组测序,并综合利用不同测序技术和生物信息学工具对研究物种进行序列拼接和修正,进而获得该物种的基因组序列图谱。
第二种为常见的全基因组重测序,是对已知基因组序列的物种进行个体或群体的测序研究,建立一个测序文库进行单个个体或不同个体混合池测序,发现遗传变异标记,进行后续的研究[3]。
第三种是在已有参考基因组序列图谱的基础上,对不同品种的具有代表性个体建立多个文库进行全基因组从头组装测序,此方法能够进一步的进行参考基因组的修补和发现短序列比对难以发现的遗传变异[5]。
全基因组重测序因为包含某一物种个体或群体的核DNA的全部遗传信息,与参考基因组比对可以获得非常全面的遗传标记信息,如SNP、Indel和CNV等分子标记。
核DNA所包含的父母双亲的遗传信息可以突破线粒体DNA母系遗传和Y染色体父系遗传在物种进化、群体历史动态研究中的限制。在全基因组水平上的高密度的SNP等分子遗传标记也能够较全面的从整体角度对物种受到的自然选择和人工选择导致的遗传变化进行解析。此外,近来商业化育种的实施导致某一功能突变基因的正选择或净化选择作用的遗传基础也能通过全基因组重测序方法进行深入的分析研究。此外,全基因组重测序还可以突破目前基因分型芯片中品种的偏向性和标记不足的问题,获得的新的遗传变异信息也为进一步制作高密度芯片提供研究材料。
自人类基因组计划完成以来,获得高质量的参考基因组序列图谱成为了不同物种进行功能基因研究的基础[6-7]。随之发展起来的Illumina/Solexa、Roche/454和ABI/SOLiD等几种第二代高通量测序平台更是对现代生物学研究的各个领域中起到了积极的推动作用[4, 8-9]。目前,测序技术已经由最初的基于双脱氧末端终止法的Sanger测序技术发展到以单分子实时测序(Pacific bio)、离子半导体(Ion torrent)、纳米孔(Oxford nanopore)等为特点的第三代测序技术,实现了从低读长到超高读长、从光学检测到电子传导检测的双重跨越测序技术[10]。而Illumina/Solexa系统的聚合酶合成法因为具有低成本、单次数据量大、时间短,后续数据分析工作成熟等优势,作为第二代中具有代表性的测序技术广泛应用于动植物的基因组、转录组等方面的测序研究[11]。此外,以Pacific Biosciences公司的SMRT技术、Oxford Nanoprop的MinION测序系列和Helicos公司的Heliscope单分子测序仪为代表的第三代单测序技术在序列读长、测序速度、组装效果方面较第二代测序技术有显著的优势,在参考基因组组装中取得了极大的成功,但因较高的测序错误率和测序成本等问题,目前尚未在重测序领域广泛应用[10, 12-13]。随着三代测序数据分析算法的、测序准确性的不断提高优化,三代测序技术目前在基因组从头组装和全长转录组分析方面举得了大量的研究成果[14-16]。在全基因组重测序的研究方面,尚未有相关报道,但不久的将来,随着测序费用的降低及准确率的提高,其在重测序一定会具有广阔的发展前景。
展望
随着测序技术和分子生物学的进一步发展,在越来越多的物种中开展了基因组序列组装及重测序研究,产生了海量的测序数据上传到公共数据库并仍在继续增加。面对如此巨大的数据量,对当前的数据存储、数据分析挖掘等技术提出了严峻的考验,主要面临以下问题:
(1)全基因组测序的成本依旧较高,在经济价值相对较低的物种中,很难开展大规模的研究工作。虽然,基因分型芯片技术在一定程度上能够补充以上缺点,但其限于常见变异的研究,不能对稀有变异进行分析研究。
(2)尽管基因组序列组装不断的接近完成图,但依然存在较多的空白,而且基因组中的高重复、复杂区域依旧是基因组组装面临的重要问题,为深入研究基因组特征带来一些困难。
(3)第二代测序技术产生的序列读长较短,难以跨越高重复序列区域以及具有碱基偏好性,对复杂区域的研究一直是其短板。与参考基因组比对时,短读长序列可能会在基因组中比对到多个位置。
(4)第三代测序技术在读长方面较第二代测序技术具有明显的优势,但因其错误率高的特点需要进行大量测序数据进行纠正,以及本身的测序费用较高等原因,目前的重测序领域尚未进行大规模应用。
(5)在测序数据快速增加的背景下,如何有效地深度挖掘其潜藏的遗传信息,成为目前面临的主要的问题。因此,需要不断的进行算法和计算性能的优化。
(6)基因组数据研究是其他功能研究的基础,但表型性状的遗传机理十分复杂,如何有效的开展多组学研究也是今后面临的主要问题。
面对以上问题,科学家们也一直在不断的进行理论研究和技术应用探索。在数据分析方面,各种分析网站和数据库越来越智能化和简约化,实现了对算法不断优化、数据冗余的降低以及数据解码效率的提高,虽然目前对数据存取的效率始终面临的主要问题,但不久的将来一定会取得突破性进展[58]。今后,对长度长测序技术的不断改进和对相应算法的开发研究将是一个研究重点。
对于测序成本问题,需要不断的优化现有的测序技术,进一步降低研究成本。为充分利用财力、物力、人力资源和潜在的测序数据价值,各国科学家们也在不断的加强国家间的合作研究,国际性的合作不仅加快了研究进展,更是增加了学术间的交流,进而促进科学的快速发展。此外,古DNA保存技术和提取技术的不断进步,也为精确地进行不同物种的群体历史动态研究提供了良好的研究材料。
基因组学研究是从正向遗传学的角度来进行基因功能的研究,而生物体的基因与基因、基因与环境的复杂互作关系,容易导致假阳性结果。因此,为解决基因组测序研究出现的假阳性问题,对物种进行转录组学、代谢组学和蛋白质组学比较,进行反向遗传学的功能验证手段,将是全基因组测序今后研究工作的重点和方向。在家畜上的基因组水平的深入研究也将不断增加我们对重要经济性状的遗传机制的理解,在育种实践上减少疾病或遗传缺陷的发生,为提高产品质量、生产效率及精确快速育种作出重要贡献。此外,基因组测序的深入研究也有助于稀有变异的发掘,培育出更优良的专门化畜禽新品种,发挥特色物种的各种遗传潜力,具有重要的不可估量科研价值。
目前,随着高通量测序技术快速发展、测序成本的进一步降低以及组装方法的不断完善,全基因组测序研究主要包括3个方面。第一种为不参考任何现有序列从头组装测序,是对未知基因组序列的物种进行基因组测序,并综合利用不同测序技术和生物信息学工具对研究物种进行序列拼接和修正,进而获得该物种的基因组序列图谱。
第二种为常见的全基因组重测序,是对已知基因组序列的物种进行个体或群体的测序研究,建立一个测序文库进行单个个体或不同个体混合池测序,发现遗传变异标记,进行后续的研究[3]。
第三种是在已有参考基因组序列图谱的基础上,对不同品种的具有代表性个体建立多个文库进行全基因组从头组装测序,此方法能够进一步的进行参考基因组的修补和发现短序列比对难以发现的遗传变异[5]。
全基因组重测序因为包含某一物种个体或群体的核DNA的全部遗传信息,与参考基因组比对可以获得非常全面的遗传标记信息,如SNP、Indel和CNV等分子标记。
核DNA所包含的父母双亲的遗传信息可以突破线粒体DNA母系遗传和Y染色体父系遗传在物种进化、群体历史动态研究中的限制。在全基因组水平上的高密度的SNP等分子遗传标记也能够较全面的从整体角度对物种受到的自然选择和人工选择导致的遗传变化进行解析。此外,近来商业化育种的实施导致某一功能突变基因的正选择或净化选择作用的遗传基础也能通过全基因组重测序方法进行深入的分析研究。此外,全基因组重测序还可以突破目前基因分型芯片中品种的偏向性和标记不足的问题,获得的新的遗传变异信息也为进一步制作高密度芯片提供研究材料。
自人类基因组计划完成以来,获得高质量的参考基因组序列图谱成为了不同物种进行功能基因研究的基础[6-7]。随之发展起来的Illumina/Solexa、Roche/454和ABI/SOLiD等几种第二代高通量测序平台更是对现代生物学研究的各个领域中起到了积极的推动作用[4, 8-9]。目前,测序技术已经由最初的基于双脱氧末端终止法的Sanger测序技术发展到以单分子实时测序(Pacific bio)、离子半导体(Ion torrent)、纳米孔(Oxford nanopore)等为特点的第三代测序技术,实现了从低读长到超高读长、从光学检测到电子传导检测的双重跨越测序技术[10]。而Illumina/Solexa系统的聚合酶合成法因为具有低成本、单次数据量大、时间短,后续数据分析工作成熟等优势,作为第二代中具有代表性的测序技术广泛应用于动植物的基因组、转录组等方面的测序研究[11]。此外,以Pacific Biosciences公司的SMRT技术、Oxford Nanoprop的MinION测序系列和Helicos公司的Heliscope单分子测序仪为代表的第三代单测序技术在序列读长、测序速度、组装效果方面较第二代测序技术有显著的优势,在参考基因组组装中取得了极大的成功,但因较高的测序错误率和测序成本等问题,目前尚未在重测序领域广泛应用[10, 12-13]。随着三代测序数据分析算法的、测序准确性的不断提高优化,三代测序技术目前在基因组从头组装和全长转录组分析方面举得了大量的研究成果[14-16]。在全基因组重测序的研究方面,尚未有相关报道,但不久的将来,随着测序费用的降低及准确率的提高,其在重测序一定会具有广阔的发展前景。
展望
随着测序技术和分子生物学的进一步发展,在越来越多的物种中开展了基因组序列组装及重测序研究,产生了海量的测序数据上传到公共数据库并仍在继续增加。面对如此巨大的数据量,对当前的数据存储、数据分析挖掘等技术提出了严峻的考验,主要面临以下问题:
(1)全基因组测序的成本依旧较高,在经济价值相对较低的物种中,很难开展大规模的研究工作。虽然,基因分型芯片技术在一定程度上能够补充以上缺点,但其限于常见变异的研究,不能对稀有变异进行分析研究。
(2)尽管基因组序列组装不断的接近完成图,但依然存在较多的空白,而且基因组中的高重复、复杂区域依旧是基因组组装面临的重要问题,为深入研究基因组特征带来一些困难。
(3)第二代测序技术产生的序列读长较短,难以跨越高重复序列区域以及具有碱基偏好性,对复杂区域的研究一直是其短板。与参考基因组比对时,短读长序列可能会在基因组中比对到多个位置。
(4)第三代测序技术在读长方面较第二代测序技术具有明显的优势,但因其错误率高的特点需要进行大量测序数据进行纠正,以及本身的测序费用较高等原因,目前的重测序领域尚未进行大规模应用。
(5)在测序数据快速增加的背景下,如何有效地深度挖掘其潜藏的遗传信息,成为目前面临的主要的问题。因此,需要不断的进行算法和计算性能的优化。
(6)基因组数据研究是其他功能研究的基础,但表型性状的遗传机理十分复杂,如何有效的开展多组学研究也是今后面临的主要问题。
面对以上问题,科学家们也一直在不断的进行理论研究和技术应用探索。在数据分析方面,各种分析网站和数据库越来越智能化和简约化,实现了对算法不断优化、数据冗余的降低以及数据解码效率的提高,虽然目前对数据存取的效率始终面临的主要问题,但不久的将来一定会取得突破性进展[58]。今后,对长度长测序技术的不断改进和对相应算法的开发研究将是一个研究重点。
对于测序成本问题,需要不断的优化现有的测序技术,进一步降低研究成本。为充分利用财力、物力、人力资源和潜在的测序数据价值,各国科学家们也在不断的加强国家间的合作研究,国际性的合作不仅加快了研究进展,更是增加了学术间的交流,进而促进科学的快速发展。此外,古DNA保存技术和提取技术的不断进步,也为精确地进行不同物种的群体历史动态研究提供了良好的研究材料。
基因组学研究是从正向遗传学的角度来进行基因功能的研究,而生物体的基因与基因、基因与环境的复杂互作关系,容易导致假阳性结果。因此,为解决基因组测序研究出现的假阳性问题,对物种进行转录组学、代谢组学和蛋白质组学比较,进行反向遗传学的功能验证手段,将是全基因组测序今后研究工作的重点和方向。在家畜上的基因组水平的深入研究也将不断增加我们对重要经济性状的遗传机制的理解,在育种实践上减少疾病或遗传缺陷的发生,为提高产品质量、生产效率及精确快速育种作出重要贡献。此外,基因组测序的深入研究也有助于稀有变异的发掘,培育出更优良的专门化畜禽新品种,发挥特色物种的各种遗传潜力,具有重要的不可估量科研价值。
举报
更多回帖