全基因组测序的序列拼接主要使用哪种软件,优势又有哪些??
序列的拼接与组装是基因组测序数据处理中一个至关重要的步骤,对于高通量测序产生的海量短序列,拼接与组装显得尤为重要。下面是19个可用于高通量测序序列拼接与组装的软件及它们的网站,这19个软件中除了SHORTY之外,都可以用于对Illunina高通量测序仪产生的序列进行de novo组装,对454测序应该也可以,SHORTY用于组装ABI SOLiD产生的序列。这些软件都需要在高性能工作站、计算机集群甚至大型计算机上运行,大部分都只有Linux版本,不能在Windows系统下运行,所采用的算法基本都是图论中的Overlap Graph和De Bruijn Graph算法。
ABYSS
http://www.bcgsc.ca/platform/b ... abyssALLPATHS
http://tinyurl.com/3htptdzCLC NGS Cell,这是一个商业软件
http://www.clcbio.com/index.php?id=1331Curtaina,是一个基于Velvet的Pipeline
http://c开发者_JAVA百科ode.google.com/p/curtain/Edena
http://www.genomic.ch/edena.phpEuler-SR
http://euler-assembler.ucsd.edu/portal/FuzzyPath
ftp://ftp.sanger.ac.uk/pub/zn1/fuzzypath/Oasesb
http://www.ebi.ac.uk/~zerbino/oases/QSRA
http://qsra.cgrb.oregonstate.edu/SASSY
网站未找到SeqCons
http://www.seqan.de/projects/seqcons.htmlSHARCGS
http://sharcgs.molgen.mpg.de/SHORTY
http://www.cs.sunysb.edu/~skiena/shorty/SOAPdenovo,这个是由中国华大基因开发的。
http://soap.genomics.org.cn/soapdenovo.htmlSOPRA
http://www.physics.rutgers.edu/~anirvans/SOPRA/SSAKE
http://www.bcgsc.ca/platform/b ... ssakeTaipan
http://taipan.sourceforge.net/VCAKE
http://sourceforge.net/projects/vcake/Velvet
http://www.ebi.ac.uk/~zerbino/velvet/
zhxp0501 2021-10-30 04:58
目前关于基因组拼接软件应用较为广泛的主要有以下四种。
** Velvet 软件**由欧洲生物信息中心( EMB -EBI) 的Daniel Zerbino 和Ewan Birney ( 2008 年) 开发,是一款在Unix 下运行的从头( de novo) 拼接软件,主要用于拼接长度为25 ~ 500bp 的序列。它执行的是一种基于de Bruijn 算图( de Bruijn graphs) 的算法,在构建算图后会运行各种纠错步骤。Velvet通过寻找read 中的重叠区域( overlap) ,将高质量的匹配片段拼接成contig 序列,最后生成完整的基因序列。Velvet 程序包是目前广泛使用的拼接短reads 的首选拼接工具,已成功用于拼接细菌基因组。不足之处是现有的 Velvet 程序无法利用多个CPU 进行序列拼接。Velvet 程序包及相关文档可以在以下网址获得: http: / /www. ebi. ac. uk / ~ zebino /velvet /。
ABySS 程序最初是被开发用于基因组的从头拼接,特别是对大型基因组进行拼接。由于ABySS 拼接软件的优点在于它可以进行平行运算,同时运行多拼接任务,因此可能处理的基因组比Velvet 大得多。ABySS 的拼接算法也是基于de Bruijn 算图法( de Bruijn graphs)。ABySS 的源代码和文件可在网址http: / /www. bcgsc. ca /platform/bioinfo /software/ ABySS 免费下载。ABySS 拼接软件需要在C+ + 环境中运行,安装ABySS 时,只需输入命令: . /configure && make。若要将ABySS 安装到指定文件目录下,则输入命令行: . /configure - - prefix = /opt /ABySS && make && sudo make install 即可安装成功。
** SOAPdenovo** 是由华大基因开发出一个高通量测序从头拼接软件,它采用一种新型短read 拼接方法,能够构建出人类基因组大小的从头拼接草图。SOAPdenovo 主要用于对大型动植物基因组进行从头拼接工作,当然对于细菌和真菌基因组的拼接同样也表现出色。该程序专门用于拼接由Illumina GA 生成的短reads 测序数据。SOAPdenovo 为构建参比序列提供了新途径,为未知基因组高效精确分析提供了一种工具。SOAPdenovo 执行的也是基于de Bruijn graphs 法的类似拼接算法,该拼接工具的细节还未发布。SOAPdenovo 需要在拥有至少5GB内存的64 位Linux 系统( x86 处理器类型) 下运行。对于人类这样的大型基因组来说,进行拼接工作则需要150GB 的内存。安装SOAPdenovo 时,只需将SOAPdenovo 软件压缩文件包解压,就会解压出3 个文件,分别为一个可执行文件“soapdenovo”,soapdenovo”,一个模拟的配置文件“example. contig”以及一个说明书文档。运行该程序之前,需要编辑一个配置文件以设定一些拼接参数,配置文件的编辑可以参照软件自带的example. contig 文件。
** CLC Genomic Workbench**( 简称CLC) 生物是世界领先的生物信息学解决方案供应商丹麦的Aarhus公司研发的软件,是针对下一代高通量测序的综合性跨平台分析软件,CLC 采用用户友好的图形界面运行,可分析来自多个平台( Illumina、SOLiD、454、HeliScope) 的基因组、转录和表观基因组数据,并且以可视化方式显示拼接结果。CLC Gene Workbench是一款非免费软件,CLC Genomics Workbench 可用于Windows,Mac OS X 和Linux 三大操作系统。系统要求: 对于小数据量( < 50M bp,或者<10M reads) ,内存要求至少2 GB RAM,推荐4 GB RAM;对于中等数据量( < 100M reads) ,内存要求至少4GB RAM,推荐8 GB RAM; 对于大数据量( > 100M reads) ,内存要求至少8 GB RAM,推荐16 GB RAM。
若想得知更多信息,可参看文章链接。 http://www.cnki.net/KCMS/detai ... T0%3D$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&v=MDc4MTVGWUlSOGVYM开发者_如何学JAVAUx1eFlTN0RoMVQzcVRyV00xRnJDVVJMNmZZT2RxRkN2aFVyck5QVFhZZWJHNEg5RE1yWTk=
精彩评论