EN
NEWS 行业动态

本文转自TechWeb

云计算已经火了好几年,并且在可预见的将来还将继续火下去。云计算已经在娱乐、社交、协同办公、金融、教育、公共安全、健康管理、物联网等许多领域深刻地改变了世界,但有一个领域却一直雷声大雨点小,那就是基因测序的分析。

精准医疗时代,健康和医疗行为需要根据每个人的基因信息来定制,也就催生了基因测序市场的繁荣。随着测序价格的下降,几千块钱就能测定整个人基因组。但分析这庞大数据的成本很高,也限制了基因组测序在医疗领域的广泛应用。云计算模式可以将计算任务分配到成百上千的分布式服务器上去进行计算,按量付费,看起来是解决基因测序分析运算量大、需求弹性大的理想选择。也有不少公司推出了自己的基因测序分析云平台,例如Illumina公司推出的BaseSpace, Google开发的DNANexus,以及国内若干基于公有云服务(阿里云等)部署的基因测序分析平台,上线之初都声势浩大、嘘头十足,自带改变世界、造福广大科研工作者的强大气场,但很快就不温不火甚至归于沉寂。其症结究竟在哪里呢?

第一,网络传输瓶颈。目前云平台上运行的较好的应用都有一个特点,用户交互的数据量不算很大,所以网络传输的压力较小,适合分布式计算。但基因测序数据量非常大,一个人的全基因组测序产生数据量至少高达90G碱基以上,以通用的fastq格式来存储需要200GB以上,且压缩率低。目前各云平台基本都还在采用gzip等通用压缩算法,压缩率一般只有1:3,杯水车薪。客户向云平台传输数据的带宽压力非常大,导致实用性非常差。同时,若想将任务分派给位于不同地点的多台服务器进行计算,其间的传输压力也会非常大,因此基于阿里云的几个测序分析云平台都是以单节点应用为主,而这无疑严重限制了分析规模。

第二,算法效率瓶颈。目前人们使用较多的基因测序基础分析算法是学术界开源免费的算法,效率有待提升。单节点服务器分析一个人的全基因组测序数据快则十几二十个小时,慢则以天甚至星期计算。这样的效率对不计成本的前沿科研并不是什么问题,但在大众化应用市场上则显然会占用巨量的云计算资源。因此,开发更快速高效的算法是基因测序分析云平台的必须。

第三,算法准确性和稳健性。由于计算量巨大,各种算法一般都极度追求速度。但算法领域公认的规律是,在算法架构没有根本性的突破之前,准确性和速度一般难以得兼,因此传统算法的准确性其实相当不济。2012年世界顶级期刊Nature Reviews Genetics上发表权威综述,直接指出由于分析环节存在的不准确和不稳健,“现在绝大多数的基于测序的结果都不能够被验证、重复、采纳或用于教育他人。”百分之十的错误率在找普遍规律的科研界并不是什么问题,到了临床医学和健康领域,出任何一点的错都是对一个个体生命的不负责任。这也必须要求云平台所使用的算法具备很高的准确性和稳健性,而现在学术界常用的算法显然达不到这一要求。

第四,用户体验糟糕。在绝大多数现有的云平台上,用户需要具备专业的生物信息学知识才能有效分析数据。那些眼花缭乱的参数,不是资深生物信息学专家根本弄不清楚是什么意思,而由于传统算法准确性和稳健性不佳,参数设置的些微变化就会导致结果的显著差异。此外,一个分析流程里面需要使用到多个算法,算法之间的选用和衔接、参数的匹配等问题,让非生物信息学专业人士望而却步。在这一点上,运行于非盈利机构超算之上的Galaxy等平台情况尤甚。

第五,收费高昂。云计算的本意是将大家零散和不稳定的需求集中起来处理,这样可以大大节省成本。然而由于以上的原因,在基因测序分析领域,现有云计算系统无法真正做到低成本处理,因此收费高昂。而由于该领域内大量的算法是开源免费的,导致用户自己持有成本其实并没有那么高。两相比较,云平台收取的费用往往并不比客户自己购买硬件设备和培训相关人员便宜太多。这也极大地限制了云平台发挥作用。

说到底,基因测序分析是一类非常特殊的应用,需要精通分子生物学、大规模测序技术、算法、云计算架构、生物信息学、遗传学等多学科的超级复合型人才,而这样的人才实在是凤毛麟角。

也正是依托这样的超级复合型人才团队,现在国内才真正开发出了实用化的基因测序分析云平台Chi-Cloud. 这一由深圳承启生物科技有限公司研发的云平台特别为基因测序应用定制,通过对每个流程的精准把控和自主创新,开辟了实用化基因测序云分析的时代。

第一,为了解决网络传输瓶颈,Chi-Cloud开发了专利的压缩算法,与序列比对算法深度配合,达到了1:10以上甚至1:20的压缩率,使得原本漫长的传输时间大大缩短。同时,多节点间的任务调配也更加得心应手。

第二,自主研发了超高精度的高速序列比对算法FANSe3,彻底解决了基因测序分析中最耗时的步骤。FANSe3是广受科学界赞誉的FANSe系列算法的第三代,其前作FANSe2的运算速度已不弱于传统的算法,精度却要高很多。多项学术界的严格对比测试都证明其结果几乎100%符合实际状况,可以被实验验证,而传统算法却错漏频出,形成鲜明对比。因此,FANSe算法解决了准确性和稳健性问题,这种能力被人类蛋白质组计划采纳为其核心支柱的首选分析算法。FANSe3作为FANSe的最新一代,为云平台架构做了特别优化,在不损失精度的前提下,大幅提高速度,在不同的测序应用下提速30-500倍,将目前学术界所常用的不准确的算法远远甩开。这样相同的云计算资源下可以处理几百倍的任务。据最新发表的权威论文显示,Chi-Cloud仅利用公司私有云即可达成一秒分析一个测序数据集的能力,令所有其他云平台望尘莫及。

第三,使用简单,一键分析,无需生物信息学基础。FANSe系列的稳健性使其能从容应对许多测序中的瑕疵,参数设置并不太影响结果。同时,藉由著名专家团队指导,云平台总结了数十万数据集的分析经验,拥有根据数据集的特性智能优化参数的能力,使其分析结果精准可靠。利用这种可靠性和多年前沿的科研经验,在各分析环节都选用最佳方案,真正达成一键上传、一键分析而无需操心参数设置问题。分析结果直接以图表形式展现,简便直观,生物学家和医生没有任何生物信息学基础也能轻易读懂,并用于后续的工作。其医疗版甚至可根据特定检测项目专门定制报告生成模块,全自动生成检测报告,医生只需要下载打印即可。

第四,专门为基因测序设计了特化的云计算架构,硬件与软件相配合,达到极高的效率,使得流程管理、任务分派等得以高效进行。这也使得接入其他超算资源变得容易。Chi-Cloud已与天河二号超算(曾经三年蝉联世界超算榜首)达成战略合作,必要时可利用天河二号,提供全世界最强大的基因算力,其理论容量可在一年内分析完全世界70亿人的全基因组测序数据。

有了以上这些,Chi-Cloud的分析成本非常低。从已发表的权威论文(Nucleic Acids Research, gkx1034)来看,已经做到了完全免费分析的程度。可以相信,这种实用化的基因测序分析云平台将深刻地改变整个基因测序行业,消除分析上的技术和经济困难,大大推动精准医疗的普及。

      原文报道请点击 http://prnews.techweb.com.cn/qiyenews/archives/46645.html