云计算能为生物信息做什么??
现有的阿里云、优艾设计网_PS百科亚马逊AWS云计算基础设施需要做哪些改进,为什么?
目前你用的最多的云产品和Web Service API是哪些?
飘in北京 2021-06-26 01:56
生信数据处理的特点是,第一阶段,在预处理阶段,比如测序数据比对至基因组序列时,需要较大的内存容量(以人为例,需要100~200G内存),目前的云计算服务,几乎都没有提供100G内存以上的套餐。第二阶段,在预处理以后(reads数已经转变为表达值、peak区间之类了),绝大部分优艾设计网_电脑技术的分析需要的算力很小,目前绝大部分云平台提供的服务都满足条件,甚至个人笔记本都可以搞定。
所以,目前比较尴尬,对硬件有门槛,需要云平台解决的步骤,国内没有适合的云服务套餐。这部分目前做的比较好,甚至已有垄断趋势的,是illumina自身的BaseSpace云平台(硬件绑定啊,window绑ie牛不牛),但BaseSpace国内普及度不高。而后续的分析部分,则又对云没太大刚性需求,比较鸡肋。
如果研究的方向是细菌或真菌的群落结构,测序的是某个biomarker,比如真菌的ITS,一台笔记本完全可以解决所有的问题。因为不需要组装基因组,所以不需要大量的计算力。
之前OTU clustering可能需要用到大型计算机,现在算法改进了,也不需要了。
目前需要的云计算的主要功能就是存储了吧,测序中心把数据存在学校的超算上,我们登录了去取回来。不过因为数据比较大(~10G),我还是习惯在服务器上做数据过滤(quality control)。但是所有的事情个人电脑目前都可以完成。
精彩评论