未来不足1.5%的数据被存储!IPFS存储架构应用正在爆发?
文/李晋
预计到2024年,以HDD为代表的大数据将增加到1.62ZB,平均年复合增长率约为30%的SSD为测量标志的快速数据将达到333EB,平均年复合增长率接近50%。但与当年143ZB的数据总量相比,仅有不到1.5%的数据被存储下来。
在近日的2021深圳国际大数据与存储峰会暨展览会上,西部数据公司副总裁兼中国区业务总经理刘钢指出存储领域正面临的困境。在他看来,目前的存储结构和技术跟不上数据的爆炸,创新的存储结构可以大大缓和这种情况。
大数据存储困境:存储结构和技术与数据发展无关
数据发生的速度过快与存储的数据非常有限的矛盾仍然是存储行业需要正视的问题。刘钢援引两组数据介绍,预计到2024年,以HDD为代表的大数据将增加到1.62ZB,平均年复合增长率约为30%。除了存储数据外,还有一些以SSD为测量标志,挖掘和计算数据的快速数据。2024年,快速数据将达到333EB,平均年复合增长率接近50%。大数据和快速数据的总量约为2ZB,当时的数据总量达到142ZB,这意味着只能保存不到1.5%的数据。在数字经济时代,数据就像石油,是发展的动力。为什么那么多宝贵的lsquo;石油rsquo;或资源没有被存储、挖掘和分析?一个重要的原因是,存储结构和存储技术没有及时跟上数据的发展,许多数据被浪费。因此,我们需要一个创新的存储架构,为更多的数据提供存储及快速访问。存储行业正面临几个挑战用户渴求大容量、快速访问、低成本、低功耗的存储,但很难有单一存储介质、存储设备能同时满足些需求。刘钢感慨说。值得庆幸的是,由于用户数据要进行分层,且这些数据有不同的类型,它对存储的要求也不一致。企业可以通过把创新的存储架构作为系统,来满足用户各种存储场景的需求。
IPFS存储结构有什么好处?
创新的存储结构包括分布式存储结构。刘钢说明,存储结构既有中心化的云存储,也有中心化的分布式存储。例如,基于Web3.0、IPFS(InterPlanetaryFiletem、星际文件系统)的存储结构的存储是中心化的分布式存储,这种存储可以通过新的存储结构降低部署和运营成本。
在应用方面,去中心化的IPFS可降低目前基于中心化的云存储的成本。在云存储的服务费用的成本构成有什么特点?事实上,最初云存储领域有一个分布式存储结构,叫做Storj,用户可以在网上购买相应的服务。IPFS存储结构的出现进一步优化了云存储的中心化,节约了企业的服务提供成本。
分层存储概念
除IPFS存储结构外,西部数据根据数据访问频率大致分为极热数据、热数据、温数据、冷数据和极冷数据5类。根据数据的不同,采用的存储介质和存储设备也不同,可以保证大量数据的存储和快速数据的快速访问。由于不一样的数据对延迟和容量的要求也不一样,因此西部数据也为不一样的数据划分了相应的应用场景。从访问频率的高度到低度,对应的贮藏类型分为极热贮藏、热贮藏、温贮藏、冷贮藏和极冷贮藏。
在这些层次的存储应用场景中,主要有大数据存储应用和快速数据计算应用两种。刘钢表示,大数据存储主要包括极冷存储和冷存储,快速数据计算主要涉及极热存储、热存储和温存储。西部数据在这两种存储应用中有完整的产品和方案。
西部数据18T硬盘在大数据存储中的优势
行业内冷藏和极冷藏的主流方案是高密度大容量企业级硬盘方案。目前,高密度企业级硬盘已发展到18T,有些公司利用软件和技术优化,采用SMR重叠硬盘,使高密度企业硬盘达到20T。例如,世界领先的云存储运营商Dropbox,该公司去年年底转移到了20TTSMRHDD。
提到SMR,可能会有消费者质疑其写作性能、可靠性。对此,刘钢在后续的媒体群访中解释说:16T的硬盘通过改进技术变成18T,如果采用的是SMR技术,这个硬盘的容量就会变成20T。这是通过提高轨道之间的密度来实现的,但是在使用20T的SMR高密度硬盘时,需要在软件上进行调整,保证顺序写入。有些公司没有注意到这个细节,没有调整和优化这个方向,有些消费者质疑SMR技术。
根据刘钢的说法,SMR适用于冷藏和极冷藏。它最早的应用场景是视频监控,另外还能存储网店的数据、金融的票据、括医疗的数据,以上的数据都可能是极冷数据。目前,许多云服务提供商积极部署SMR。
过去几个季度,18T硬盘的良率大幅度改善,无论是网络经营者还是IPFS经营者,配置18T都是趋势。刘钢在现场展示了西部数据的18T硬盘,从去年第四季度开始迅速部署,到2021年Q1头部网络经营者迅速验证、测试。从2021年Q2开始,许多IPFS公司和云服务提供商已经考虑将数据转移到18T高密度硬盘,甚至有些用户仍然认为18T硬盘不够。今年下半年,我们将提供20T硬盘,已有企业在测试、验证中,预计明年开始部署。
值得强调的是,头部云服务提供商使用的硬盘从8T升级到18T,花费了4年(2017-2021年),IPFS提供商只使用了4个季度(2020年Q2-2021年Q2)。IPFS服务提供商从8T升级到12T、14T和16T,并立即转移到18T。实际上,数据中心采用的硬盘从14T升级到18T,在同一存储容量的情况下,服务器的数量可以减少22%,单盘容量可以增加29%,单功耗减少了21%,其配置成本、运输成本也更低。
西部数据SSD产品在快速数据领域的优势
西部数据对于快速数据热存储温度存储,发布了以96层为基础的2个SSD,其中一个是主流Ultrastartrade的DCSN640NVMeSSD,适用于读写平衡的合适工作负载应用,另一个是写密集、计算密集的高性能Ultrastrade的DCSN640NVMeSD,适用于读写平衡的合作负载应用。另外,西部数据还联合铠甲在今年2月推出了162层的第6代3D闪存技术。据刘钢介绍,西部数据和铠甲提供了世界33%的Flash生产能力。这两家公司联合推出的第六代3D闪存技术,比第五代产品的芯片尺寸缩小了40%,侧面机组密度更高,程序性能提高了2倍以上,阅读延迟缩短了10%,输入/输出IOPS提高了66%。从材料本身来看,3DNAND的堆叠层数越高风险就越大,对工艺和投入的要求越高。3DNAND96层后,许多公司的后续产品层数不一致。刘钢特别强调说,在同一代技术里,一家公司的3D NAND层数越少,就代表它的技术越先进,因为无需堆叠太多层,即能满足闪存的性能需求。西部数据在96层之后是112层,而不是120多层,再然后是162层,而不是170或190多层,说明西部数据在单位面积上能做到更高的密度。
除了增加层数之外,存储密度还有另一种增长方式:闪存颗粒从TLC变成QLC,甚至变成PLC。实际上,存储增长密度的方式并不是一维的,它既可纵向增长也可在一个单元内部增长。西部数据企业级SSD具备纵向集成优势。我们拥有先进的SSD控制器和高性能自主固件将Flash纵向整合,最终可以实现非常稳定的一致性。以一家大型电子商务公司的应用为例,他们要求SSD波动范围不超过10%,用UltratarTMDCN640NVMe级SSD测量波动数据为0.11%。刘钢表示,对SSD产品来说,稳定的一致性非常重要。因为有很多要素。
可靠性与生产工艺和硬盘的设计、控制有关。首先,闪存与工艺周期有关,如果没有大规模的生产能力,很难度过生产能力周期。另外,SSD容量越大,其大部分成本就越高,控制器、接口成本所占的比例就越小,因此生产能力非常重要,其次是领先的技术。企业需要追求整个硬盘的性能,而不是仅仅关注闪存材料的性能、可靠性。基于整体的可靠性,可以很好地开发控制器和固件。以上因素是公司能做的纵向整合,只有最终优化,才能提供超稳定的一致性。只有熟悉材料和控制器,熟悉框架,才能整合纵向。刘钢强调。
总以满足用户的不同存储和计算需求,并提供适用于不同级别数据的存储产品。无论是大数据存储,还是快数据计算,都有相应的产品。如果把这样的存储架构和存储技术,使用到IPFS或Web3.0场景里,会是什么样的应用?
IPFS服务商与西部数据的产品组合
对IPFS服务商而言,现在的存储方案存在着数据吞吐量低,空间利用率低、难扩容,总体拥有成本高,运维低效,故障惩罚高等痛点。在IPFS水平上计算分离是共识,在计算组中,西部数据有7.68TB的SSD,西部数据推荐使用18TB的高密度硬盘,4U6018T的存储方案与传统的4U36步16T的存储方案相比,机柜数量减少46%,功耗减少36%
西部数据已与合作伙伴共同推出各种IPFS方案。典型的应用案例包括:
星天合(XSKY)、浪潮联合西部数据发布IPFS解决方案,该方案基于西部数据的UltrastarDCHC5018TBHD硬盘、浪潮英信服务器NF5466M5、XSKY文件存储系统等重要组件与4U36服务器、14TB、HDD方案相比,4U3618TB、HDD方案可以节省22%的机柜空间,节省2倍以上的硬件资源,降低20%的电源消耗。杉岩数据的MOS大容量对象存储系统采用西部数据的UltrastarDCSN840/640的NVMe的SSD、UltrastarDCHC550HDD和JBOD存储平台。与主流的4U3616T方案相比,双方合作的4U60、18T方案可以将服务器节点数量降低到原来的47%,节46%的机柜空间,降低36%的电源消耗。长城超云不仅在储存集群中使用了西部数据的产品,还在计算集群中使用了UltrastarDCCSN640NVMetSSD,提高了封装效率,获得了更高的性能和稳定的运行。此外,IPFS分布式存储服务器制造商灵动也在计算机群和存储机群里采用了适用于快数据的7.68T SSD存储方案和适用于大数据的18T高密度硬盘存储方案。综上所述,西部数据对于Web3.0或IPFS的基础设施结构:在存储集群中,有高密度的磁盘扩展盘、大容量的18T硬盘和UltrastarTMDCSN640NVMeSSD作为缓存。在计算集群中,有UltrastarTM,DCS优艾设计网_设计客N640NVMeSSD、UltratarTMTDDCSN840NVMe-SSD写作密集型SSD产品帮助用户快速计算。
特别是在计算集群中,西部数据解决了P1和P2的性能瓶颈。刘钢表示,P1可以并行,P2后可以串行。IPFS经营者希望将P1和P2分开,但由于P1和P2节点之间需要更换大量的数据,分开后可以提高计算性能,但数据传输需要很多时间,实际上不合算。如果所有服务器集群共享一个快闪池,两种服务器通过NVMe-of连接到快闪池,P1计算的数据在快闪池中,P2可以直接放入,它们可以像访问本地快闪一样访问快速资源共享池。对大规模的IPFS分布式存储服务器制造商来说,当他们的节点达到100个PB以上时,可能需要用这些存储技术来优化存储技术架构。
刘钢最后也强调了西部数据引以为傲的优势,即拥有全线多场景的存储技术和产品,可提供从芯片到系统的存储技术和产品,适用场景从消费者级手机、相机到电脑、自动驾驶汽车到企业级和云端的计算和存储节点。在未来数据爆炸性增长的环境中,这种优势将为企业客户的数据存储结构、行业存储和普通用户的个人存储提供领先的优势。
精彩评论