当前位置: 首页>后端>正文

东数西存场景的探索与实践

“东数西算”是通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,在实际应用过程中,冷数据占数据总量的比例约80%,对冷数据来说,主要的需求是存储,计算并不是常态,“东数西算”实际上是“东数西存”,在西部主要是数据存储,偶尔有计算需求。

东数西存存在几个问题,首先是长距离数据传输的各种不确定性。距离越远,网络延迟越高、网络质量越差,给用户的体验就会越差。因此,对于东部用户而言,西部资源池位置偏远,数据的访问体验比较差。

为了解决这个问题,可以在靠近用户的地方建立资源池,这样能解决数据访问体验差的问题,但是带来了新的问题:用户在存取数据之前需要先检索数据存储位置,这就需要一个集中式的平台,提供统一的检索能力,当用户需要访问数据时,先从平台获得存取位置,然后再向目的资源池发起读写请求。显然,这不仅会增加延迟损耗,也增加了平台维护成本。

其次就是资源竞争导致的体验问题。东部业务场景比较复杂,大部分数据存储在西部几个资源池中,大量请求同时访问会出现资源竞争,进而出现网络丢包、访问延迟等不可控因素,对于有些金融、医疗等对数据安全性与精密性较高的行业,这种不可控因素是不能容忍的。

为了解决以上问题,并完成东数西存场景的探索与落地,有人提出了一个新的概念叫做“内容存储网络”(Content Storage Network,简称CSN)。

内容存储网络(CSN)是与内容分发网络(CDN)相对应的概念。CDN是在终端和中心之间的缓存,在让终端更快获取数据的同时,减轻中心的压力。如果说,CDN是一种为下而生的网络服务,那么,CSN就是为上而生的网络服务,帮助用户总是能够就近存储数据,同时可以从任何资源池读到数据,而且保证强一致性,目前已经实现了CSN并进行了大规模商用的产品有OOS。

CSN构建在现有网络基础、运营商专线之上的存储网络,依靠部署在全国各地的资源池,通过底层文件系统、分布式存储引擎,上层协议,负载调度、管理监控平台等功能模块,使用户就近写入的数据可以即时在任何一个资源池读到。对用户实现强一致性、低延迟和高效调度,对运营商实现优化资源和节约成本。CSN的关键技术主要是广域网下的全局元数据环技术。

全局元数据环服务,通过将全国资源池连通成为一个存储网络,充分利用了全国各地的资源池,在保证性能和安全的情况下,大幅提升了资源统一调配能力、资源池利用率,产生了较大的经济效益。全局元数据作为CSN的基础核心组件,为整个云存储网络提供了统一的逻辑视图,解决了云存储网络在全国范围内部署时所面临的各类技术难题,如存储资源的统一调度、数据的跨地域访问、数据可靠性降低、读写性能下降等难题;通过将全局元数据域划分为多个元数据域的方式,在保留了全局元数据统一调度能力的情况下,提供了数据就近访问的能力,故障隔离的能力,从而大幅提升了数据读写性能、数据可靠性和服务可用性;使所有的读写请求都会就近访问离用户最近的机房,数据在本地直接返还给用户,或者通过专网从其他地方拉过来给用户,比走互联网要快,因此可以获得最好的延迟。

CSN的另一个特性是虚拟存储网络。在CSN中,数据位置可以就近写入,也可以指定位置写入,如果选择就近写入终端就会选择就近,对于使用者而言不需要知道它在哪里;有的政企类客户有强烈的属地要求,采用指定位置可以满足。客户可以使用默认的公共资源池,也可以建立自己的专属资源池,CSN通过这种方法将虚拟资源池在数据层面打通形成一张虚拟网络。

以CSN为基础的东数西存系统中,全量数据可以放在位于西部成本较低的资源池,需要经常访问但存储需求没那么大的热数据可以放在位于东部离业务场景较近的资源池,各个资源池可以通过广域网连接起来,用户可以通过广域网随时随地接入东数西存系统的服务。用户读取热数据总是就近读写,偶尔跨资源池读取冷数据的部分也不走公网,而是专网,性能得到最大保障。无论是何地的用户都可以在保证高可用高性能的前提下最大化东数西存的成本优势。

无论用户在什么位置,元数据存储在什么位置,CSN都可以将用户写入的数据自动找到到最近的资源池与成本最低的资源池,并通过自定义的策略进行冷热分层,智能分配到适合的资源池。用户可以依靠分布式元数据环随时随地访问任一资源池。

CSN为东数西存提供了完整的支撑能力,解决了之前提到的两大问题。CSN的全局元数据环支持就近读写、全网数据层面打通,再搭配上CSN本身遍布全国的资源池,可以让大部分传输在短距离解决,后续再由系统自动把冷数据存储到远距离的西部机房,偶尔远距离访问时使用专线,于是解决了长途传输的问题。长途传输问题解决后,很大一部分资源竞争问题也解决了。另外,CSN的虚拟存储网络特性让用户可以灵活定制元数据、数据的位置,如果CSN运维人员发现某些资源池有拥挤风险,会提醒用户暂时不要访问这些资源池。如果客户有些业务非常担心资源竞争,也可以把这部分数据放在专属资源池,解决了资源竞争问题。

虽然CSN已经能实现“东数西存”的大部分要求,但还可以进一步设想一下:就像打通内部各个资源池那样,CSN也可以通过全局元数据环和网关(Gateway)打通多个云服务商的存储空间,还可以打通客户本地存储空间,实现跨本地、跨多云访问数据。这样CSN就构建起了“混合多云”。

跨本地与云端需要存储资源盘活系统HBlock,它本质上是一款分布式块存储管理软件,通过标准 iSCSI 协议提供块存储服务,将企业闲置的通用服务器及其存储资源转换成高性能的虚拟存储阵列,承载企业业务。

在本地存储场景中,很多客户磁盘利用率都非常低,客户也不希望投入额外的成本购入新的服务器来搭建存储集群。同时,叠加了低碳政策的要求,利用了HBlock的特点,不仅充分利用了空闲的存储资源,也充分的利用了空闲的计算资源和内存资源,将空闲的服务器整合成了高性能的虚拟存储阵列,满足了客户的需求。

在底层服务器性能优异、网络带宽足够的情况下,HBlock是可以替代传统SAN存储的。HBlock支持VMware、OpenStack、Kubernetes、KVM等主流虚拟化平台。在访问接口层,上层平台将通过API的方式来管理HBlock集群,实现存储卷的创建、删除以及HBlock集群的监控等目的,各个虚拟机通过iSCSI协议灵活的挂接存储卷,最终实现一套系统、统一存储的建设目标。

对于需要存储海量数据的客户,可以通过HBlock将本地应用与云端存储无缝连接,将数据同步到云端,实现存储空间的按需使用,弹性扩展。此外,HBlock简化了混合云存储环境中的数据管理。通过标准iSCSI协议为上层应用提供虚拟Target和逻辑卷,除了可以部署在本地,还可以部署在私有云或公有云上。

这样一来,基于CSN搭建的东数西存系统补全了最后一块拼图。

对于需要频繁访问的热数据,或对存储地域有特殊需求的场景,可以把这部分数据存在本地存储或本省资源池,其余数据存在西部资源池。对于资源池的选择,除了CSN本身分布在全国各地的机房外,用户还可以选择其他公有云存储产品,或者把自己已经存储在其他公有云的数据接入进来。CSN的就近分配和Hblock的本地存储功能可以让用户大部分时间都享受最低的延迟,对于出差、多地办公、访问冷数据的远距离访问场景,CSN可以通过专网拉过来给用户,避免走互联网,同样能获得最好的体验。


https://www.xamrdz.com/backend/3pt1930496.html

相关文章: