时间:2024-08-19 点击: 次 来源:网络 作者:佚名 - 小 + 大
1.2. 为何选择存算分离MPP(Massive Parallel Processing)架构为OLAP类数据库最普遍采用的技术架构。在MPP架构下,计算存储共享一个节点,每个节点有自己独立的CPU、内存、磁盘资源,互相不共享。数据经过一定的分区规则(hash、random、range),打散到不同的节点上。处理查询时,每个节点并行处理各自的数据,互相之间没有资源争抢,具备比较好的并行执行能力。这种将存储资源、计算资源紧密耦合的架构,不太容易满足云时代不同场景下的不同workload需求。 例如数据导入类的任务,往往需要消耗比较大的IO、网络带宽,而CPU资源消耗不大。而复杂查询类任务往往对CPU的资源消耗非常大。因此面对这两种不同的workload,在选择资源规格时,需要结合不同的workload分别做不同的类型选择,也很难用一种资源规格同时满足这两种类型。因为业务不停在发展,workload也不停在变化,比较难提前做好规划。 1.3. 传统存算分离面临的问题传统计算存储分离,解决了计算量和存储量不匹配问题, 实现了算力的按需使用,大幅节省了运维规划时间以及闲置的算力成本。但直接使用计算存储分离架构,也引入了新的问题: 1、在IO密集型的场景下,网络带宽会成为瓶颈, 可能导致计算 、存储资源利用不充分; 2、数据本地化不够,导致很多shuffle过程的重复计算,造成部分浪费计算资源的浪费; 3、可能存在多种甚至异构的存储源,增加了管理难度。 2. 架构方案2.1. 方案一:对象存储SDK集成Hadoop方式优点: 1、灵活性、可扩展性:可以根据不同的协议(HDFS,OBS,OSS....)存储到对应的存储中; 缺点: 业务层需要修改,修改量小,
2.2. 方案二:对象存储挂载本地系统方式优点: 只需要修改hdfs-数据存储的路径即可,上层业务不需要做任何修改; 缺点: 数据存储的扩展性差、不够灵活,数据最终只能存到一种存储上,即挂在的对象存储。 ***目前测试数据写入时效性差****
2.3. 方案三:统一数据湖引擎对接存储,湖仓一体
3. 面向对象存储OBS4. 存算分离方案的实现4.1. 对象存储SDK集成Hadoop方式实现(推荐)一、华为SDK安装 a. 在官方Github下载hadoop-huaweicloud:下载地址 b. 将hadoop-huaweicloud-x.x.x-hw-y.jar拷贝到/opt/hadoop-xxx/share/hadoop/tools/lib和/opt/hadoop-xxx/share/hadoop/common/lib目录下 下面为3.1.1的SDK
二、配置hadoop的core-site.xml <property> <!-- 此处为AK--> <!-- 此处为SK--> <!-- 此处为endpoint--> |
上一篇:C-V2X通讯标准应用层标准