当前位置:首页 > 科技  > 软件

基于Doris ,打造快速、安全、高可靠的实时数据仓库

来源: 责编: 时间:2024-01-15 09:21:00 340观看
导读在当今数据驱动的时代,构建一个快速、安全和高可靠的实时数据仓库对于企业来说至关重要。Apache Doris作为一个强大的开源数据仓库解决方案,提供了实现这一目标的理想选择。通过利用Doris的强大功能和特性,可以构建一个

在当今数据驱动的时代,构建一个快速、安全和高可靠的实时数据仓库对于企业来说至关重要。Apache Doris作为一个强大的开源数据仓库解决方案,提供了实现这一目标的理想选择。通过利用Doris的强大功能和特性,可以构建一个高度可扩展且具备优异性能的实时数据仓库,以满足数据处理和分析的需求。本文介绍如何基于Doris打造这样一个数据仓库,以实现数据驱动。8fw28资讯网——每日最新资讯28at.com

1 使用Apache Doris构建实时数据仓库

1.1 数据模型选择

Apache Doris使用三种数据模型来组织数据,这些模型之间的主要区别在于是否以及如何聚合数据。8fw28资讯网——每日最新资讯28at.com

  • Duplicate Key模型:用于详细数据查询。支持任意维度的即席查询。
  • Unique Key模型:用于存在数据唯一性约束的用例。支持精确去重、多流Upsert和部分列更新。
  • Aggregate Key模型:用于数据报表。通过预聚合数据,加速数据报表生成。

金融用户在不同的数据仓库层中采用不同的数据模型:8fw28资讯网——每日最新资讯28at.com

  • ODS(原始数据层)- Duplicate Key模型:作为支付服务提供商,用户每天收到一百万笔结算数据。由于结算周期可能跨越一整年,相关数据需要保存一年。因此,合适的方式是将其放入Duplicate Key模型,该模型不执行任何数据聚合。唯一的例外是一些容易变动的数据,比如来自零售商的订单状态。这些数据应该放入Unique Key模型,以便同一零售商ID或订单ID的新记录始终替换旧记录。
  • DWD(数据仓库层)和DWS(数据服务层)- Unique Key模型:DWD和DWS层的数据进一步抽象,但仍然放在Unique Key模型中,以便结算数据可以自动更新。
  • ADS(分析数据层)- Aggregate Key模型:该层中的数据高度抽象。通过预聚合数据,减轻下游分析的计算负载。

1.2 分区和桶化策略

分区和桶化的思想是将数据“切割”成较小的部分,以增加数据处理速度。关键是设置适当数量的数据分区和桶。根据使用情况,根据每个表自定义桶化字段和桶的数量。例如,经常需要从零售商扁平表查询不同零售商的维度数据,因此可以将零售商ID列指定为桶化字段,并列出各种数据大小的推荐桶数量。8fw28资讯网——每日最新资讯28at.com

图片图片8fw28资讯网——每日最新资讯28at.com

2 多源数据迁移

在采用Apache Doris时,需要将所有分支机构的本地数据迁移到Doris中,但会发现分支机构使用了不同的数据库,并且具有非常不同的数据文件格式,所以迁移可能会很混乱。8fw28资讯网——每日最新资讯28at.com

图片图片8fw28资讯网——每日最新资讯28at.com

幸运的是,Apache Doris支持丰富的数据集成方法,既支持实时数据流式处理,又支持离线数据导入。8fw28资讯网——每日最新资讯28at.com

  • 实时数据流处理:Apache Doris实时获取MySQL Binlog。其中一部分通过Flink CDC直接写入Doris,而高容量的数据则通过Kafka同步,然后通过Flink-Doris-Connector写入Doris。
  • 离线数据导入:包括更多种类的数据源和数据格式。历史数据和增量数据从S3和HDFS导入Doris使用经纪人加载方法,来自Hive或JDBC的数据通过Insert Into方法同步到Doris,文件通过Flink-Doris-Connector和Flink FTP Connector加载到Doris。(FTP是用户在系统之间传输文件的方式,所以他们开发了Flink-FTP-Connector以支持复杂的数据格式和多个换行符的数据。)

3 全量数据摄取和增量数据摄取

为了确保业务连续性和数据准确性,可用以下摄取全量数据和增量数据的方法:8fw28资讯网——每日最新资讯28at.com

  • 全量数据摄取:在Doris中创建目标模式的临时表,将全量数据导入临时表,然后使用ALTER TABLE t1 REPLACE WITH TABLE t2语句原子替换常规表为临时表。这种方法可以避免对前面的查询产生影响。
alter table ${DB_NAME}.${TBL_NAME} drop partition IF EXISTS p${P_DOWN_DATE};ALTER TABLE ${DB_NAME}.${TBL_NAME} ADD PARTITION IF NOT EXISTS p${P_DOWN_DATE} VALUES[('${P_DOWN_DATE}'), ('${P_UP_DATE}'));LOAD LABEL ${TBL_NAME}_${load_timestamp} ...
  • 增量数据导入:创建新的数据分区以容纳增量数据。

4 离线数据处理

已经将部分离线数据处理工作迁移到Apache Doris,并把执行速度提高了5倍。8fw28资讯网——每日最新资讯28at.com

图片图片8fw28资讯网——每日最新资讯28at.com

  • 之前:旧的基于Hive的离线数据仓库使用TEZ执行引擎每天处理3000万条新数据记录。使用2TB计算资源,整个流程需要2.5小时。
  • 现在:Apache Doris在仅30分钟内完成相同的任务,仅消耗1TB。脚本执行仅需要10秒,而不是8分钟。

5 面向金融机构的企业功能

多租户资源隔离8fw28资讯网——每日最新资讯28at.com

这是必需的,因为经常会发生多个团队或业务系统请求同一数据的情况。这些任务可能导致资源抢占,从而降低性能和系统的稳定性。8fw28资讯网——每日最新资讯28at.com

5.1 不同工作负载的资源限制

这里把分析工作负载分为四类,并为每个类别设置了资源限制。特别是拥有四种不同类型的Doris账户,并为每种类型的账户设置了CPU和内存资源的限制。8fw28资讯网——每日最新资讯28at.com

图片图片8fw28资讯网——每日最新资讯28at.com

通过这种方式,当一个租户需要过多的资源时,它只会影响自己的效率,而不会影响其他租户。8fw28资讯网——每日最新资讯28at.com

5.2 基于资源标签的隔离

为了满足母子公司层级的数据安全性,这里为子公司设置隔离的资源组。每个子公司的数据存储在其自己的资源组中,并具有三个副本,而母公司的数据则存储在四个副本中:三个在母公司资源组中,另一个在子公司资源组中。因此,当子公司的员工请求母公司的数据时,查询只会在子公司资源组中执行。具体而言,采取以下步骤:8fw28资讯网——每日最新资讯28at.com

图片图片8fw28资讯网——每日最新资讯28at.com

5.3 工作负载组

基于资源标签的隔离方案确保了物理级别的隔离,但作为Apache Doris开发人员,希望进一步优化资源利用率并追求更细粒度的资源隔离。为此,在Apache Doris 2.0中推出了工作负载组功能。8fw28资讯网——每日最新资讯28at.com

工作负载组机制将查询与工作负载组相关联,限制了查询可以使用的后端节点的CPU和内存资源的共享。当集群资源短缺时,最大的查询将停止执行。相反,当集群资源充足且工作负载组需要的资源超过限制时,它将按比例分配空闲资源。8fw28资讯网——每日最新资讯28at.com

5.4 细粒度用户权限管理

出于规章制度和合规性原因,有的提供商实施严格的权限控制,以确保每个人只能访问他们应该访问的内容。参考做法如下:8fw28资讯网——每日最新资讯28at.com

  • 用户权限设置:不同子公司或具有不同业务需求的系统用户被分配不同的数据访问权限。
  • 对数据库、表和行的权限控制:Apache Doris的ROW POLICY机制使这些操作变得容易。
  • 对列的权限控制:通过创建视图来实现。

图片图片8fw28资讯网——每日最新资讯28at.com

6 集群稳定性保证

  • 断路器机制:偶尔,系统用户可能输入有误的SQL,导致资源消耗过多。为此,设置了断路器机制。它将及时停止这些消耗资源的查询,防止对系统的干扰。
  • 数据摄取并发控制:例如经常需要将历史数据整合到数据平台中。这涉及大量的数据修改任务,可能会对集群造成压力。为解决这个问题,可在唯一键模型中启用写入合并模式,启用垂直压缩和段压缩,并调整数据压缩参数以控制数据摄取并发性。
  • 网络流量控制:若有在不同城市的两个集群,可采用针对不同场景的服务质量(QoS)策略,以实现精确的网络隔离,确保网络质量和稳定性。
  • 监控和警报:将Doris与内部监控和警报平台集成,任何检测到的问题都将通过消息软件和电子邮件及时通知。

本文链接:http://www.28at.com/showinfo-26-60956-0.html基于Doris ,打造快速、安全、高可靠的实时数据仓库

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 用Go模拟实现单点登录Token生成和验证解析

下一篇: 终究还是拿下字节!强度拉满!

标签:
  • 热门焦点
  • 7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月份的手机市场风平浪静,除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外,别的也想不到有什么新品了,这也正常,通常6月7月都是手机厂商修整的时间,进入8月份之
  • 6月iOS设备性能榜:M2稳居榜首 A系列只能等一手3nm来救

    没有新品发布,自然iOS设备性能榜的上榜设备就没有什么更替,仅仅只有跑分变化而产生的排名变动,毕竟苹果新品的发布节奏就是这样的,一年下来也就几个移动端新品,不会像安卓厂商,一
  • CSS单标签实现转转logo

    转转品牌升级后更新了全新的Logo,今天我们用纯CSS来实现转转的新Logo,为了有一定的挑战性,这里我们只使用一个标签实现,将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
  • 小红书1周涨粉49W+,我总结了小白可以用的N条涨粉笔记

    作者:黄河懂运营一条性教育视频,被54万人“珍藏”是什么体验?最近,情感博主@公主是用鲜花做的,火了!仅仅凭借一条视频,光小红书就有超过128万人,为她疯狂点赞!更疯狂的是,这
  • 腾讯盖楼,字节拆墙

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之“想重温暴刷深渊、30+技能搭配暴搓到爽的游戏体验吗?一起上晶核,即刻暴打!”曾凭借直播腾讯旗下代理格斗游戏《DNF》一
  • 华为Mate 60系列用上可变灵动岛:正式版体验将会更出色

    这段时间以来,关于华为新旗舰的爆料日渐密集。据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • 英特尔Xe HPG游戏显卡:拥有512EU,单风扇版本

    据10 月 30 日外媒 TheVerge 消息报道,英特尔 Xe HPG Arc Alchemist 的正面实被曝光,不仅拥有 512 EU 版显卡,还拥有 128EU 的单风扇版本。另外,这款显卡 PCB
  • 荣耀Magic4 至臻版 首创智慧隐私通话 强劲影音系统

    2022年第一季度临近尾声,在该季度内,许多品牌陆续发布自己的最新产品,让大家从全新的角度来了解当今的手机技术。手机是电子设备中,更新迭代十分迅速的一款产品,基
Top