你是否有过数据难以入湖的抓狂?
你是否有过流批存储不统一的烦恼?
你是否有过入湖更新时效性跟不上的无奈?
Streaming Lakehouse 首个 Meetup 来啦!
7 月 29 日 | 北京 | 线下
来一场 Streaming Lakehouse 实时数据湖的体验之旅!
本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,聚焦大规模 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实践!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起,会碰撞出怎样的火花?敬请期待!
活动亮点
- 超多实用干货,本场 Meetup 从入湖 Flink CDC、湖存储 Paimon、计算引擎 Flink、批处理 RSS Celeborn、OLAP 分析 StarRocks 全面分享 Streaming Lakehouse 的完整链路,你可以从中获取到为什么要构建 Streaming Lakehouse,如何构建低成本的、准实时的 Streaming Lakehouse,轻松将你的离线数仓实时化!
- 活动形式多样化,线下线上同步开启,同城可参与线下 Meetup 面对面交流,异地也可在线观看直播,精彩内容不错过;
- 丰富周边等你拿,报名参加就有机会获得 Flink 社区、Paimon 社区定制的精美周边!
活动议程
嘉宾及议题介绍
议题一|Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座
■ 演讲简介
目前业界主流数据湖存储项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求。Apache Paimon 作为实时数据湖,作为 Streaming Lakehouse 的存储底座,解锁离线数据实时化的场景,带来实时的、低成本的 Lakehouse。
- 数据湖 2023:机遇与挑战
- Paimon 实时更新与离线视图
- Paimon 变更日志与场景
- Paimon 生态
- 总结与规划
议题二|基于 Flink CDC 高效构建入湖通道
■ 演讲简介
数据库中存放的数据是最有业务价值的数据源,如何高效地将这些数据摄取到数据湖中是一个非常有价值的主题。Flink CDC 是实时数据集成框架的开源代表,不仅具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势,还提供丰富的 SQL 加工能力,在开源社区中非常受欢迎。Apache Paimon 是从 Flink 社区孵化出来的新兴的数据湖项目, 为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。当用户围绕 Paimon 构建流式湖仓时,通过 Flink CDC 作为入湖通道,可以极大简化湖仓的构建成本,同时解锁整库同步、Schema Evolution 等高级特性。
议题三|Flink Batch SQL Improvements on Lakehouse
■ 演讲简介
Flink 社区最近几个版本一直在投入比较大的精力完善与改进批处理能力,从而让批处理更快更稳定与更易用。这其中包括支持更多的 API 语法,完善数据管理能力。在 QO 层面引入基于稠密树的 Join Reorder 算法,提升多表 Join 性能;优化 DPP,可以覆盖更多的业务场景。在 QE 层面,通过引入 Adaptive Local HashAgg、Runtime Filter、多算子融合 Codegen 等功能,大幅提升批处理的性能。在 SQL 服务化方面,Gateway 支持 JDBC Driver,兼容已有作业提交模式,让作业提交更加方便。通过上述工作,Flink 批处理让 Lakehouse 架构更加简单高效、提升数据处理效率。在本次议题中,我将会介绍这些优化与新特性,以及未来发展规划。
议题四|幸福里基于 Flink&Paimon 的流式数仓实践
■ 演讲简介
幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,会从业务背景,流批一体数仓架构,实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未来规划几个方面来介绍。
议题五|Apache Celeborn: 让 Spark 和 Flink 更快,更稳,更弹性
■ 演讲简介
Apache Celeborn(Incubating)是一个高性能,高可用,可伸缩的通用 Shuffle 服务,支持 Spark,Flink 两大主流引擎(未来将支持 Tez/MR 等更多引擎)。Celeborn在 阿里及多家知名企业支撑每天数十 P 的生产 Shuffle,提升稳定性和性能的同时降低成本。本次分享将介绍 Celeborn 的高性能高可用的核心设计,支持多引擎的统一架构,用户案例,以及如何更好的参与社区。
议题六|使用 Paimon + StarRocks 构建湖仓一体数据分析方案
■ 演讲简介
- 介绍目前主流的大数据分析技术方案,以及湖仓一体数据分析方案的优势
- 介绍如何使用 Paimon + StarRocks 构建湖仓一体数据分析体系
- 介绍使用 StarRocks 分析 Paimon 表格式的技术原理
- 介绍使用 Paimon + StarRocks 构建实时数仓分析方案以及 StarRocks 社区在 Paimon 上未来的规划
动手实践|使用 Flink 实时发现最热 GitHub 项目
温馨提醒:参与实践环节的同学需要携带电脑!
本次 Meetup 新增动手实践环节,手把手教您玩转实时计算 Flink 版产品。
只需 5 分钟快速找到 GitHub 上炙手可热的 TOP 10 项目,5000CU*H云上资源包免费领取,现场完成实验项目,更有惊喜礼包相送!
加入 Flink-Learning 训练营,开启你的实时计算之旅。
点击链接即刻加入学习:https://developer.aliyun.com/trainingcamp/0bcc1ab57cf841a2af632d6252fecbab
活动详情
时间:7 月 29 日下午 13:00-18:30
地点:北京朝阳区望京凯悦酒店
点击链接观看线上直播:https://gdcop.h5.xeknow.com/sl/2bTgeB
扫下方图片参与报名:
点击即刻参与报名