当前位置: 首页>后端>正文

活动预告|7月29日 Streaming Lakehouse Meetup·北京站

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第1张
flink meetup

你是否有过数据难以入湖的抓狂?

你是否有过流批存储不统一的烦恼?

你是否有过入湖更新时效性跟不上的无奈?

Streaming Lakehouse 首个 Meetup 来啦!

7 月 29 日 | 北京 | 线下

来一场 Streaming Lakehouse 实时数据湖的体验之旅!

本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,聚焦大规模 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实践!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起,会碰撞出怎样的火花?敬请期待!

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第2张
flink meetup

活动亮点

  • 超多实用干货,本场 Meetup 从入湖 Flink CDC、湖存储 Paimon、计算引擎 Flink、批处理 RSS Celeborn、OLAP 分析 StarRocks 全面分享 Streaming Lakehouse 的完整链路,你可以从中获取到为什么要构建 Streaming Lakehouse,如何构建低成本的、准实时的 Streaming Lakehouse,轻松将你的离线数仓实时化!
  • 活动形式多样化,线下线上同步开启,同城可参与线下 Meetup 面对面交流,异地也可在线观看直播,精彩内容不错过;
  • 丰富周边等你拿,报名参加就有机会获得 Flink 社区、Paimon 社区定制的精美周边!

活动议程

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第3张
海报(终版).png

嘉宾及议题介绍

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第4张
出品人介绍.jpg

议题一|Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第5张
之信.jpg

■ 演讲简介

目前业界主流数据湖存储项目都是面向 Batch 场景设计的,在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求。Apache Paimon 作为实时数据湖,作为 Streaming Lakehouse 的存储底座,解锁离线数据实时化的场景,带来实时的、低成本的 Lakehouse。

  • 数据湖 2023:机遇与挑战
  • Paimon 实时更新与离线视图
  • Paimon 变更日志与场景
  • Paimon 生态
  • 总结与规划

议题二|基于 Flink CDC 高效构建入湖通道

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第6张
雪尽.jpg

■ 演讲简介

数据库中存放的数据是最有业务价值的数据源,如何高效地将这些数据摄取到数据湖中是一个非常有价值的主题。Flink CDC 是实时数据集成框架的开源代表,不仅具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势,还提供丰富的 SQL 加工能力,在开源社区中非常受欢迎。Apache Paimon 是从 Flink 社区孵化出来的新兴的数据湖项目, 为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。当用户围绕 Paimon 构建流式湖仓时,通过 Flink CDC 作为入湖通道,可以极大简化湖仓的构建成本,同时解锁整库同步、Schema Evolution 等高级特性。

议题三|Flink Batch SQL Improvements on Lakehouse

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第7张
刘大龙.jpg

■ 演讲简介

Flink 社区最近几个版本一直在投入比较大的精力完善与改进批处理能力,从而让批处理更快更稳定与更易用。这其中包括支持更多的 API 语法,完善数据管理能力。在 QO 层面引入基于稠密树的 Join Reorder 算法,提升多表 Join 性能;优化 DPP,可以覆盖更多的业务场景。在 QE 层面,通过引入 Adaptive Local HashAgg、Runtime Filter、多算子融合 Codegen 等功能,大幅提升批处理的性能。在 SQL 服务化方面,Gateway 支持 JDBC Driver,兼容已有作业提交模式,让作业提交更加方便。通过上述工作,Flink 批处理让 Lakehouse 架构更加简单高效、提升数据处理效率。在本次议题中,我将会介绍这些优化与新特性,以及未来发展规划。

议题四|幸福里基于 Flink&Paimon 的流式数仓实践

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第8张
李国君.jpg

■ 演讲简介

幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,会从业务背景,流批一体数仓架构,实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未来规划几个方面来介绍。

议题五|Apache Celeborn: 让 Spark 和 Flink 更快,更稳,更弹性

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第9张
一锤.jpg

■ 演讲简介

Apache Celeborn(Incubating)是一个高性能,高可用,可伸缩的通用 Shuffle 服务,支持 Spark,Flink 两大主流引擎(未来将支持 Tez/MR 等更多引擎)。Celeborn在 阿里及多家知名企业支撑每天数十 P 的生产 Shuffle,提升稳定性和性能的同时降低成本。本次分享将介绍 Celeborn 的高性能高可用的核心设计,支持多引擎的统一架构,用户案例,以及如何更好的参与社区。

议题六|使用 Paimon + StarRocks 构建湖仓一体数据分析方案

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第10张
曾.jpg

■ 演讲简介

  • 介绍目前主流的大数据分析技术方案,以及湖仓一体数据分析方案的优势
  • 介绍如何使用 Paimon + StarRocks 构建湖仓一体数据分析体系
  • 介绍使用 StarRocks 分析 Paimon 表格式的技术原理
  • 介绍使用 Paimon + StarRocks 构建实时数仓分析方案以及 StarRocks 社区在 Paimon 上未来的规划

动手实践|使用 Flink 实时发现最热 GitHub 项目

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第11张
王洪顺.jpg

温馨提醒:参与实践环节的同学需要携带电脑!

本次 Meetup 新增动手实践环节,手把手教您玩转实时计算 Flink 版产品。

只需 5 分钟快速找到 GitHub 上炙手可热的 TOP 10 项目,5000CU*H云上资源包免费领取,现场完成实验项目,更有惊喜礼包相送!

加入 Flink-Learning 训练营,开启你的实时计算之旅。

点击链接即刻加入学习:https://developer.aliyun.com/trainingcamp/0bcc1ab57cf841a2af632d6252fecbab

活动详情

时间:7 月 29 日下午 13:00-18:30

地点:北京朝阳区望京凯悦酒店

点击链接观看线上直播:https://gdcop.h5.xeknow.com/sl/2bTgeB

扫下方图片参与报名:

活动预告|7月29日 Streaming Lakehouse Meetup·北京站,第12张
底部图.png

点击即刻参与报名


https://www.xamrdz.com/backend/35c1937611.html

相关文章: