当前位置：首页>后端>正文

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站

后端2024-04-28 20:26:52

flink meetup

你是否有过数据难以入湖的抓狂？

你是否有过流批存储不统一的烦恼？

你是否有过入湖更新时效性跟不上的无奈？

Streaming Lakehouse 首个 Meetup 来啦！

7 月 29 日 | 北京 | 线下

来一场 Streaming Lakehouse 实时数据湖的体验之旅！

本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家，聚焦大规模 CDC 数据入湖实践、Flink 一站式湖仓一体构建、流式数据湖关键特性以及统一的 RSS 等，全方位解析 Streaming Lakehouse 最前沿的技术，最新的产业实践！Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源项目汇聚在一起，会碰撞出怎样的火花？敬请期待！

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第2张

flink meetup

活动亮点

超多实用干货，本场 Meetup 从入湖 Flink CDC、湖存储 Paimon、计算引擎 Flink、批处理 RSS Celeborn、OLAP 分析 StarRocks 全面分享 Streaming Lakehouse 的完整链路，你可以从中获取到为什么要构建 Streaming Lakehouse，如何构建低成本的、准实时的 Streaming Lakehouse，轻松将你的离线数仓实时化！
活动形式多样化，线下线上同步开启，同城可参与线下 Meetup 面对面交流，异地也可在线观看直播，精彩内容不错过；
丰富周边等你拿，报名参加就有机会获得 Flink 社区、Paimon 社区定制的精美周边！

活动议程

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第3张

海报（终版）.png

嘉宾及议题介绍

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第4张

出品人介绍.jpg

议题一｜Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第5张

之信.jpg

■ 演讲简介

目前业界主流数据湖存储项目都是面向 Batch 场景设计的，在数据更新处理时效性上无法满足 Streaming Lakehouse 的需求。Apache Paimon 作为实时数据湖，作为 Streaming Lakehouse 的存储底座，解锁离线数据实时化的场景，带来实时的、低成本的 Lakehouse。

数据湖 2023：机遇与挑战
Paimon 实时更新与离线视图
Paimon 变更日志与场景
Paimon 生态
总结与规划

议题二｜基于 Flink CDC 高效构建入湖通道

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第6张

雪尽.jpg

■ 演讲简介

数据库中存放的数据是最有业务价值的数据源，如何高效地将这些数据摄取到数据湖中是一个非常有价值的主题。Flink CDC 是实时数据集成框架的开源代表，不仅具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势，还提供丰富的 SQL 加工能力，在开源社区中非常受欢迎。Apache Paimon 是从 Flink 社区孵化出来的新兴的数据湖项目, 为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。当用户围绕 Paimon 构建流式湖仓时，通过 Flink CDC 作为入湖通道，可以极大简化湖仓的构建成本，同时解锁整库同步、Schema Evolution 等高级特性。

议题三｜Flink Batch SQL Improvements on Lakehouse

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第7张

刘大龙.jpg

■ 演讲简介

Flink 社区最近几个版本一直在投入比较大的精力完善与改进批处理能力，从而让批处理更快更稳定与更易用。这其中包括支持更多的 API 语法，完善数据管理能力。在 QO 层面引入基于稠密树的 Join Reorder 算法，提升多表 Join 性能；优化 DPP，可以覆盖更多的业务场景。在 QE 层面，通过引入 Adaptive Local HashAgg、Runtime Filter、多算子融合 Codegen 等功能，大幅提升批处理的性能。在 SQL 服务化方面，Gateway 支持 JDBC Driver，兼容已有作业提交模式，让作业提交更加方便。通过上述工作，Flink 批处理让 Lakehouse 架构更加简单高效、提升数据处理效率。在本次议题中，我将会介绍这些优化与新特性，以及未来发展规划。

议题四｜幸福里基于 Flink&Paimon 的流式数仓实践

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第8张

李国君.jpg

■ 演讲简介

幸福里业务是一种典型的交易、事务类型的业务场景，这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验，会从业务背景，流批一体数仓架构，实践中遇到的问题和解决方案，借助 Paimon 最终能拿到的收益，以及未来规划几个方面来介绍。

议题五｜Apache Celeborn: 让 Spark 和 Flink 更快，更稳，更弹性

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第9张

一锤.jpg

■ 演讲简介

Apache Celeborn(Incubating)是一个高性能，高可用，可伸缩的通用 Shuffle 服务，支持 Spark，Flink 两大主流引擎(未来将支持 Tez/MR 等更多引擎)。Celeborn在阿里及多家知名企业支撑每天数十 P 的生产 Shuffle，提升稳定性和性能的同时降低成本。本次分享将介绍 Celeborn 的高性能高可用的核心设计，支持多引擎的统一架构，用户案例，以及如何更好的参与社区。

议题六｜使用 Paimon + StarRocks 构建湖仓一体数据分析方案

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第10张

曾.jpg

■ 演讲简介

介绍目前主流的大数据分析技术方案，以及湖仓一体数据分析方案的优势
介绍如何使用 Paimon + StarRocks 构建湖仓一体数据分析体系
介绍使用 StarRocks 分析 Paimon 表格式的技术原理
介绍使用 Paimon + StarRocks 构建实时数仓分析方案以及 StarRocks 社区在 Paimon 上未来的规划

动手实践｜使用 Flink 实时发现最热 GitHub 项目

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第11张

王洪顺.jpg

温馨提醒：参与实践环节的同学需要携带电脑！

本次 Meetup 新增动手实践环节，手把手教您玩转实时计算 Flink 版产品。

只需 5 分钟快速找到 GitHub 上炙手可热的 TOP 10 项目，5000CU*H云上资源包免费领取，现场完成实验项目，更有惊喜礼包相送！

加入 Flink-Learning 训练营，开启你的实时计算之旅。

点击链接即刻加入学习：https://developer.aliyun.com/trainingcamp/0bcc1ab57cf841a2af632d6252fecbab

活动详情

时间：7 月 29 日下午 13:00-18:30

地点：北京朝阳区望京凯悦酒店

点击链接观看线上直播：https://gdcop.h5.xeknow.com/sl/2bTgeB

扫下方图片参与报名：

活动预告｜7月29日 Streaming Lakehouse Meetup·北京站,第12张

底部图.png

点击即刻参与报名

查看全文

https://www.xamrdz.com/backend/35c1937611.html

活动亮点

活动议程

嘉宾及议题介绍

议题一｜Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座

议题二｜基于 Flink CDC 高效构建入湖通道

议题三｜Flink Batch SQL Improvements on Lakehouse

议题四｜幸福里基于 Flink&Paimon 的流式数仓实践

议题五｜Apache Celeborn: 让 Spark 和 Flink 更快，更稳，更弹性

议题六｜使用 Paimon + StarRocks 构建湖仓一体数据分析方案

动手实践｜使用 Flink 实时发现最热 GitHub 项目

活动详情

相关文章：