出品 | CSDN云原生


(资料图片仅供参考)

随着存储和数据逐渐往云上迁移,以Snowflake为代表的湖仓一体的模式迅速崛起,湖仓一体的新架构给大数据处理架构带来了一系列影响深远的变化,从数据工程的理念、实践的方法,到数据处理的全栈都发生了很大的变化,也有很多创业企业和工具在迅速崛起,也代表着未来数据技术的发展方向。

这些新的数据工程方法和新的数据栈被大家冠以现代数据栈,围绕现代数据栈也有一堆的新技术,包括湖仓一体、ETL、数据管道、Dataops、反向ETL、Metric Store、Data Engineering等等。

CSDN云原生系列在线峰会第13期“现代数据栈峰会”由下秒数据联合创始人李元佳担任出品人,携手下秒数据CEO蔡致暖、快用云科联合创始人阎志涛、白鲸开源联合创始人代立冬、Kyligence合伙人兼副总裁李栋,分享现代数据栈最新技术和最佳实践,帮助大家多角度、全方位了解现代技术栈。

下秒数据联合创始人李元佳在开场分享中表示,受存储成本及计算能力的限制,传统数据架构在处理数据时主要是分段进行。而云所具有的存储成本及高计算性能的优势为数据架构的发展提供新的可能性,现代数据栈(Modern Data Stack,MDS)的生态正在形成。

下面先简单回顾本期峰会的内容。关于本场峰会的演讲视频、完整文章将在CSDN云原生公众号陆续发布,敬请关注。

云原生的数据管道

在如今数据被称为新经济时代的石油的大背景下,数据管道是什么?处于什么位置?其技术和演进趋势是怎样的?

针对这些连续发问,下秒数据CEO蔡致暖针对数据管道1.0至3.0的迭代过程及技术特点进行了详细介绍。

蔡致暖表示,随着SaaS的兴起,企业数据孤岛进一步加剧。而数据管道解决的正是如何自动化地把不同来源的数据传递给组织中的人、系统、应用程序,并将数据转化为业务价值,最终使组织可以像用水和用电一样使用数据。

Data Modeling in Modern Data Stack

快用云科联合创始人阎志涛针对数据建模及其在现代数据栈中的应用做了深入分享。阎志涛表示,企业上云是不可逆转的趋势,企业使用数据进行驱动也是不可逆转的趋势。

同时,阎志涛也分享了四种现代数据建模产品:

Dbt;

Dataform;

Datameer;

QuickTable。

现代数据栈之DataOps

数字化时代为我们带来了海量的信息及数据,云计算技术的成熟使数据驱动业务决策不再是一件高门槛的事情。白鲸开源联合创始人代立冬从DataOps的任务编排、数据集成能力以及其与开源的关系三个方面,对现代数据栈进行了深入剖析并分享了实际应用案例。

代立冬指出,云原生分布式大数据工作流调度系统DolphinScheduler所具备的高可靠性、简单易用、高拓展性、云原生能力等优势,正是其受欢迎的原因。

同时,对于开发者们该如何从0到1参与开源,代立冬建议:

订阅邮件列表,参加开发活动,参与技术、非技术讨论,与社区建立联系;

先在本地run起来;

从小开始,稳步前进;

学习官网贡献规范、流程。

​​​​​​​

从数据湖到指标中台,提升数据分析ROI

Kyligence合伙人兼副总裁李栋介绍了目前指标中台发展的趋势,并指出当前影响数据分析ROI的三⼤障碍:

指标口径不一——数据量很大,但缺少信任;

“浑浊”的数据湖——宽表爆炸,数据存储和ETL任务冗余;

IT成本&时效性——IT成本随数据量和用户量增长而迅速增长。

最后,针对如何使用指标中台解决传统数据湖所产生的问题,李栋从实际案例入手,通过讲解与Demo演示,为大家提供高效数据开发的新思路。

彩蛋来啦

扫码加入交流群,获取本场峰会PPT

推荐内容