您现在的位置是：课程

数据湖技术Apache Hudi入门和应用教程

2023-06-29 21:11课程人已围观

数据湖技术Apache Hudi入门和应用教程-腾讯云课堂在线领券购买

数据湖技术Apache Hudi入门和应用教程-腾讯云课堂优惠购买

免费看数据湖技术Apache Hudi入门和应用教程-就上腾讯云课堂

课程咨询和资料获取请加老师QQ 1011800132 Hudi 是 Uber 在 2016 年以“Hoodie”为代号开发，旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月，Uber 向 Apache 孵化器提交了 Hudi，从而进一步推进了 Uber 的开源承诺，保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。 Hudi 目前管理着 4000 多个表，这些表在 Uber 上存储了几 PB 的数据，同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下，这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑，与该公司以前使用的解决方案相比，它的成本更低，效率更高。

它的核心功能包括：

可插拔式的索引支持快速 Upsert/Delete。
事务提交/回滚数据。
支持捕获Hudi表的变更进行流式处理。
支持 Apache Hive、Apache Spark、Apache Impala 和 Presto 查询引擎。
内置数据提取工具，支持 Apache Kafka、Apache Sqoop 和其他常见数据源。
通过管理文件大小，存储布局来优化查询性能。
基于行存快速提取模式，并支持异步压缩成列存格式。
用于审计跟踪的时间轴元数据。

上一篇：大数据入门：Zookeeper【分布式协调，保证分布式技术高可用】

下一篇：【机器学习】Python Sklearn 模型训练到在线预估二手车价格预测

您现在的位置是：课程

数据湖技术Apache Hudi入门和应用教程

其他课程

点击排行

猜你喜欢

随机推荐

站点信息