马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding。

Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。

Apache Hudi项目VP Vinoth Chandar说:“在孵化器中学习和发展Apache之道是一种有益的体验,作为一个社区,我们对我们共同推动该项目走了多远依然感到谦卑,与此同时,对即将到来的挑战感到兴奋。”

Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。 核心功能包括:

  • 可插拔式的索引支持快速Upsert / Delete。
  • 事务提交/回滚数据。
  • 支持捕获Hudi表的变更进行流式处理。
  • 支持Apache Hive,Apache Spark,Apache Impala和Presto查询引擎。
  • 内置数据提取工具,支持Apache Kafka,Apache Sqoop和其他常见数据源。
  • 通过管理文件大小,存储布局来优化查询性能。
  • 基于行存快速提取模式,并支持异步压缩成列存格式。
  • 用于审计跟踪的时间轴元数据。

阿里巴巴集团、亚马逊AWS、EMIS Health、Linknovate、Tathastu.AI、腾讯和Uber等组织。都在使用Apache Hudi,https://hudi.apache.org/docs/powered_by.html提供了使用Hudi的部分列表。

我们很高兴看到Apache Hudi毕业成为Apache顶级项目。Apache Hudi在Amazon EMR版本5.28和更高版本中受支持,并使拥有Amazon S3数据湖中数据的客户能够执行记录级的插入,更新和删除操作,以执行隐私法规,更改数据捕获(CDC)和简化的数据管道开发 ” AWS总经理Rahul Pathak说。 “我们期待与我们的客户和Apache Hudi社区合作,以帮助推进该项目。”

Apache Hudi项目管理委员会成员Nishith Agarwal说:“在Uber,Hudi近实时地管理地球上最大的交易数据湖之一,为全球用户提供有意义的体验,累计超过150 PB的数据和每天超过5,000亿条记录被提取,Uber的使用范围从关键业务工作流程到分析和机器学习。”

“使用Apache Hudi,用户可以轻松处理重读或重写的场景,并且Hudi使用Apache Parquet和Apache Avro管理存储在HDFS/COS/CHDFS上的基础数据。”腾讯云实时计算服务技术负责人Felix Zheng说道。

“随着云的基础设施越来越完善,用户的数据分析和计算方案逐步开始基于云上对象存储和计算资源构建数据湖平台。Hudi是一个很好的增量存储引擎,用开放的方式帮助用户管理好数据湖的数据,加速用户的计算和分析。”阿里云Data Lake Analytics - Lake Formation技术负责人李伟表示。

“Apache Hudi是Hopsworks Feature Store的关键模块,它提供了版本控制、增量和原子更新以及时间旅行查询等功能” Logical Clocks的CEO /联合创始人Jim Dowling说。“Hudi毕业成为Apache顶级项目,也是开源数据湖从早期的数据沼泽化身到现代支持ACID且可用于企业的数据平台。”

Uber工程平台高级总监Jennifer Anderson表示:“Hudi毕业成为Apache顶级项目是Hudi社区众多贡献者共同努力的结果。Hudi对于Uber大数据基础架构的性能和可伸缩性至关重要。我们很高兴看到它获得牵引力并实现了这一重要里程碑。”

Vinoth Chandar补充道:“到目前为止,Hudi已经开始在业界中就数据仓库和数据湖之间的巨大差距进行有意义的讨论。在Apache社区的帮助下我们连接起了其中一部分,但我们仅仅是从技术路线图着手。我们欢迎每位开发者做出更多贡献和合作以实现这一目标!”

可以访问(https://github.com/apache/hudi)[https://github.com/apache/hudi],给出你的star & fork.

在2020年6月7日至12日举行的Virtual Berlin Buzzwords,MeetUps和其他活动中了解Apache Hudi。

可用性和监督

Apache Hudi是根据Apache License v2.0发布的,并且由该项目的积极参与者自选团队进行监督。项目管理委员会(PMC)指导项目的日常运营,包括社区开发和产品发布。 有关下载,文档以及参与Apache Hudi的方式,请访问http://hudi.apache.org/和https://twitter.com/apachehudi

关于Apache孵化器

Apache孵化器是希望成为Apache Software Foundation工作的一部分的项目和代码库的主要入口。外部组织和现有外部项目的所有代码捐赠均通过孵化器进入ASF,以:1)确保所有捐赠均符合ASF法律标准; 2)建立符合我们指导原则的新社区。 所有新接受的项目都需要进行孵化,直到进一步的审查表明基础架构,通信和决策过程已经以与其他成功的ASF项目一致的方式稳定下来。 虽然孵化状态不一定反映代码的完整性或稳定性,但确实表明该项目尚未得到ASF的完全认可。有关更多信息,请访问http://incubator.apache.org/

关于Apache软件基金会(ASF)

这家全志愿者基金会成立于1999年,负责监督350多个领先的开源项目,其中包括Apache HTTP Server(世界上最受欢迎的Web服务器软件)。通过ASF称为“ Apache之道”的精英流程,六大洲的813名个人会员和7800个提交者成功地合作开发了免费的企业级软件,使全球数百万用户受益:数千种软件解决方案在Apache下分发执照;社区积极参与ASF邮件列表,指导计划以及ApacheCon(基金会的官方用户会议,培训和博览会)。ASF是一家美国501(c)(3)慈善组织,由个人捐款和企业赞助商资助,其中包括Aetna,阿里云计算,亚马逊AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,腾讯,Union Investment,Verizon Media和Workday。有关更多信息,请访问http://apache.org/和https://twitter.com/TheASF

Apache软件基金会。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache软件基金会在美国和/或其他国家的注册商标或商标。所有其他品牌和商标均为其各自所有者的财产。

随机推荐

  1. Security9:查询Login被授予的权限

    在给一个Login授予权限时,发现该Login已经存在,其对应的User也存在于指定的DB中,查看该Login在指定DB中已被授予的权限. 1,查看Login的Server PrincipalID s ...

  2. svn 版本转为git

    git clone 相当于git init 和 git svn fetch.git svn rease git svn fetch 从svn服务器取指定区间的版本转化成git库 git svn reb ...

  3. 烂泥:CentOS6.5光盘以及ISO镜像文件的使用

    本文由秀依林枫提供友情赞助,首发于烂泥行天下. 学习CentOS有一段时间了,在平时使用过程中.系统镜像以及光盘使用的比较多,这篇文章就从实用的角度介绍相关有关光盘与镜像文件的使用. 因为物理机相关的 ...

  4. 交互式shell和非交互式shell的区别

    交互式模式就是shell等待你的输入,并且执行你提交的命令.这种模式被称作交互式是因为shell与用户进行交互.这种模式也是大多数用户非常熟悉的:登录.执行一些命令.签退.当你签退后,shell也终止 ...

  5. Win32对话框程序(1)

    之前学C语言是一直都是在控制台下面操作的,面对的都是黑框框,严重的打击了学习的兴趣.后来在TC下进行C语言课程设计,做了图形界面编程,但都是点线面画的…… 中间隔了好长一段时间没有碰过C语言,最近才开 ...

  6. asp.net core系列 40 Web 应用MVC 介绍与详细示例

    一. MVC介绍 MVC架构模式有助于实现关注点分离.视图和控制器均依赖于模型. 但是,模型既不依赖于视图,也不依赖于控制器. 这是分离的一个关键优势. 这种分离允许模型独立于可视化展示进行构建和测试 ...

  7. 从零开始学C#——数据类型(三)

    C#数据类型 在C#中,变量分为以下几种类型: 值类型 引用类型 指针类型 值类型 值类型变量可以直接分配给一个值,他们是从类System.ValucTpyc中派生. 值类型直接包含数据,比如int. ...

  8. Spring Boot 中application.yml与bootstrap.yml的区别

    其实yml和properties文件是一样的原理,且一个项目上要么yml或者properties,二选一的存在. 推荐使用yml,更简洁. bootstrap与application1.加载顺序这里主 ...

  9. MySQL执行计划解析

    前言 在实际数据库项目开发中,由于我们不知道实际查询时数据库里发生了什么,也不知道数据库是如何扫描表.如何使用索引的,因此,我们能感知到的就只有SQL语句的执行时间.尤其在数据规模比较大的场景下,如何 ...

  10. 潭州课堂25班:Ph201805201 第十三课 文件 (课堂笔记)

    对文件的操作,                       open('h:\\asa.txt') r 以只读方式打开 w 以写入方式打开,会覆盖已文件 X 如果已存在,会异常 a 如果文件存在,则在 ...