您的位置:首页 >聚焦 > 创投 >

Alluxio 2.0旨在统一分散的数据生态系统

2019-07-16 09:25:33来源:

Alluxio基于最初的AMPLab Tachyon项目,希望您使用其内存中文件系统构造来实现快速数据访问,计算框架之间的数据共享以及云之间数据移动的智能协商。其新的政策驱动的数据编排,以及其AWS和Starburst Presto集成,使这笔交易变得更加甜美。Alluxio是一家公司,其数据编排层基于最初称为Tachyon的开源内存文件系统项目,上周在纽约AWS AWS峰会上发布了其产品的2.0版本。Alluxio 2.0提供了很酷的功能,包括与Amazon Web Services的Elastic MapReduce(EMR)服务的集成。这篇文章介绍了这些新的2.0功能,以及Alluxio的有趣基础。,因为概念性的东西是第一位的。

现代开源数据堆栈是一个分解的,松散联合的开源项目集合,与一些商业产品配对。一个可能不方便的事实是,这种现象导致堆栈包含大量数据孤岛。除了挑战之外,将云对象存储用于分析和数据湖的不断增长的势头减慢了速度。在内存中缓存数据可能有所帮助,但它并不是灵丹妙药,因为每个计算框架都倾向于以自己的方式这样做,这只会加剧孤岛问题。

另一方面,大多数数据框架都知道如何访问文件系统,包括本地Hadoop分布式文件系统(HDFS),Amazon Simple Storage Service(S3),AzureBlob/Data Lake Storage(WASB / ADLS)和Google云存储(GCS)。因此,实现可通过通用文件系统API访问的内存缓存似乎是一种统一分散的生态系统的好方法,以加速数据访问并实现框架之间的数据共享(数据湖构建的是所有关于)。

这就是Tachyon /Alluxio项目的用武之地。该项目是在加州大学伯克利分校的AMPLab孵化的,这个组织孵化了现在的Apache Spark。浩源(HY)李,当时的博士。该项目背后的学生,成立了Alluxio(原名Tachyon Nexus),目前担任其首席技术官。根据Crunchbase的说法,该公司已经通过两轮获得了1600万美元的资金,最近一次是2019年1月的850万美元B系列。

您可以将Alluxio(可在社区和企业版中使用)视为内存缓存。数据虚拟化网关将是另一种适当的分类。您可以将Alluxio视为文件系统 - 它将其与以CSV和Parquet等文件格式存储的独立数据集的数据湖结构对齐。而且,对于来自关系数据库背景的人来说,Alluxio说你可以把它当作RDBMS缓冲池的继承人。不管你如何看待它,它都支持HDFS,S3,POSIX和Java文件系统接口,并针对客户端进行了优化,包括Spark,Presto和Hive。

通常,数据源使用Alluxio作为内存文件系统缓存抽象数据,加速数据访问性能并简化与数据本身的连接。虽然Alluxio可以以独立的方式获得和实施,但它现在也可以OEM形式提供。Alluxio上个月宣布该产品现已从Starburst获得,与该公司的商业Presto分销集成,使Alluxio和Presto工作节点共存,优化数据位置并加速整体性能。

Alluxio的第2版已经发布到一般可用性(GA),具有AWS特定的集成范围。首先,该产品可用于以亚马逊机器映像(AMI)的形式进行评估和部署。这是一个很好的入门方式,但也许更好,Alluxio可以部署到EMR集群。这是通过EMR引导操作完成的,允许Alluxio在首次配置时安装在EMR集群上。

在特定供应商生态系统之外,Alluxio现在已将基于REST的服务添加到其支持的数据源列表中。结合产品对Tensorflow深度学习框架的支持,这可以实现有趣的AI实施,包括建立驻留在Google网站上的数据的模型,如Google拥有的数据科学网站Kaggle,以及美国政府开放数据data.gov门户。

V2还增加了策略驱动的功能以支持数据分层,允许“热”,“暖”和“冷”数据分别驻留在内存中,固态硬盘(SSD)介质或旋转硬盘驱动器(HDD)基础架构上。虽然这对于本地工作来说非常好,但v2还添加了一种数据服务,可以促进数据跨不同公共云存储层的移动。

其他功能,包括集群分区,自适应复制和称为Embedded Journal的高可用性模式,以及用于分层元数据存储的RocksDB和用于集群内通信的gRPC的集成,完善了2.0版本。

当Tachyon出现时,内存中的文件系统似乎是一个很酷的主意,而且通常很有用。当时,它的明显效用主要是一种直观的判断。但随着数据湖移动到公共云和跨越公共云,随着数据计算框架和查询引擎的不断增加,对Alluxio的需求似乎更加具体。

是的,开源和启动数据世界已经提供了创新技术,以响应现有企业数据仓库和BI平台的霸权。但在这样做的过程中,它忽略了这些单一供应商平台提供的集成和优化的价值。结果是数据孤岛的荒谬扩散。值得庆幸的是,包括Alluxio在内的一些玩家正试图解决并缓解现代数据堆栈的复杂性。超越时间我们消除了纯粹主义的观念,即脱钩 - 一切都是要走的路。像Alluxio这样的平台试图让我们回到业界愚蠢地忽视和拒绝的凝聚力。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。