10余款ETL工具大全(商业、开源)核心功能对比

10余款ETL工具大全(商业、开源)核心功能对比

9

Hekahttp://hekad.readthedocs.io/en/v0.10.0/

开源脚本

一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。通常用于系统日志分析。需要自定义数据库同步方式。

来自 Mozilla 的 Heka 是一个用来收集和整理来自多个不同源的数据的工具,通过对数据进行收集和整理后发送结果报告到不同的目标用于进一步分析。

10

Automation

商业脚本

依附于Teradata数据库本身的并行处理能力,用SQL语句来做数据转换的工作,其重点是提供对ETL流程的支持,包括前后依赖、执行和监控等

Teradata 调度

提供了一套ETL框架。它没有将注意力放在如何处理“转换”这个环节上,而是利用Teradata数据库本身的并行处理能力,用SQL语句来做数据转换的工作,其重点是提供对ETL流程的支持,包括前后依赖、执行和监控等其实应该叫做ELT,即装载是在转换之前的。的确,如果依赖数据库的能力去处理转换,恐怕只能是ELT,因为转换只能在数据库内部进行。从这个角度看,Automation对数据库的依赖不小,似乎是一种不灵活的设计。也正是这个原因,考虑它的成本就不单单是ETL产品的成本了。

11

symmetricds

开源按数据量和服务器收费

触发器方式有锁表问题

——————

序号

ETL工具名称

软件性质

数据同步方式

作业调度

12

Apache Camelhttp://camel.apache.org/

Apache Camel 是一个非常强大的基于规则的路由以及媒介引擎,该引擎提供了一个基于 POJO 的企业应用模式(Enterprise Integration Patterns)的实现,你可以采用其异常强大且十分易用的 API (可以说是一种Java 的领域定义语言 Domain Specific Language)来配置其路由或者中介的规则。 通过这种领域定义语言,你可以在你的 IDE 中用简单的 Java Code 就可以写出一个类型安全并具有一定智能的规则描述文件。

13

Apache Kafkahttps://kafka.apache.org/

提供一个通道,不存储数据

Apache Kafka 是一个开源的消息系统,用 Scala 和 Java 写成。该项目为处理实时数据提供了一个统一、高通量、低延时的平台。有如下特性:· 通过 O(1) 的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。· 高吞吐量:即使是非常普通的硬件 kafka 也可以支持每秒数十万的消息。· 支持通过 kafka 服务器和消费机集群来分区消息。· 支持 Hadoop 并行数据加载。

14

Inaplex Inaport(主要在英国)

没有GUI

需要 .net 2.0没有使用什么优化技术。因为只处理特定数据,所以比较容易进行数据清洗。

相关推荐

他们是谁用英语怎么说
365sport365中文版

他们是谁用英语怎么说

📅 07-15 👁️ 1060
详解神都洛阳:窈娘堤、上阳宫、天堂、积善坊、南市、天枢在哪?
十大手机连锁品牌排行榜
365sport365中文版

十大手机连锁品牌排行榜

📅 09-13 👁️ 5102