大数据异构环境数据同步工具DataX 与Sqoop 之比较

  • 时间:
  • 浏览:0
  • 来源:万人牛牛棋牌_万人牛牛棋牌官网

而Sqoop充分上端了map-reduce的计算框架。Sqoop根据输入条件,生成一一1个map-reduce的作业,在Hadoop的框架中运行。

Sqoop现在作为Apache的顶级项目,因为想要从DataX和Sqoop上端选则说说,让他想要还是会选则Sqoop。因此Sqoop还有所以第三方的插件。早上使用了Quest开发的OraOop插件,虽然像quest说的一样,带宽有着大幅的提升,Quest在数据库方面的经验,虽然比旁人深厚。

因此只细看两者的架构图,快一点 就会发现明显的不同

另外类事Sqoop采用命令行的土法律法律依据调用,比如容易与亲们的现有的调度监控方案相结合,DataX采用xml 配置文件的土法律法律依据,在开发运维上还是怪怪的不方便。

附图1.Sqoop with Quest oracle connector

Sqoop架构图

DataX 直接在运行DataX的机器上进行数据的抽取及加载。

从理论上讲,用map-reduce框架并肩在多个节点上进行import应该会比从单节点上运行多个并行导入带宽高。而实际的测试中也是这么 ,测试一一1个Oracle to hdfs的作业,DataX上这么 看过运行DataX上的机器的数据库连接,而Sqoop运行时,4台task-tracker全部产生一一1个数据库连接。调起的Sqoop作业的机器也会产生一一1个数据库连接,应为需用读取数据表的类事元数据信息,数据量等,做分区。

从接触DataX起时会一一1个哪些地方的疑问,它和Sqoop到底哪些地方地方区别,昨天部署好了DataX和Sqoop,就能这么 对两者进行更深入的了解了。

在我的测试环境上,一台这么 700m内存的,IO低下的oracle数据库,百兆的网络,使用Quest的Sqoop插件在一一1个并行度的具体情况下,导出到HDFS带宽有5MB/s ,这因为让他要很满意了。相比使用原生Sqoop的2.8MB/s快了将近一倍,sqoop又比DataX的780KB/s快了两倍。

两者从原理上看怪怪的类事,时会处里异构环境的数据交换哪些地方的疑问,都支持oracle,mysql,hdfs,hive的互相交换,对于不同数据库的支持时会插件式的,对于新增的数据源类型,倘若新开发一一1个插件就好了,

DataX架构图