什么是ETL?
什么是ETL?为什么需要ETL?
ETL工具的比较!
四种数据处理方式比较:传统 ETL 工具、Mapreduce、Hive、Spark
常见ETL平台:
Kettle:
互联网巨头(比如BAT)的数据平台几乎都是hadoop,spark的框架,因为数据是海量的。即便kettle有可取之处,也会被改得面目全非,因为这些公司大都是研发狂魔啊。。。
小公司使用kettle居多,开源成本低,部署极其方便,一台普通的服务器,甚至本地PC就可以随意折腾。作用还是ETL工具,做数据处理用。再搭一些开源的报表平台出BI报表。据我所知,顺网科技旗下公司有在用~这个算有名么。。。
另外传统的金融IT(主要是各大银行)妥妥地会购买整套的商用BI,财大气粗,关键是懒。
总之,kettle本质上就是java编写的数据处理程序,但数据量是其瓶颈。
【作者:一介布衣;链接:https://www.zhihu.com/question/46990569/answer/107046866】
Apache - Airbnb airflow:airflow 介绍 - 简书
数据处理大厂:Oracle,Apache
Oracle是啥?甲骨文(中国)软件系统有限公司_百度百科
大名鼎鼎的Apache是啥?apache(Apache软件基金会)_百度百科
Hadoop
官方文件:Hadoop分布式文件系统:架构和设计
引言:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。
前提和设计目标:硬件错误,流式数据访问,大规模数据集,简单的一致性模型,“移动计算比移动数据更划算”,异构软硬件平台间的可移植性,Namenod和Datanod。
大数据架构hadoop - zhanghaiyang的个人空间 - OSCHINA - 中文开源技术交流社区
abstract: "
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。
Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。"