当前位置：首页>数据库>正文

hive在ETL过程中的作用 hive etl工具

数据库2024-05-23 15:44:33

什么是ETL？

什么是ETL？为什么需要ETL？

ETL工具的比较！

四种数据处理方式比较：传统 ETL 工具、Mapreduce、Hive、Spark

常见ETL平台：

Kettle：

互联网巨头(比如BAT)的数据平台几乎都是hadoop，spark的框架，因为数据是海量的。即便kettle有可取之处，也会被改得面目全非，因为这些公司大都是研发狂魔啊。。。

小公司使用kettle居多，开源成本低，部署极其方便，一台普通的服务器，甚至本地PC就可以随意折腾。作用还是ETL工具，做数据处理用。再搭一些开源的报表平台出BI报表。据我所知，顺网科技旗下公司有在用~这个算有名么。。。

另外传统的金融IT（主要是各大银行）妥妥地会购买整套的商用BI，财大气粗，关键是懒。

总之，kettle本质上就是java编写的数据处理程序，但数据量是其瓶颈。
【作者：一介布衣；链接：https://www.zhihu.com/question/46990569/answer/107046866】

Apache - Airbnb airflow：airflow 介绍 - 简书

数据处理大厂：Oracle，Apache

Oracle是啥？甲骨文（中国）软件系统有限公司_百度百科

大名鼎鼎的Apache是啥？apache（Apache软件基金会）_百度百科

Hadoop

官方文件：Hadoop分布式文件系统：架构和设计

引言：Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

前提和设计目标：硬件错误，流式数据访问，大规模数据集，简单的一致性模型，“移动计算比移动数据更划算”，异构软硬件平台间的可移植性，Namenod和Datanod。

大数据架构hadoop - zhanghaiyang的个人空间 - OSCHINA - 中文开源技术交流社区

abstract: "

随着互联网、移动互联网和物联网的发展，谁也无法否认，我们已经切实地迎来了一个海量数据的时代，数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB，对这些海量数据的分析已经成为一个非常重要且紧迫的需求。

Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。作为一家互联网数据分析公司，我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下，我们几乎尝试了所有可能的大数据分析方法，最终落地于Hadoop平台之上。"

查看全文

https://www.xamrdz.com/database/6y81961486.html