当前位置：首页>后端>正文

大师兄的信息化管理学习笔记（十六）：大数据

后端2024-04-27 22:59:27

大师兄的信息化管理学习笔记（十五）：软件质量与软件维护

大师兄的信息化管理学习笔记（十七）：云计算

一、关于大数据

大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

互联网访问：访问的网站和页面、访问内容、停留时间、访问网页的关联性、购买行为、兴趣点、位置信息、社交信息等。

商品的市场行情监控。

流量、安全预警。

流行疾病预警。

节假日客运流量预告。

正在向以数据生产、流通和利用为核心的金融、零售、电信、公共管理、医疗卫生等领域渗透。

大数据征信

大数据风控

大数据消费金融

大数据财务管理

大数据疾病预测

高效可靠

易于扩展

使用广泛

业界支持

社区活跃

免费开源

HDFS(Hadoop Distributed File System)：分布式文件系统，为海量的数据提供了存储。高容错性、低部署成本。
MapReduce：一种编程模型，用于大规模数据并行计算。
Hive：数据仓库工具，定义了类似SQL的查询语言(HQL)，将SQL转化为MapReduce任务在Hadoop上执行，通常用于离线分析。
HBase：针对结构化数据的高可靠、高性能、分布式、面向列的NoSQL数据库。
chukwa：开源的大型分布式系统的数据收集系统，构建在HDFS和Map/Reduce框架上。
Spark：基于内存的集群计算技术，专为大规模数据的快速计算而设计。包括Spark SQL、MLLib、Spark Streaming、GraphX等组件。
Sqoop：用于Hadoop与传统数据库进行数据的传递。
Flume：开源日志收集系统，分布式、高可靠、高容错、易于扩展。
kafka：高吞吐量的分布式发布订阅消息系统，可处理海量动作流数据。
Ambari：Hadoop管理工具，可以快捷监控、部署、管理集群。
Zookeeper：分布式写作服务机制，解决分布式环境下的数据管理问题。
Pig：大数据分析脚本语言，将Pig Latin脚本转换为MapReduce任务
Mahout：数据挖掘算法库，包含聚类、分类、推荐引擎等算法。
Storm：分布式实时大数据处理系统，流数据框架。