当前位置: 首页>后端>正文

大师兄的信息化管理学习笔记(十六):大数据

大师兄的信息化管理学习笔记(十五):软件质量与软件维护

大师兄的信息化管理学习笔记(十七):云计算

一、关于大数据

  • 大数据big data指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
1. 大数据的特征(5V)
特征 描述
大量Volume 数据量大,包括采集、存储和计算的量都非常大
多样Variety 种类和来源多样化。包括结构化、半结构化和非结构化数据
价值Value 数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵
速度Velocity 数据增长速度快,处理速度也快,时效性要求高
真实性Veracity 来源复杂,要保证数据准确性和可信赖度即数据质量
2. 大数据的应用
  • 互联网行业应用
  • 互联网访问: 访问的网站和页面、访问内容、停留时间、访问网页的关联性、购买行为、兴趣点、位置信息、社交信息等。
  • 商品的市场行情监控。
  • 流量、安全预警。
  • 流行疾病预警。
  • 节假日客运流量预告。
  • 传统领域的应用
  • 正在向以数据生产、流通和利用为核心的金融、零售、电信、公共管理、医疗卫生等领域渗透。
  • 其它:
  • 大数据征信
  • 大数据风控
  • 大数据消费金融
  • 大数据财务管理
  • 大数据疾病预测
3. 大数据处理环节
环节 描述
数据准备 从数据源获取数据并进行预处理
数据存储与管理 设计存储模型、存储策略、管理数据
计算处理 大型数据汇总计算
数据分析 专用手段对大数据分析挖掘
知识展现 大数据计算结果可视化

二、Hadoop简介

大师兄的信息化管理学习笔记(十六):大数据,第1张
  • Hadoop是一个由Apache基金会开发的分布式系统基础架构。
  • Hadoop已成为大数据平台的事实标准,用户可以再不了解分布式底层细节的情况下,开发分布式程序。
  • Haddop的核心特性:分布式计算、并行计算
  • Hadoop的优点:
  • 高效可靠
  • 易于扩展
  • 使用广泛
  • 业界支持
  • 社区活跃
  • 免费开源
1. 分布式文件系统HDFS
大师兄的信息化管理学习笔记(十六):大数据,第2张
2. 分布式计算模型MapReduce
大师兄的信息化管理学习笔记(十六):大数据,第3张
3. Hadoop生态圈
大师兄的信息化管理学习笔记(十六):大数据,第4张
4. Hadoop核心组件
  • HDFS(Hadoop Distributed File System):分布式文件系统,为海量的数据提供了存储。高容错性、低部署成本。
  • MapReduce:一种编程模型,用于大规模数据并行计算。
  • Hive:数据仓库工具,定义了类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。
  • HBase:针对结构化数据的高可靠、高性能、分布式、面向列的NoSQL数据库。
  • chukwa:开源的大型分布式系统的数据收集系统,构建在HDFS和Map/Reduce框架上。
  • Spark:基于内存的集群计算技术,专为大规模数据的快速计算而设计。包括Spark SQL、MLLib、Spark Streaming、GraphX等组件。
  • Sqoop:用于Hadoop与传统数据库进行数据的传递。
  • Flume:开源日志收集系统,分布式、高可靠、高容错、易于扩展。
  • kafka:高吞吐量的分布式发布订阅消息系统,可处理海量动作流数据。
  • Ambari:Hadoop管理工具,可以快捷监控、部署、管理集群。
  • Zookeeper:分布式写作服务机制,解决分布式环境下的数据管理问题。
  • Pig:大数据分析脚本语言,将Pig Latin脚本转换为MapReduce任务
  • Mahout:数据挖掘算法库,包含聚类、分类、推荐引擎等算法。
  • Storm:分布式实时大数据处理系统,流数据框架。

https://www.xamrdz.com/backend/3w71936652.html

相关文章: