HDFS_第2页

flume采集中如何自定义source flume采集日志文件的格式
日志采集框架Flume1.1 Flume介绍1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据
flume采集中如何自定义sourceflumeHDFS配置文件H5
admin6月前
230
es 在获取id的值 es数据抽取到hive
1、背景最近公司要搭建一个大数据ETL平台，过程涉及一些测试工作，在测试过程中，将一些可用性强的步骤给记录下来，方便后面开发作业的时候，拿来直接 copy 数据来源于HIve(一些加工好的指标)，需要存储至ES(用于接口查询)，如此离线数据
es 在获取id的值hiveelasticsearchhadoopHDFS
admin7月前
150
Spark基于内存的分布式计算框架 spark是基于内存的技术
简介Spark是一种基于内存的快、通用、可扩展的大数据分析引擎特点快Spark与Map Reduce相比，基于内存的运行要快100倍，基于硬盘的运算要快10倍以上。其中间结果可以缓存在内存中，达到复用的目的。易用Spark支持Java、Py
Spark基于内存的分布式计算框架spark corehadoop数据HDFS
admin7月前
170
基于hadoop的电影推荐 python python hadoop教程
一、Hadoop streaming 详解Hadoop streaming能够让Ruby、Python、PHP、和C++等非Java类语言编写的map或reduce程序在hadoop集群上运行，且mapreduce程序只要遵循从标准输入st
hadoophadoop streamingpythonHDFS
admin7月前
130
es和大数据什么关系 es大数据存储
使用场景ElasticSearch是一款开源的非常火爆的文档索引引擎, 大小公司都比较青睐的一款做日志检索、分析、查询的工具。但是ElasticSearch的数据依靠本地磁盘来做存储，虽然有三副本机制来保障数据的可靠性，但是磁盘的容量毕竟有
es和大数据什么关系hadoopHDFS数据
admin7月前
140
Flume（三）—— Flume案例
文章目录1. 案例一：监控端口数据2. 案例二：监测（实时读取）本地文件到HDFS3. 案例三：实时读取目录文件到HDFS4. 案例四：扇出5. 案例五：扇入6. 案例六：Flume拦截器6.1 时间拦截器6.2 主机名拦截器6.3 UU
flumeHDFSci
admin7月前
160
Hadoop（七）—— HDFS之其他功能
文章目录1. 集群间数据拷贝2. Hadoop归档3. 快照4. 回收站 1. 集群间数据拷贝1）scp实现两个远程主机之间的文件复制# 推 pushscp -r hello.txt root@bigdata111:userduringh
hadoopHDFSide
admin7月前
140
HBase（一）—— HBase入门
文章目录1. HBase简介2. HBase的角色2.1 HMaster2.2 HRegionServer2.2.1 功能2.2.2 组件3. HBase架构4. HBase数据模型5. HBase读写流程 1. HBase简介HBase
Hbase数据HDFShadoop
admin7月前
180
Flume（一）—— Flume介绍
文章目录1. Flume简介2. Flume角色3. Flume传输过程4. 扇入扇出5. Source、Channel、Sink的类型总结 1. Flume简介Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动
flumeSource数据HDFS
admin7月前
150
sngrep 命令 spatreg命令
PostgreSQL元命令介绍postgresql中的元命令是指以（反斜线）开通的命令，怕失去了，提供的丰富的元命令，能够便捷地管理数据库，比如查看数据库对象的定义，查看数据库对象占用空间的大小，列出数据库各种对象名称，暑假导入导出等，比
sngrep 命令PostgreSQLHDFS数据库mysql
admin7月前
150
hadoop配置spark集群开启worker是什么命令 hadoop开启kerberos
大数据技术AIFlinkSparkHadoop数仓，数据分析、面试，源码解读等干货学习资料106篇原创内容公众号官网参考：https:hadoop.apache.orgdocsr2.7.3hadoop-project-disthadoop-
hadoopbig dataHDFSHTTP
admin7月前
240
数据量过亿的索引建立是不是很慢数据量大加索引
不管你信也好，不信也好，大数据时代真的来临了，随着Hadoop技术的普及，其生态圈发展的越来越壮大，Hive、Hbase、Spark、storm等的一系列新名词不断的涌现在我们的眼里。似乎nosql一夜间，攻陷了全部的大数据阵地。那么传统
数据量过亿的索引建立是不是很慢数据HDFSdocker
admin7月前
110
hdfs 配置主从 hdfs主从结构图
通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足，后续及时修改。HDFS的体系架构整个Hadoop的体
hdfs 配置主从数据HDFShive
admin7月前
120