HDFS

hive AES_ENCRYPT秘钥 hive免密登录
一、前期工作：1.修改linux ip手动修改也可以命令修改vimetcsysconfignetwork-scriptsifcfg-eth02.修改主机名(注意ubuntu版本方式)vimetcsysconfignetwork将之前的名字更
hive AESENCRYPT秘钥hivehadoopHDFS
admin6月前
220
爬虫数据存入mysql失败爬虫数据存储在mysql还是mongodb
纠正一下拼写，应该是MongoDB。每种数据库都有其自己的优势和不足，适用的场合也不一样。既然我是站在MongoDB这边的，上面也有人提到了MySQL和HDFS，我就分析一下MongoDB比MySQL和HDFS在数据分析上的优势。题主不妨看
爬虫数据存入mysql失败pythonmysql数据分析mysqlHDFS数据库
admin6月前
170
spark 判断列是否为空集合或空值 spark null
一、算子返回为null问题在有些算子函数里，我们都需要有返回值。但是，有些可能不需要返回值，但是这时候不能直接返回null,返回null将会导致错误Scala.Math(NULL)异常解决方法如果不想有返回值，可以在返回的时候，返回一些特
spark 判断列是否为空集合或空值数据HDFS持久化
admin6月前
280
java HDFS 读取txt文件 hdfs读取数据流程
一、上传数据二、下载数据三、读写时的节点位置选择1.网络节点距离（机架感知）下图中：client 到 DN1 的距离为 4client 到 NN 的距离为 3DN1 到 DN2 的距离为 22.Block 的副本放置策略NameNode 通
java HDFS 读取txt文件hadoopHDFS客户端
admin6月前
300
hive注册账号 iD number 是什么 hive账号注册官网
Zookeeper+Hadoop+Hbase+Hive+Kylin+Nginx集群搭建一、虚拟机安装Centos71.准备工作2.centos7安装过程3.关闭防火墙(关键)二、安装jdk1.卸载镜像自带jdk2.安装自己的jdk3.配置
大数据hadooplinuxHDFScentos
admin6月前
310
Flume有国产化 flume ng
软件版本：CentOS 6.7hadoop-2.7.4apache-flume-1.6.0一、Flume NG简述Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume将采集到的
Flume有国产化flume集群负载均衡容错机制HDFS
admin6月前
250
mapreduce词频统计idea mapreduce 词频统计
文章目录初探MapReduce一、MapReduce核心思想二、MapReduce编程实例-词频统计思路1、map阶段(映射)2、reduce阶段(归并阶段)三、词频统计编程实现1、准备数据文件2、将文件上传到hdfs指定路径3、在jav
mapreduce词频统计ideahadoopmapreduceHDFS词频统计
admin6月前
250
aggregateByKey自定义聚合函数 hive自定义聚合函数
目录一、hive函数的使用1.hive函数分类2.字符函数3.类型转换函数4.数学函数5.日期函数6.集合函数7.条件函数8.聚合函数9.表生成函数：输出可以作为表使用二、UDF函数1.先创建maven项目2.继承UDF并重写evaluat
hivehadoopHDFSmapreduce大数据
admin7月前
320
ES使用HDFS做快照如何部署 es和hdfs
1. 问题 Elasticsearch 副本提供了高可靠性；它们让你可以容忍零星的节点丢失而不会中断服务。但是，副本并不提供对灾难性故障的保护。对这种情况，你需要的是对集群真正的备份——在某些东西确实出问题的时候有一个完整的拷贝。2.解决方
ES使用HDFS做快照如何部署hadoopHDFSjava
admin7月前
200
hbase和hdfs的关系
# HBase和HDFS的关系## 简介在大数据存储领域，HBase和HDFS是两个常用的工具。HDFS（Hadoop Distributed File System）是Hadoop生态系统中的分布式文件系统，用于存储大规模数据。而HBas
HDFS数据存储数据
admin7月前
290
flume如何实时采集数据库 flume采集数据到hive
flume是实时收集的一种大数据框架sqoop是一个数据转换的大数据框架，它可以将关系型数据库，比如mysql,里面的数据导入到hdfs和hive中，当然反过来也可以一、Flume的搭建　　1、将optsoftware目录下的flume安装
flume如何实时采集数据库大数据数据库shellHDFS
admin7月前
250
python2 hdfs client
使用Python2 HDFS客户端操作Hadoop文件系统Hadoop是一个用于分布式存储和处理大规模数据的框架，而HDFS是Hadoop的分布式文件系统。在Python2中，我们可以使用HDFS客户端来操作Hadoop文件系统，方便地进行
hadoopHDFS客户端
admin7月前
230
HDFS透明加密实验kms hdfs数据加密
1 HDFS Trash垃圾桶1.1 文件系统垃圾桶背景回收站概述：回收站（垃圾桶）是微软Windows操作系统里的一个系统文件夹，主要用来存放用户临时删除的文档资料，存放在回收站的文件可以恢复。回收站的功能给了我们一剂“后悔药”。回收站保
HDFS透明加密实验kmsHDFS系统安全安全hadoop
admin7月前
260
zookeeper grafana 模板 zookeeper工具
整理了工作中常用到的大数据工具的简单介绍。【zookeeper】—— 分布式应用程序协调服务ZooKeeper是一个分布式应用程序协调服务，是Hadoop和Hbase的重要组件。它为分布式应用提供一致性服务，提供的功能包括：配置维护、域名服
大数据hadoop数据HDFS
admin7月前
220
查看hdfs上hive表数据
查看HDFS上Hive表数据在使用Hive进行数据处理时，我们经常需要查看Hive表中的数据，以便进行数据分析和调试。Hive表数据存储在HDFS上，因此可以通过HDFS命令或Hive SQL语句来查看表数据。查看Hive表数据的几种方式1
hiveHDFS表数据
admin7月前
240
调度服务 jenkins 调度服务业
目录1. 项目结构1.1. 项目介绍1.2. 项目结构2. Oozie 介绍2.1. 需求2.2. 可选的方式2.2.1. Crontab2.2.2. Oozie2.3. Oozie 和竞品的对比3. Oozie 组件3.1. Workfl
调度服务 jenkinssparkHDFS执行流程
admin7月前
180
Region服务器向HDFS中读写数据 region服务器的构成
Master主服务器的功能主服务器Master主要负责表和Region的管理工作：– 管理用户对表的增加、删除、修改、查询等操作– 实现不同Region服务器之间的负载均衡– 在Region分裂或合并后，负责重新调整Region的分布– 对
Region服务器向HDFS中读写数据服务器HDFShadoop
admin7月前
180
hdfs 替代 hdfs应用
目录：HDFS简介HDFS架构说明HDFS读文件流程HDFS写文件流程HDFS 可靠性HDFS shellIDEA 开发工具使用Java 操作HDFS全分布式集群搭建一.简介HDFS（Hadoop Distributed File Syst
hdfs 替代HDFS数据文件系统
admin7月前
190
hdfs修复数据块 hdfs丢失块如何解决
文章目录1. HDFS 概述2. HDFS 优缺点2.1. 优点2.2. 缺点3. HDFS 组成架构3.1. NameNode3.2. DataNode3.3. Client3.4. Secondary NameNode4. HDFS
hdfs修复数据块HDFS大数据客户端
admin7月前
180