一、前言
向广大初学者新增C 、Java 、Python 、Scala、javascript 等目前流行的计算机、大数据编程语言,希望大家以后关注本头条号更多的内容。
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(如mysql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL )中的数据导进入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
1、所需环境
【1】Linux操作系统
【2】hadoop分布式环境
【3】MySQL数据库和Sqoop数据迁移工具
2、案例场景
在MySQL数据库中有一个商品表t_goods表,其表结构和数据如下:
使用Sqoop将MySQL数据的t_goods表的数据导入到HDSF中。
二、实现过程
1、确认hadoop集群是否启动
2、确认MySQL是否安装,服务是否能启动
3、确保Sqoop已经能够安装并且能够运行
4、建立MySQL输入表,并录入数据
这里数据库名为db,表为t_goods,将要求的数据录入,如图所示:
将数据从MySQL导入HDFS
输入下列指令将数据从MySQL数据库导入到HDFS中:
sqoop import "-Drog.apache.sqoop.splitter.allow_text_splitter=true"
--connect jdbc:mysql://127.0.0.1:3306/db
--username admin --password 123456 --table t_goods --target-dir /mysql_data
在HDFS的mysql_db目录,查看导入后的数据: