0
点赞
收藏
分享

微信扫一扫

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)

代码小姐 2022-02-16 阅读 55



教程目录


  • ​​0x00 教程内容​​
  • ​​0x01 新建Java项目​​

  • ​​1. 新建Java项目​​
  • ​​2. 项目配置​​

  • ​​0x02 编写HDFS代码​​

  • ​​1. 编写写HDFS代码​​
  • ​​2. 编写读HDFS代码​​

  • ​​0x03 打包到服务器执行​​

  • ​​1. 设置打包工程​​
  • ​​2. 打包操作​​
  • ​​3. 上传服务器并执行​​

  • ​​0x04 执行结果展示​​
  • ​​0xFF 总结​​


0x00 教程内容


  1. 新建Java项目
  2. 编写HDFS读写代码
  3. 打包到服务器执行

实验前提:

a. 安装好了JDK

0x01 新建Java项目

1. 新建Java项目

a. 新建一个Java项目,配置好​​Project SDK​​,然后​​Next​​,​​Next​​,起个有意义的项目名​​hadoop-project​​:

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs_02

b. 如果有提示,可以随便选一个

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hadoop_03

2. 项目配置

a. 右击src,建一个包,比如:​​com.shaonaiyi​

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs_04

b. 然后编辑项目结构,确保我们的​​SDKS​​已经配置上了我们的JDK(找到我们win本地的JDK主目录即可):

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hadoop_05

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hadoop_06

导入之后点击​​OK​

c. 导入我们的HDFS依赖的jar包,一个是公共包,一个是HDFS的依赖包(然后​​OK​​):

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs_07

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs_08

0x02 编写HDFS代码

1. 编写写HDFS代码

a. 新建一个​​WriteFile​​类

b. 编写WriteFile类代码:

package com.shaonaiyi;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.net.URI;

public class WriteFile {

public static void main(String[] args) throws IOException {
String content = "Hello,shaonaiyi!\n";
String dest = "hdfs://master:9999/test.txt";

Configuration configuration = new Configuration();
FileSystem fileSystem = FileSystem.get(URI.create(dest), configuration);
FSDataOutputStream out = fileSystem.create(new Path(dest));
out.write(content.getBytes("UTF-8"));
out.close();
}
}
2. 编写读HDFS代码

a. 新建一个​​ReadFile​​类

b. 编写ReadFile类代码:

package com.shaonaiyi;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.*;
import java.net.URI;

public class ReadFile {

public static void main(String[] args) throws IOException {
String dest = "hdfs://master:9999/test.txt";
Configuration configuration = new Configuration();
FileSystem fileSystem = FileSystem.get(URI.create(dest), configuration);
FSDataInputStream in = fileSystem.open(new Path(dest));
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(in));
String line = null;
while ((line = bufferedReader.readLine()) != null) {
System.out.println(line);
}
in.close();
}
}

0x03 打包到服务器执行

1. 设置打包工程

a. 选择一种类型的包

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_大数据_09

b. 因为我们有几个main方法,所以我们可以不选择main方法,直接点击​​OK​​:

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_apache_10

c. 排除我们服务器上有的包,即服务器已经有的jar包就不用也把他们打包上去了。

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_apache_11

然后一直​​ok​​,执行完,稍等一会可以看到src同级目录下多了个out文件夹。

2. 打包操作

a. 打包

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs_12

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_apache_13

b. 执行完可以看到out目录有jar包了

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_大数据_14

3. 上传服务器并执行

a. 使用XFtp等工具上传jar包和项目下的即可(此处直接上传到​​~​​路径)

​hadoop-project.jar​

到​​~​​路径下

b. 启动hdfs

​$HADOOP_HOME/sbin/start-dfs.sh​

0x04 执行结果展示

c. 执行(在jar包当前路径下):

先执行写HDFS的代码(如HDFS上已有/test.txt文件会报错,请先删除或者换名字):

​hadoop jar hadoop-project.jar com.shaonaiyi.WriteFile​

查看是否写内容进去:

​hadoop fs -cat /test.txt​

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hdfs_15

执行读HDFS的代码:

​hadoop jar hadoop-project.jar com.shaonaiyi.ReadFile​

可以看到展示的效果:

IntelliJ IDEA实现Hadoop读写HDFS文件(非Maven、离线版)_hadoop_16

0xFF 总结


  1. 本教程不用联网也可以执行HDFS的读写操作,此外,一样也可以执行Spark、机器学习等案例。
  2. 本教程非常关键,因为网络不好或者是简单的项目,这种传统的方式也是非常简单方便的。
  3. 关于HDFS的其他相关操作(Maven版本),请查看教程:​​Java API实现HDFS的相关操作​​

大学大数据讲师、大学市场洞察者、专栏编辑

公众号、微博、:​​邵奈一​​

本系列课均为本人:​​邵奈一​​原创,如转载请标明出处

福利:

​​邵奈一的技术博客导航​​



举报

相关推荐

0 条评论