一、前言
我们日常开发中可能会遇到读取网页内容并提取数据的需求,或者爬取某个网页获取特定数据的情况,在这些情况下我们使用Java中的HTML解析库如Jsoup等可以很方便的处理和操作HTML文档,从而实现自己的需求。
二、Jsoup介绍
Jsoup 能够解析 HTML 文档,构建一个 Document 对象,便于进一步操作。
提供类似于 CSS 选择器的语法,方便选择 HTML 文档中的特定元素。
允许你在 HTML 文档中添加、修改或删除元素。
能够获取 HTML 元素的属性值。
可以将 Document 对象输出为 HTML 字符串。
三、基本使用
1.添加依赖
<!--jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
2.获取指定标签内容
package com.example.aopdemo.test;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* @author qx
* @date 2024/2/26
* @des
*/
public class JsoupDemo {
public static void main(String[] args) throws IOException {
//从URL加载HTML文档
Document document = Jsoup.connect("https://news.baidu.com/").get();
// 通过CSS选择器选择所有h1元素
Elements elements = document.select("label");
for (Element element : elements) {
System.out.println("label=>" + element.text());
}
}
}
执行结果:
label=>新闻全文
label=>新闻标题