Java使用Jsoup读取HTML内容的学习-CFANZ编程社区

Java使用Jsoup读取HTML内容的学习

一、前言

我们日常开发中可能会遇到读取网页内容并提取数据的需求，或者爬取某个网页获取特定数据的情况，在这些情况下我们使用Java中的HTML解析库如Jsoup等可以很方便的处理和操作HTML文档，从而实现自己的需求。

二、Jsoup介绍

Jsoup 能够解析 HTML 文档，构建一个 Document 对象，便于进一步操作。

提供类似于 CSS 选择器的语法，方便选择 HTML 文档中的特定元素。

允许你在 HTML 文档中添加、修改或删除元素。

能够获取 HTML 元素的属性值。

可以将 Document 对象输出为 HTML 字符串。

三、基本使用

1.添加依赖

  <!--jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

2.获取指定标签内容

package com.example.aopdemo.test;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * @author qx
 * @date 2024/2/26
 * @des
 */
public class JsoupDemo {
    public static void main(String[] args) throws IOException {
        //从URL加载HTML文档
        Document document = Jsoup.connect("https://news.baidu.com/").get();
        // 通过CSS选择器选择所有h1元素
        Elements elements = document.select("label");

        for (Element element : elements) {
            System.out.println("label=>" + element.text());
        }

    }
}

执行结果:

label=>新闻全文
label=>新闻标题

0 条评论