0
点赞
收藏
分享

微信扫一扫

Java使用Jsoup读取HTML内容的学习

一、前言

我们日常开发中可能会遇到读取网页内容并提取数据的需求,或者爬取某个网页获取特定数据的情况,在这些情况下我们使用Java中的HTML解析库如Jsoup等可以很方便的处理和操作HTML文档,从而实现自己的需求。

二、Jsoup介绍

 Jsoup 能够解析 HTML 文档,构建一个 Document 对象,便于进一步操作。

 提供类似于 CSS 选择器的语法,方便选择 HTML 文档中的特定元素。

允许你在 HTML 文档中添加、修改或删除元素。

能够获取 HTML 元素的属性值。

可以将 Document 对象输出为 HTML 字符串。

三、基本使用

1.添加依赖

  <!--jsoup-->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

2.获取指定标签内容

package com.example.aopdemo.test;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * @author qx
 * @date 2024/2/26
 * @des
 */
public class JsoupDemo {
    public static void main(String[] args) throws IOException {
        //从URL加载HTML文档
        Document document = Jsoup.connect("https://news.baidu.com/").get();
        // 通过CSS选择器选择所有h1元素
        Elements elements = document.select("label");

        for (Element element : elements) {
            System.out.println("label=>" + element.text());
        }

    }
}

执行结果:

label=>新闻全文
label=>新闻标题


举报

相关推荐

0 条评论