从 HTML 文件中提取文本内容是数据抓取中的一个常见任务,你可以将提取的文本信息用于编制报告、进行数据分析或其他处理。本文分享如何使用免费 Java API 从HTML 文件中提取文本内容。
安装免费Java库:
要通过Java提取HTML文本,需要用到Free Spire.Doc for Java免费库。以下提供两种安装方式:
1. 通过Maven仓库安装:
<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.doc.free</artifactId>
    <version>5.2.0</version>
</dependency> 
2. 下载Free Spire.Doc for Java库,解压后手动将Spire.Doc.jar添加到程序中。
使用Java从HTML文件中提取文本内容
基本步骤:
- 导入需要的类库;
 - 通过 loadFromFile() 方法加载HTML文件;
 - 通过 getText() 方法获取HTML文件中的文本内容。
 - 创建一个 FileWriter 对象,将提取的文本内容写入一个txt文件中
 
示例代码:
import com.spire.doc.Document;
import com.spire.doc.FileFormat;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromHTML {
    public static void main(String[] args) throws IOException {
        //创建Document对象
        Document doc = new Document();
        //加载一个HTML文件
        doc.loadFromFile("input.html", FileFormat.Html);
        //获取HTML文件中的文本
        String text = doc.getText();
        //将文本写入TXT文件
        FileWriter fileWriter = new FileWriter("提取HTML文本.txt");
        fileWriter.write(text);
        fileWriter.close();
    }
}
 
运行结果 :
 
参考文章:
Java: Extract Text from HTMLUse Spire.Doc for Java to extract text from an HTML file or a URL easily, without the need for any third-party libraries.
https://www.e-iceblue.com/Tutorials/Java/Spire.Doc-for-Java/Program-Guide/Conversion/Java-Extract-Text-from-HTML.html在实际应用中,有问题可前往论坛讨论。










