0
点赞
收藏
分享

微信扫一扫

Java 删除html文本中的注释内容

素锦时年_1b00 2022-02-16 阅读 39

前言

采集资讯信息之后需要把采集到的HTML格式的文本转成TXT文本之后,发现去除掉HTML里面的HTML标签之后,发现有问题就是,HTML里面的注释没有去除掉,导致在TXT里面展示了。需要额外把HTML里面的注释给去除掉。最好还是后台的java进行处理一下!

 具体的问题是资讯内容里面含有注释内容:

<!-- <div class=\"title\">\n" +
        "<h1>V观财报|广州酒家:高管本人或关联人卢加增持3332股</h1>\n" +
        "<div class=\"time\">2022-02-16 07:25:39    中新经纬 </div>\n" +
        "</div>\n" +
        "-->\n" +
        "<div class=\"content_zw
举报

相关推荐

0 条评论