前言
采集资讯信息之后需要把采集到的HTML格式的文本转成TXT文本之后,发现去除掉HTML里面的HTML标签之后,发现有问题就是,HTML里面的注释没有去除掉,导致在TXT里面展示了。需要额外把HTML里面的注释给去除掉。最好还是后台的java进行处理一下!
具体的问题是资讯内容里面含有注释内容:
<!-- <div class=\"title\">\n" + "<h1>V观财报|广州酒家:高管本人或关联人卢加增持3332股</h1>\n" + "<div class=\"time\">2022-02-16 07:25:39 中新经纬 </div>\n" + "</div>\n" + "-->\n" + "<div class=\"content_zw