今天看到一个网站很赞,想模仿一下,于是随便一搜,竟然有那么多网站抓取工具
下载试了试,效果还可以,原网站效果:
抓取效果:
应该说除了动态数据外别的都抓下来了,很是很棒的!
之后又搜了一下整站抓取的相关结果,发下用weget更爽:
抓取整站:
wget -r -p -np -k -E http://www.xxx.com
抓取第一级:
wget -l 1 -p -np -k http://www.xxx.com
-r 递归抓取
-k 抓取之后修正链接,适合本地浏览
wget -m -e robots=off -k -E "http://www.abc.net/"
可以将全站下载以本地的当前工作目录,生成可访问、完整的镜像。
解释:
-m //镜像,就是整站抓取
-e robots=off //忽略robots协议,强制、流氓抓取
-k //将绝对URL链接转换为本地相对URL
-E //将所有text/html文档以.html扩展名保存