数据由搜索引擎从网上爬取并持续进行中,数据量正在持续增长中,截至2022年5月大约有48.9G的数据,包含这些内容:
· 域名数据(2.7G)包含6257636个域名,来自1938617个一级域名。
· 网页数据(6.4G)包含53294027个网页。其中有标题的网页有48577906个,有介绍的网页有35971682个。
· 反向索引数据(39.7G)包含17669628个词,每个词对应1~28000个网页。
资源整理自网络,源地址:https://github.com/RimoChan/internet-dataset
下载地址
你可以选一个自己喜欢的地方下载:
GitHub Release:https://github.com/RimoChan/internet-dataset/releases
OneDrive:https://v0vxj-my.sharepoint.com/:f:/g/personal/rimochan_v0vxj_onmicrosoft_com/EqRakuQVVjBDqMyU8xd7NnEB3MZrDZxDwPTVXK7tNv5Rqw?e=cXQMod
内容截图