0
点赞
收藏
分享

微信扫一扫

2022年最新 100G+ 亿级+ 免费互联网数据集 整理分享


2022年最新 100G+ 亿级+ 免费互联网数据集 整理分享_资源整理

    数据由搜索引擎从网上爬取并持续进行中,数据量正在持续增长中,截至2022年5月大约有48.9G的数据,包含这些内容:

    · 域名数据(2.7G)包含6257636个域名,来自1938617个一级域名。

    ·  网页数据(6.4G)包含53294027个网页。其中有标题的网页有48577906个,有介绍的网页有35971682个。

    ·  反向索引数据(39.7G)包含17669628个词,每个词对应1~28000个网页。

    

     资源整理自网络,源地址:https://github.com/RimoChan/internet-dataset

下载地址

    你可以选一个自己喜欢的地方下载:

    GitHub      Release:https://github.com/RimoChan/internet-dataset/releases

    OneDrive:https://v0vxj-my.sharepoint.com/:f:/g/personal/rimochan_v0vxj_onmicrosoft_com/EqRakuQVVjBDqMyU8xd7NnEB3MZrDZxDwPTVXK7tNv5Rqw?e=cXQMod

内容截图

2022年最新 100G+ 亿级+ 免费互联网数据集 整理分享_python_02


举报

相关推荐

0 条评论