0
点赞
收藏
分享

微信扫一扫

利用Python读取网络数据文件


场景

  • 在实践机器学习算法过程中,有的数据源可以通过网络获取。于是,想利用Python代码直接加载到程序中,省去下载的操作。一方面是可能是由于懒,另一方面还可以秀一下“肌肉”,哈哈哈 …
  • 作为一名实在的假“程序猿”,手动下载资源如果被小弟们看到,太跌份儿不是!
  • 开发工具
  • Anaconda 2
  • Python 3

描述

  • 在贝叶斯分类器学习过程中,积累了问题。
  • 文章涵盖以下3方面内容:
  • 通过 Python 代码实现网络数据的加载、保存等操作
  • 代码中相关方法、模块的具体使用
  • 机器学习过程中常用的数据集推荐
  • 实验数据集
  • ​​pima-indians.data.csv​​

代码

# python 3

import csv
import pandas as pd
from io import StringIO
from urllib import request


url='https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data'
s = request.urlopen(url).read().decode('utf8') # 1 读取数据串

dfile = StringIO(s) # 2 将字符串转换为 StringIO对象,使其具有文件属性
creader = csv.reader(dfile) # 3 将流 转换为可迭代的 reader(csv row)
dlists=[rw for rw in creader] # 4 其他转换、操作

  • 数据效果
  • 利用Python读取网络数据文件_网络数据

开放数据集

  • 时间序列数据的网址
  • ​​http://www.stat.wisc.edu/~reinsel/bjr-data/​​
  • 评分数据集
  • ​​http://www.grouplens.org/​​
  • 基本数据描述:
  • 包括以下三个数据集:
  • a. 943个用户对1682个电影的10万条评分
  • b. 6040个用户对3900个电影的1百万条评分
  • c. 71567个用户对10681个电影的1千万条评分
  • Book-Crossing书籍评分数据
  • ​​http://www.informatik.uni-freiburg.de/~cziegler/BX/​​
  • 基数数据描述:
  • 包含了278,858个用户对271,379本书籍的1,149,780条评分。
  • 该数据集由Cai-Nicolas Ziegler在2004年8 - 9月用4周的时间从Book-Crossing社区用网络爬出。
  • Jester笑话数据集笑话评分集合
  • ​​http://www.ieor.berkeley.edu/~goldberg/jester-data/​​
  • 来自UC Berkeley的Ken Goldberg发布的一个推荐系统使用的数据集。
  • 包含关于100个笑话的73,496名用户评分的410万条连续评分。
  • GPS轨迹数据
  • ​​http://research.microsoft.com/en-us/downloads/b16d359d-d164-469e-9fd4-daa38f2b2e13/default.aspx​​
  • GPS轨迹与运输模式标签
  • ​​http://research.microsoft.com/apps/pubs/?id=141896​​
  • Movebank动物轨迹
  • ​​http://www.movebank.org/​​
  • 手机WIFI蓝牙
  • ​​http://crawdad.cs.dartmouth.edu/​​
  • 手机和wifi的轨迹
  • ​​http://crowdflow.net/​​
  • 【注】
  • 后续有机会,统一整理数据集url.

参考

  • ​​StringIO以及BytesIO​​
  • ​​Python StringIO.StringIO() 50 Examples.​​
  • ​​ModuleNotFoundError: No module named ‘cStringIO’​​
  • ​​从Python 3.0开始,StringIO和cStringIO模块已经取消​​
  • ​​CSV File Reading and Writing. Py2​​
  • ​​数据挖掘&机器学习及其他领域数据集汇总​​


举报

相关推荐

0 条评论