0
点赞
收藏
分享

微信扫一扫

Python爬虫之数据提取概述

司马吹风 2022-10-14 阅读 63


数据提取概述

知识点
  • 了解 响应内容的分类
  • 了解 xml和html的区别

1. 响应内容的分类

在发送请求获取响应之后,可能存在多种不同类型的响应内容;而且很多时候,我们只需要响应内容中的一部分数据

  • 结构化的响应内容
  • json字符串
  • 可以使用re、json等模块来提取特定数据
  • json字符串的例子如下图
  • xml字符串
  • 可以使用re、lxml等模块来提取特定数据
  • xml字符串的例子如下

<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>

  • 非结构化的响应内容
  • html字符串
  • 可以使用re、lxml等模块来提取特定数据
  • html字符串的例子如下图
知识点:了解 响应内容的分类

2. 认识xml以及和html的区别

要搞清楚html和xml的区别,首先需要我们来认识xml

2.1 认识xml

xml是一种可扩展标记语言,样子和html很像,功能更专注于对传输和存储数据

<bookstore>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>

上面的xml内容可以表示为下面的树结构:

Python爬虫之数据提取概述_数据

2.2 xml和html的区别

二者区别如下图

Python爬虫之数据提取概述_python_02

  • html:
  • 超文本标记语言
  • 为了更好的显示数据,侧重点是为了显示
  • xml:
  • 可扩展标记语言
  • 为了传输和存储数据,侧重点是在于数据内容本身
知识点:了解 xml和html的区别

2.3 常用数据解析方法

据,侧重点是为了显示

  • xml:
  • 可扩展标记语言
  • 为了传输和存储数据,侧重点是在于数据内容本身
知识点:了解 xml和html的区别

2.3 常用数据解析方法

Python爬虫之数据提取概述_xml_03


举报

相关推荐

0 条评论