0
点赞
收藏
分享

微信扫一扫

【python爬虫专项(1)】读懂网页结构


1. 什么是HTML语言?

1.1 概念

HTML 是用来描述网页的一种语言

HTML 指的是超文本标记语言(Hyper Text Markup Language)

HTML 不是一种编程语言,而是一种标记语言(markup language)

标记语言是一套标记标签 (markup tag)

1.2 URL是什么?

URL(Uniform Resource Locator) 地址用于描述一个网络上的资源

格式:schema://host[:port#]/path/…/[?query-string][#anchor]

            ● Scheme → 指定低层使用的协议(例如:http, https, ftp)

            ● Host → HTTP服务器的IP地址或者域名

            ● port# → HTTP服务器的默认端口是80,这种情况下端口号可以省略。如果使用了别的端口,必须指明,例如

            ● Path → 访问资源的路径

            ● query-string → 发送给http服务器的数据

            ● anchor- → 锚

示例

【python爬虫专项(1)】读懂网页结构_爬虫基础

2. 标签、元素、属性分别是什么?

2.1 标签

HTML 标记标签通常被称为 HTML 标签 (HTML tag)

HTML 标签是由尖括号包围的关键词,比如 < html >

HTML 标签通常是成对出现的,比如 < p >和< /p >

标签对中的第一个标签是开始标签,第二个标签是结束标签

开始和结束标签也被称为开放标签和闭合标签

2.2 元素

HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码

元素的内容是开始标签与结束标签之间的内容

            某些 HTML 元素具有空内容(empty content)

示例:

【python爬虫专项(1)】读懂网页结构_python_02

2.3 属性

HTML 标签可以拥有属性。属性提供了有关 HTML 元素的更多的信息

属性总是以名称/值对的形式出现,比如:name=“value”。

属性总是在 HTML 元素的开始标签中规定

【python爬虫专项(1)】读懂网页结构_爬虫基础_03

3. 网页的头部信息和主体信息

3.1 头部信息

< head > 元素是所有头部元素的容器

< head >内的元素可包含脚本,指示浏览器在何处可以找到样式表,提供元信息

头部信息的内容不会显示在网页上

头部信息一般会出现的标签

【python爬虫专项(1)】读懂网页结构_爬虫基础_04

3.2 主体信息

body 元素定义文档的主体,包含文档的所有内容

主体信息会显示在网页上

            我们要核心理解的就是body内的标签

4. 基本标签

4.1 标题:<title>、<h1>、<h2>、<h3>、<h4>、<h5>、<h6>

标题(Heading)是通过 <h1> - <h6> 等标签进行定义的。

<h1> 定义最大的标题,<h6> 定义最小的标题的主体

示例

【python爬虫专项(1)】读懂网页结构_css_05

4.2 段落:<p>

段落是通过<p>标签定义的

示例

【python爬虫专项(1)】读懂网页结构_js_06

4.3 样式: <style>

提供了一种改变所有 HTML 元素的样式的通用方法。

通过 HTML 样式,能够通过使用 style 属性直接将样式添加到 HTML 元素,或者间接地在独立的样式表中(CSS 文件)进行定义

示例

【python爬虫专项(1)】读懂网页结构_python_07

4.4 链接: <a>

超链接可以是一个字,一个词,或者一组词,也可以是一幅图像,您可以点击这些内容来跳转到新的文档或者当前文档中的某个部分

鼠标指针移动到网页中的某个链接上时,箭头会变为一只小手

通过使用 href 属性 - 创建指向另一个文档的链接

通过使用 name 属性 - 创建文档内的书签

● 示例

【python爬虫专项(1)】读懂网页结构_html_08

4.5 图像: <img>

在 HTML 中,图像由 <img>标签定义

图像的属性中也可以加图片链接,通过src属性

示例

【python爬虫专项(1)】读懂网页结构_html_09

4.6 列表:无序列表<ul>,有序列表<ol>,列表项<li>

示例

【python爬虫专项(1)】读懂网页结构_js_10

4.7 块:<div> ,<span>

<div> → 块级元素,它是可用于组合其他 HTML 元素的容器

<span> → 内联元素,可用作文本的容器

示例

【python爬虫专项(1)】读懂网页结构_css_11

4.8 脚本: <script>

用于定义客户端脚本,比如 JavaScript

示例

【python爬虫专项(1)】读懂网页结构_js_12

4.9 注释:<!-- 在此处写注释 -->

在开始标签中有一个惊叹号,但是结束标签中没有

示例

【python爬虫专项(1)】读懂网页结构_css_13


至此网页结构内容介绍完毕,下一节介绍的是 网页结构剖析


举报

相关推荐

0 条评论