数据采集与管理【9】-CFANZ编程社区

1.以下不属于HTTP协议请求方法的是（）（2分）

A.GET
B.POST
C.TRACE
D.SUBMIT

2.按照（）爬取的网页内容根据目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行，当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。（2分）

A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略

3.数据转换不包括（）。（2分）

A.不一致数据转换
B.数据粒度的转换
C.商务规则的计算
D.不完整的数据

4.增量式爬虫中的（）指的是：爬虫以相同的频率访问所有网页，不考虑网页的改变频率。（2分）

A.统一更新法
B.基于分类的更新法
C.个体更新法
D.随机更新法

5.数据质量的（）表示数据是否正确的表示了现实或可证实的来源。（2分）

A.正确性
B.完整性
C.一致性
D.完备性

6.HTTP请求的TRACE方法请求查询服务器的性能，或者查询与资源相关的选项和需求。（1分）

A.正确
B.错误

7.以下关于深度优先的爬行策略的说法，不正确的有（）。（2分）

A.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止
B.爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接，直到所有链接遍历完
C.比较适合垂直搜索或站内搜索
D.处于较浅目录层次的页面都可以首先被爬行

8.HTTP的响应包括Content-Encoding、Content-Length、Content-Type等。（1分）

A.正确
B.错误

9.HTTP状态码500表示由于客户端原因造成的请求失败。（2分）

A.正确
B.错误

10.正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。（1分）

A.正确
B.错误

11.正则表达式中\w表示任意数字字符。（2分）

A.正确
B.错误

12.HTTP的请求头域可能包含Accept、Accept-Charset、Accept-Encoding、Accept-Language等字段。（1分）

A.正确
B.错误

13.Java、Python等语言也支持正则表达式。（1分）

A.正确
B.错误

14.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。（2分）

A.正确
B.错误

15.数据质量的正确性（Accuracy）指数据是否正确的表示了现实或可证实的来源。（2分）

A.正确
B.错误

16.数据（）的任务是过滤那些不符合要求的数据。（2分）

A.抽取
B.转换
C.加载
D.清洗

17.HTTP请求的OPTIONS方法请求查询服务器的性能，或者查询与资源相关的选项和需求。（1分）

A.正确
B.错误

18.HTTP请求中的Cookie表示客户端类型。（1分）

A.正确
B.错误

19.正则表达式中的饥饿模式匹配尽可能多的文本。（1分）

A.正确
B.错误

20.（）又称全网爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。（2分）

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

21.正则表达式中有一些预定义的字符分类，其中,（）表示任意单词字符。。（2分）

A.\s
B.\d
C.\w
D.$

22.HTTP请求由三部分组成，分别是：请求行、消息报头、请求正文。（1分）

A.正确
B.错误

23.以下哪个属于深层网页（）（2分）

A.超链接可以到达的静态网页
B.网站首页
C.用户注册后内容才可见的网页
D.网站导航页

24.数据的预处理ETL的T表示（）。（2分）

A.抽取
B.转换
C.加载
D.清洗

25.以下关于正则表达式中常用正则规则的说法，不正确的有（）（2分）

A.\d表示数字，相当于[0-9]
B.\w表示字母、数字、下划线
C.\D表示数字，相当于[0-9]
D.\D表示非数字

26.正则表达式[abc]表示字符串abc。（1分）

A.正确
B.错误

27.POST方式提交表单数据，会带来安全问题。（1分）

A.正确
B.错误

28.HTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。（2分）

A.Host
B.User-Agent
C.Cookie
D.Referer

29.DELETE请求服务器删除Request-URI所标识的资源。（2分）

A.正确
B.错误

30.HTTP请求中的Range头域内容包含发出请求的用户信息。（1分）

A.正确
B.错误

31.网络爬虫顺着网页及其超链接组成的网爬行，每到一个网页就用抓取程序将这个网页抓下来，将内容抽取出来，同时抽取超链接，作为进一步爬行的线索。（1分）

A.正确
B.错误

32.深度优先策略的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接。（1分）

A.正确
B.错误

33.通用网络爬虫对于爬行速度和存储空间要求较高。（2分）

A.正确
B.错误

34.（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。（2分）

A.深度优先策略
B.广度优先策略
C.PageRank优先策略
D.随机爬行策略

35.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成（），从中提取表单各字段值。（2分）

A.DOM树
B.BOM树
C.图像
D.文本

36.增量式网络爬虫数据下载量和时间及空间上的耗费都较大。（1分）

A.正确
B.错误

37.超文本传输协议是互联网上应用最为广泛的一种网络协议。（2分）

A.正确
B.错误

38.通用网络爬虫对于爬行速度和存储空间要求较高。（1分）

A.正确
B.错误

39.超文本传输协议通常由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接。（2分）

A.正确
B.错误

40.正则表达式[abc]表示字符a或b或c。（1分）

A.正确
B.错误

41.HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。（1分）

A.正确
B.错误

42.关于各种网络爬虫，以下说法不正确的是（）。（2分）

A.增量式爬虫在需要的时候爬行新产生或发生更新的页面，并重新下载所有页面
B.通用网络爬虫通常采用并行工作方式，但需要较长时间才能刷新一次页面。
C.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。
D.聚焦爬虫根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

43.正则表达式支持匹配边界。例如()匹配行尾。（2分）

A.^
B.\d
C.\w
D.$

44.（）实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。（2分）

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

45.深层网络爬虫的LVS表是一个URL列表。（2分）

A.正确
B.错误

46.正则表达式支持匹配边界，例如单词边界，文本的开头或末尾。（1分）

A.正确
B.错误

47.正则表达式中的饥饿模式匹配尽可能少的文本。（1分）

A.正确
B.错误

48.数据转换时，对于空值的处理，可通过加载或替换为其他含义数据，并根据字段空值实现分流加载到不同目标库。（1分）

A.正确
B.错误

49.在HTTP响应信息中状态信息码是一个重要的信息。（2分）

A.正确
B.错误

50.以下对于爬行策略的说法，不正确的是（）。（2分）

A.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
B.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题
C.通用网络爬虫常用的爬行策略有：深度优先策略、广度优先策略
D.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。

51.（）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。（2分）

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

52.HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。（2分）

A.Host
B.User-Agent
C.Cookie
D.Referer

53.在HTP响应信息中，若状态信息码是200则表示（）。（2分）

A.请求成功
B.登录失败
C.所请求的页面已经转移至新的url
D.访问被禁止

54.HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。（2分）

A.GET
B.POST
C.PUT
D.TRACE

55.正则表达式中\w表示任意数字字符。（1分）

A.正确
B.错误

56.深层网页中包含的信息远远少于表层网页，没什么爬取价值。（2分）

A.正确
B.错误

57.聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。（2分）

A.正确
B.错误

58.不同的企业有不同的业务规则、不同的数据指标，这些指标通过简单的加减、组合就能完成。（2分）

A.正确
B.错误

59.（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。（2分）

A.聚焦网络爬虫
B.增量式网络爬虫
C.通用网络爬虫
D.深层网络爬虫

60.HTTP请求中的（）方法用于请求服务器删除Request-URI所标识的资源。（2分）

A.GET
B.DELETE
C.PUT
D.TRACE

61.对于数据量大的系统，一般也常做一次性的数据抽取。（2分）

A.正确
B.错误

62.以下不能匹配正则表达式"^[\w]+$"的是（）。（2分）

A.S+1
B.12
C.S_1
D.S1

63.以下哪个HTTP响应状态表示服务器端错误（）（2分）

A.200
B.300
C.403
D.500

64.小的网站将没有爬虫访问。（2分）

A.正确
B.错误

65.关于表层网页及深层网页，以下说法不正确的是（）。（2分）

A.表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。
B.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。
C.深层网页中包含的信息远远少于表层网页。
D.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。

66.HTTP响应中Content-Type用于指明响应的对象所用的自然语言。（1分）

A.正确
B.错误

67.HTTP请求方法常用的有GET、HEAD、POST。（1分）

A.正确
B.错误

68.表层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的网页。（2分）

A.正确
B.错误

69.正则表达式的量词+表示0次或多次。（2分）

A.正确
B.错误

70.广度优先策略不能避免遇到一个无穷深层分支时无法结束爬行的问题。（2分）

A.正确
B.错误

71.网络爬虫技术不支持图片、音频、视频等文件或附件的采集。（1分）

A.正确
B.错误

72.HTTP请求由三部分组成，分别是：请求行、消息报头、请求正文。（2分）

A.正确
B.错误

73.网络爬虫不需要遵守任何限制。（2分）

A.正确
B.错误

74.目前主流的网页开发语言都不支持正则表达式。。（2分）

A.正确
B.错误

75.通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。（2分）

A.正确
B.错误

76.数据转换的主要进行不一致的数据转换、数据粒度的转换，以及一些商务规则的计算。（1分）

A.正确
B.错误

77.数据质量的时效性指数据是否在企业定义的可接受的范围之内。（2分）

A.正确
B.错误

78.GET提交表单时，以（）符号分割URL和传输数据。（2分）

A.?
B.||
C.*
D.&

79.正则表达式中，量词可以匹配一个表达式多次出现。（2分）

A.正确
B.错误

80.HTTP请求的PUT方法请求服务器删除Request-URI所标识的资源。（2分）

A.正确
B.错误

81.HTTP请求的Keep-Alive对服务器没有负面影响。（1分）

A.正确
B.错误

82.网络爬虫总是要从某个起点开始爬，这个起点叫做种子。（2分）

A.正确
B.错误

83.HTTP请求中（）头域的内容包含发出请求的用户信息。（2分）

A.Accept
B.Referer
C.User-Agent
D.Cookie

84.大数据是信息技术领域的又一创新浪潮，改变着人们的生活与工作方式与企业的运作模式。（1分）

A.正确
B.错误

85.HTTP请求的PUT方法请求服务器回送收到的请求信息，主要用于测试或诊断。（2分）

A.正确
B.错误

86.网络数据采集不能处理非结构化数据。（1分）

A.正确
B.错误

87.HTTP请求方法GET用于请求服务器回送收到的请求信息。（1分）

A.正确
B.错误

88.表层网页是以超链接可以到达的静态网页为主构成的Web页面。（2分）

A.正确
B.错误

89.网络爬虫被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。（2分）

A.正确
B.错误

90.HTTP请求的POST方法请求服务器存储一个资源，并用Request-URI作为其标识。（1分）

A.正确
B.错误

91.正则表达式支持匹配边界，例如单词边界，文本的开头或末尾。（2分）

A.正确
B.错误

92.网络爬虫抓取各种资源后，通过相应的索引技术组织这些信息，提供给用户进行查询。（2分）

A.正确
B.错误

93.网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。。（2分）

A.浏览器
B.服务器
C.播放器
D.网络爬虫

94.增量式网络爬虫数据下载量和时间及空间上的耗费都较大。（2分）

A.正确
B.错误

95.以下关于正则表达式中数量表示规则的说法，不正确的是（）（2分）

A.X+表示可以出现0次，1次或多次
B.X表示必须出现一次
C.X*表示可以出现0次，1次或多次
D.X+表示可以出现1次或多次

96.HTTP的请求头域可能包含Authorization、Referer、Content-Type、Content-Encoding等部分。（1分）

A.正确
B.错误

97.由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认是（）端口。（2分）

A.80
B.81
C.88
D.10

98.正则表达式的规则中，x|y表示匹配（）（2分）

A.x和y
B.x或y
C.xy
D.x+y

99.正则表达式[a-z]可以匹配()。（2分）

A.字母字符"a”或"z”
B.小写字母字符"a”或"z”
C."a”到"z”范围内的任意字母字符
D."a”到"z”范围内的任意小写字母字符

100.HTTP请求方法常用的有GET、HEAD、POST。（2分）

A.正确
B.错误