首页
广度优先的爬行策略按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
精华吧
→
答案
→
远程教育
→
国家开放大学
广度优先的爬行策略按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
A.正确
B.错误
正确答案:B
Tag:
广度
顺序
深度
时间:2023-11-20 10:21:41
上一篇:
HTTP响应中的Content-Length以字节方式存储的十进制数字来表示。
下一篇:
通用网络爬虫通常采用并行工作方式。
相关答案
1.
聚焦网络爬虫用不同的方法计算出网页或数据的重要性都相等。
2.
用户注册后内容才可见的网页属于深层网页(DeepWeb)。
3.
采集来的数据可以直接使用。
4.
POST方法可以在Request-URI所标识的资源后附加新的数据。
5.
HTTP响应中的Content-Type不能指定为其他值。
6.
通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性。
7.
HTTP响应中的Server用于重定向一个新的位置,包含新的URL地址。
8.
HTTP响应中的Set-Cookie用于把cookie发送到客户端浏览器。
9.
DeepWeb爬虫基于领域知识填写表单时,一般无领域知识或仅有有限的领域知识。
10.
数据清洗只包括发现并纠正数据文件中的错误。
热门答案
1.
视频、语音等不是结构化数据。
2.
HTTP响应中Accept-Ranges的表示服务器支持哪些请求方法。
3.
数据采集的来源只有系统日志采集。
4.
HTTP响应中的ETag用于WEB服务器告诉浏览器自己响应的对象的类型和字符集。
5.
增量式爬虫需要对网页的重要性排序。
6.
DeepWeb爬虫体系结构还包括两个爬虫内部数据结构(URL列表、LVS表)。
7.
HTTP响应中的Content-Encoding用于WEB服务器表明自己使用了什么压缩方法。
8.
通用网络爬虫对于爬行速度和存储空间要求较高。
9.
HTTP请求的PUT方法请求服务器删除Request-URI所标识的资源。
10.
网络爬虫被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。