首页
深度优先的爬行策略按照深度逐层爬行页面,所有链接遍历完后,爬行任务结束。
精华吧
→
答案
→
远程教育
→
国家开放大学
深度优先的爬行策略按照深度逐层爬行页面,所有链接遍历完后,爬行任务结束。
A.正确
B.错误
正确答案:A
Tag:
深度
遍历
策略
时间:2023-11-20 10:15:53
上一篇:
HTTP响应中的Expires指明应该在什么时候认为文档已经过期。
下一篇:
抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。
相关答案
1.
HTTP响应中的()表示浏览器应该在多少秒之后刷新文档。
2.
以下哪个HTTP响应状态表示服务器端错误()
3.
聚焦爬虫爬行策略实现的关键是评价()的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。
4.
()是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。
5.
以下不属于HTTP协议的主要特点的是()。
6.
对发出的HTTP请求应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为()。
7.
以下对于爬行策略的说法,不正确的是()。
8.
追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些”杂乱”的”脏”数据,就涉及到()技术。
9.
增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。
10.
以下哪个属于深层网页()
热门答案
1.
通用网络爬虫需要对网页或数据的分析与过滤。
2.
HTTP请求中的User-Agent表示发起请求的客户端类型。
3.
深度优先的爬行策略可以避免遇到一个无穷深层分支时无法结束爬行的问题。
4.
广度优先的爬行策略按照深度逐层爬行页面,所有链接遍历完后,爬行任务结束。
5.
深度优先爬行策略的不足之处在于需较长时间才能爬行到目录层次较深的页面。
6.
GET方法请求服务器删除Request-URI所标识的资源。
7.
GET方法提交表单数据,会带来安全问题。
8.
HTTP响应中的ETag用于把cookie发送到客户端浏览器。
9.
判断题:GET方法可以在Request-URI所标识的资源后附加新的数据。
10.
一次HTTP由一次请求(Request)和一次响应(Response)组成。