首页
通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性。
精华吧
→
答案
→
远程教育
→
国家开放大学
通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性。
A.正确
B.错误
正确答案:B
Tag:
爬虫
重要性
策略
时间:2023-11-20 10:21:35
上一篇:
HTTP响应中的Server用于重定向一个新的位置,包含新的URL地址。
下一篇:
HTTP响应中的Content-Type不能指定为其他值。
相关答案
1.
HTTP响应中的Set-Cookie用于把cookie发送到客户端浏览器。
2.
DeepWeb爬虫基于领域知识填写表单时,一般无领域知识或仅有有限的领域知识。
3.
数据清洗只包括发现并纠正数据文件中的错误。
4.
视频、语音等不是结构化数据。
5.
HTTP响应中Accept-Ranges的表示服务器支持哪些请求方法。
6.
数据采集的来源只有系统日志采集。
7.
HTTP响应中的ETag用于WEB服务器告诉浏览器自己响应的对象的类型和字符集。
8.
增量式爬虫需要对网页的重要性排序。
9.
DeepWeb爬虫体系结构还包括两个爬虫内部数据结构(URL列表、LVS表)。
10.
HTTP响应中的Content-Encoding用于WEB服务器表明自己使用了什么压缩方法。
热门答案
1.
通用网络爬虫对于爬行速度和存储空间要求较高。
2.
HTTP请求的PUT方法请求服务器删除Request-URI所标识的资源。
3.
网络爬虫被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。
4.
POST方式提交表单数据,会带来安全问题。
5.
网络爬虫实际上是一种”自动化浏览网络”的程序,或者说是一种网络机器人,被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。
6.
通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。
7.
HTTP的请求头域可能包含Accept、Accept-Charset、Accept-Encoding、Accept-Language等字段。
8.
HTTP请求的OPTIONS方法请求查询服务器的性能,或者查询与资源相关的选项和需求。
9.
表层网页(SurfaceWeb)中可访问信息容量是深层网页(DeepWeb)的几百倍。
10.
广度优先策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题。