填空题
待下载网页集合就是()URL 列队中的网页,这些网页即将被爬虫下载。
待抓取
填空题 robots.txt文件必须放置在一个站点的()目录下,且文件名必须小写。
填空题 网络爬虫时一种按照一定的规则,()请求万维网站并提取网络数据的程序或脚本。
填空题 当网络爬虫访问网站时,会优先检查该站点的根目录下是否存在()文件。