《网路爬虫与信息提取》复习资料

2021-04-21 发布 |
37.5 KB |
199页

申明敬告： 本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

《网路爬虫与信息提取》复习资料

‎ 《网络爬虫与信息提取》课程期末复习资料 ‎《网络爬虫与信息提取》课程讲稿章节目录：‎ 第1章网络爬虫概念 ‎（1）掌握网络爬虫定义；‎ ‎（2）了解网络爬虫的用途；‎ ‎（3）了解网络爬虫与信息提取的开发技术；‎ 第2章 Python基础 ‎（1）掌握Python开发环境的搭建；‎ ‎（2）掌握Python的基本知识、数据类型；‎ ‎（3）掌握Python的条件语句和循环语句；‎ ‎（4）掌握Python函数的定义和使用；‎ ‎（5）掌握基于Python的面向对象编程代码；‎ 第3章正则表达式与文件操作 ‎（1）掌握正则表达式的基本符号；‎ ‎（2）掌握正则表达式的使用；‎ ‎（3）掌握正则表达式的提取技巧；‎ ‎（4）掌握文件操作；‎ 第4章简单的网页爬虫方法 ‎（1）掌握requests的安装和使用； ‎ ‎（2）掌握多线程爬虫的开发；‎ ‎（3）掌握爬虫的常见算法。‎ 第5章信息提取高级方法 ‎（1）掌握HTML基础结构；‎ ‎（2）掌握XPath提取方法；‎ ‎（3）掌握Beautiful Soup4提取方法；‎ 第6章Python与数据库 ‎（1）掌握MongoDB的使用；‎ ‎（2）掌握Redis的使用；‎ ‎（3）掌握数据库优化；‎ 第7章异步加载与请求头 ‎（1）掌握异步加载；‎ ‎（2）掌握请求头；‎ ‎（3）掌握模拟浏览器；‎ 第8章模拟登录与验证码 ‎（1）掌握模拟登录；‎ ‎（2）掌握填充验证码；‎ 第9章抓包与中间人爬虫 ‎（1）掌握使用Charles抓取数据包；‎ ‎（2）掌握App爬虫和小程序爬虫；‎ ‎（3）掌握使用mitmproxy开发中间人爬虫；‎ 第10章 Android原生App爬虫 ‎（1）掌握Android测试环境的搭建；‎ ‎（2）掌握使用Python操纵手机；‎ ‎（3）掌握单设备应用；‎ ‎（4）掌握多设备应用（群控）。‎ 第11章 Scrapy框架 ‎（1）掌握搭建Scrapy环境；‎ ‎（2）掌握Scrapy的使用；‎ ‎（3）掌握Scrapy与MongoDB；‎ ‎（4）掌握Scrapy与Redis；‎ ‎（5）掌握公务员免职。‎ 第12章 Scrapy高级应用 ‎（1）掌握搭建Scrapy环境；‎ ‎（2）掌握Scrapy的使用；‎ ‎（3）掌握Scrapy与MongoDB；‎ ‎（4）掌握Scrapy与Redis；‎ ‎（5）掌握公务员免职。‎ 第13章爬虫开发中的法律和道德问题 ‎（1）了解数据采集的法律问题和规避措施；‎ ‎（2）了解数据采集的道德协议；‎ 一、客观部分：（单项选择、多项选择、不定项选择、判断）‎ ‎（一）、判断部分 ‎1、通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。‎ 答案: 正确 ‎★难度：易参见章节：第1章考核知识点：网络爬虫概念试题解析：‎ ‎2、通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配答案: 错误 ‎★难度：中参见章节：第1章考核知识点：网络爬虫概念试题解析：通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。‎ ‎3、通用网络爬虫通常采用串行工作方式答案: 错误 ‎★难度：中参见章节：第1章考核知识点：网络爬虫概念试题解析：并行方式 ‎4、Python中直接对浮点数进行计算有print(0.1+0.2)，则结果为0.3‎ 答案: 错误 ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：>>> print(0.1 + 0.2)‎ ‎0.30000000000000004‎ ‎5、Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据；‎ 答案: 正确 ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎6、Python中元组生成以后还可以往里面继续添加数据，也可以从里面删除数据；‎ 答案: 错误 ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：元组一旦生成就不能修改。‎ ‎7、如果元组里面只有整数、浮点数、字符串、一个列表，就既不能添加数据，也不能删除数据，还不能修改里面数据的值。‎ 答案: 错误 ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：但是如果元组里面包含了一个列表，那么这个元组里面的列表依旧可以变化。‎ ‎8、Python中字符串切片以后的结果还是字符串答案: 正确 ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎9、Python中条件语句在使用and连接的多个表达式中，只要有一个表达式不为真，那么后面的表达式就不会执行。‎ 答案: 正确 ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎10、Python中条件语句在使用or连接的多个表达式中，只要有一个表达式为真，那么后面的表达式就不会执行。‎ 答案: 正确 ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎11、Python中函数返回值的个数可以是多个答案: 正确 ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎12、Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。‎ 答案: 正确 ‎★难度：易参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎13、Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f 答案: 错误 ‎★难度：易参见章节：第3章考核知识点：正则表达式与文件操作试题解析：不需要 ‎14、Python中写CSV文件的writerows方法参数为字典类型答案: 错误 ‎★难度：难参见章节：第3章考核知识点：正则表达式与文件操作试题解析：包含字典的列表 ‎15、Python中写CSV文件的writerow方法参数为包含字典的列表类型答案: 错误 ‎★难度：难参见章节：第3章考核知识点：正则表达式与文件操作试题解析：字典 ‎16、Python正则表达式中“.*”是贪婪模式，获取最长的满足条件的字符串。‎ 答案: 正确 ‎★难度：中参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎17、Python正则表达式中“.*?”是非贪婪模式，获取最短的能满足条件的字符串。‎ 答案: 正确 ‎★难度：中参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎18、一般来说在页面都通过GET将用户登录信息传递到服务器端。‎ 答案: 错误 ‎★难度：易参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：POST ‎19、requests中get请求方法的使用为requests.get('网址', data=data)‎ 答案: 错误 ‎★难度：易参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：requests.post('网址', data=data).get无参数 ‎20、requests中post请求方法的使用为requests.post('网址', data=data)‎ 答案: 正确 ‎★难度：易参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎21、multiprocessing本身是Python的多线程库答案: 错误 ‎★难度：难参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：多进程库 ‎22、在使用多线程处理问题时，线程池设置越大越好答案: 错误 ‎★难度：中参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：如果线程池设置得过大，线程切换导致的开销可能会抵消多线程带来的性能提升 ‎23、在对XPath返回的对象再次执行XPath的时候，子XPath开头需要添加斜线答案: 错误 ‎★难度：中参见章节：第5章考核知识点：信息提取高级方法试题解析：在对XPath返回的对象再次执行XPath的时候，子XPath开头不需要添加斜线 ‎24、RoboMongo是MongoDB的管理软件答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎25、Robo 3T与RoboMongo是完全不一样的软件答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：Robo 3T与RoboMongo除了名字不一样以外，其他地方都是一样的。‎ ‎26、MongoDB 是一个基于分布式文件存储的数据库答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎27、MongoDB是一个关系数据库产品答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。‎ ‎28、运行MongoDB以后，不会在终端打印任何Log 答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：需要看配置文件 ‎29、数据在MongoDB中是按照“库（Database）”—“集合（Collections）”—“文档（Document）”的层级关系来存储的。‎ 答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎30、PyMongo模块是Python对MongoDB操作的接口包，能够实现对MongoDB的增删改查及排序等操作。‎ 答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎31、MongoDB URI的格式为：‎ mongodb://服务器IP或域名:端口@用户名:密码答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：MongoDB URI的格式为：‎ mongodb://用户名:密码@服务器IP或域名:端口 ‎32、默认情况下，MongoDB可以通过外网访问答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：默认情况下，MongoDB只允许本机访问数据库 ‎33、插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1‎ 答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：通过一定的算法计算出来的 ‎34、MongoDB中ObjectId可以反向恢复为时间答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎35、MongoDB支持对查询到的结果进行排序。排序的方法为sort()。它的格式为：‎ handler.find().sort('列名', 1或-1或0)‎ 答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：MongoDB支持对查询到的结果进行排序。排序的方法为sort()。它的格式为：‎ handler.find().sort('列名', 1或-1)‎ ‎36、PyMongoDB中排序方法sort第二个参数1表示降序答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：1表示升序 ‎37、PyMongoDB中排序方法sort第二个参数-1表示升序答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：-1表示降序 ‎38、MongoDB是一个基于内存的数据库，速度远快过Redis 答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎39、在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server 答案: 错误 ‎★难度：难参见章节：第6章考核知识点：Python与数据库试题解析：Ubuntu下的运行方法 ‎40、在Windows中下若要运行Redis可以运行redis-server /usr/local/etc/redis.conf 答案: 错误 ‎★难度：难参见章节：第6章考核知识点：Python与数据库试题解析：MacOs下运行方法 ‎41、在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis 答案: 错误 ‎★难度：难参见章节：第6章考核知识点：Python与数据库试题解析：Windows下运行方法 ‎42、Redis的列表是一个单向队列答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：Redis的列表是一个可读可写的双向队列 ‎43、Redis插入数据都是插入到列表右侧，因此读取数据也是从右侧读取答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：Redis的列表是一个可读可写的双向队列，可以把数据从左侧或者右侧插入到列表中，也可以从左侧或者右侧读出数据 ‎44、Redis中写数据命令lpush中l代表list 答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：代表left ‎45、Redis中查询列表长度命令llen中l代表left，即从左侧开始数答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：代表list ‎46、Redis中列表读取数据命令lrange中l代表left，即从左侧开始读取答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：代表list ‎47、Redis的集合与Python的集合一样，没有顺序，值不重复答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎48、Redis中使用lrange读取数据后数据也会删除答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：不删除 ‎49、虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。‎ 答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎50、为了保证数据插入效率，在内存允许的情况下，应该一次性把数据读入内存，尽量减少对MongoDB的读取操作。‎ 答案: 正确 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：‎ ‎51、MongoDB在频繁读写方面优于Redis 答案: 错误 ‎★难度：易参见章节：第6章考核知识点：Python与数据库试题解析：Redis优 ‎52、所有的异步加载都会向后台发送请求答案: 错误 ‎★难度：中参见章节：第7章考核知识点：异步加载与请求头试题解析：不一定 ‎53、Cookies一般包含在请求头Headers中答案: 正确 ‎★难度：易参见章节：第7章考核知识点：异步加载与请求头试题解析：‎ ‎54、Python可以将列表或字典转换成Json字符串答案: 正确 ‎★难度：易参见章节：第7章考核知识点：异步加载与请求头试题解析：‎ ‎55、使用AJAX技术，可以在不刷新网页的情况下更新网页数据答案: 正确 ‎★难度：易参见章节：第7章考核知识点：异步加载与请求头试题解析：‎ ‎56、使用异步加载技术的网站，被加载的内容可以在源代码中找到答案: 错误 ‎★难度：中参见章节：第7章考核知识点：异步加载与请求头试题解析：找不到 ‎57、在请求头中设置User-Agent即可正常请求网站答案: 错误 ‎★难度：难参见章节：第7章考核知识点：异步加载与请求头试题解析：还需要其他信息 ‎58、异步加载的内容一般在网页框架加载完成之前答案: 错误 ‎★难度：易参见章节：第7章考核知识点：异步加载与请求头试题解析：不一定 ‎59、Python中包含字典的列表页可以转换成JSON字符串答案: 正确 ‎★难度：中参见章节：第7章考核知识点：异步加载与请求头试题解析：‎ ‎60、HTTP只能通过POST请求才能发送数据答案: 错误 ‎★难度：易参见章节：第7章考核知识点：异步加载与请求头试题解析：GET等 ‎61、Selenium必须加载对应的webdriver才能模拟浏览器访问答案: 正确 ‎★难度：中参见章节：第7章考核知识点：异步加载与请求头试题解析：‎ ‎62、在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的答案: 错误 ‎★难度：难参见章节：第7章考核知识点：异步加载与请求头试题解析：需要保持一致 ‎63、HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：GET ‎64、爬虫登录需要识别验证码可以先把程序关闭，肉眼识别以后再重新运行答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎65、HTTP状态码302表示资源永久重定向。‎ 答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎66、HTTP状态码403表示资源禁止访问。‎ 答案: 正确 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎67、HTTP状态码503表示服务器内部故障。‎ 答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎68、验证码必须通过手动填充识别。‎ 答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎69、开源库pytesseract的作用是将图像中文字转换为文本。‎ 答案: 正确 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎70、cookies在http请求中是明文传输的。‎ 答案: 正确 ‎★难度：中参见章节：第8章考核知识点：模拟登陆与验证码试题解析：http是明文传输，加密需要用https ‎71、HTTP状态码302与307完全同义。‎ 答案: 正确 ‎★难度：中参见章节：第8章考核知识点：模拟登陆与验证码试题解析：‎ ‎72、需要实名认证的打码网站更加安全可靠。‎ 答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：拒绝实名制，防止泄露个人信息。‎ ‎73、打码平台都是靠机器使用OCR技术识别图片上的文字。‎ 答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：主要靠人工识别 ‎74、需要登录的网站一般通过GET请求就可以实现登录。‎ 答案: 错误 ‎★难度：易参见章节：第8章考核知识点：模拟登陆与验证码试题解析：登录表单一般需要发送post请求 ‎75、对Charles设置代理时，Ip可以设置为127.0.0.1，端口为8888.‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎76、当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎77、在charles中使用CTRL+F搜索，JSON里面的中文是可以直接搜索到的。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎78、使用Charles直接抓取HTTPS的数据包，就会出现大量的Method为CONNECT的请求，但是这些请求又全部都会失败，是没有安装SSL证书导致的答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎79、使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎80、微信小程序的反爬虫能力要比网页的高很多。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎81、中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎82、中间人攻击也是抓包的一种。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎83、安装mitmdump之前，运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎84、网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎85、Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎86、在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎87、上课传纸条中，传递纸条的人就可以发起中间人攻击。‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎88、操作文本难以实现自动化，而操作图形界面可以容易的实现自动化。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎89、mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎90、Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎91、Charles和Chrome开发者工具相比，只是多了一个搜索功能。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎92、charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任。‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎93、要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎94、当使用Charles监控iOS设备或者Android设备的数据包以后，打开微信小程序，小程序的数据包不能自动被Charles抓住，需要另作处理。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎95、数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎96、为了在安卓手机上安装证书，需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令，可以将Charles的证书保存到计算机桌面。‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎97、如果把网络上发送与接收的数据包理解为快递包裹，那么在快递运输的过程中取出查看更改里面的内容，就是类似抓包的过程答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：抓包不会改变数据 ‎98、chrome开发者工具没法对数据进行搜索。如果想知道一个特定的异步加载内容来自哪个请求，必须在“Network”选项卡里面一个请求一个请求地进行查看.‎ 答案: 正确 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎99、上课传纸条。A要把纸条传给B，但是A与B距离太远，于是让C来转交纸条。此时，C先篡改纸条的内容再传给B，这是一种类似抓包的方式。‎ 答案: 错误 ‎★难度：易参见章节：第9章考核知识点：抓包与中间人爬虫试题解析：‎ ‎100、UI Automator Viewer与Python uiautomator可以同时使用答案: 错误 ‎★难度：易参见章节：第10章考核知识点：Android原生App爬虫试题解析：UI Automator Viewer与Python uiautomator不能同时使用 ‎101、使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward()‎ 答案: 错误 ‎★难度：易参见章节：第10章考核知识点：Android原生App爬虫试题解析：backward()‎ ‎102、使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward()‎ 答案: 错误 ‎★难度：易参见章节：第10章考核知识点：Android原生App爬虫试题解析：backward()‎ ‎103、device.sleep()方法是使用UI Automatorr关闭屏幕的命令答案: 正确 ‎★难度：易参见章节：第10章考核知识点：Android原生App爬虫试题解析：‎ ‎104、使用UI Automatorr操作实体键的命令为device.press.实体按键名称()‎ 答案: 正确 ‎★难度：易参见章节：第10章考核知识点：Android原生App爬虫试题解析：‎ ‎105、在安装Scarpy的依赖库时，由于Visual C++ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎106、在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎107、Linux环境中，Virtualenv创建的虚拟Python环境中，执行pip命令安装第三方库就不需要使用sudo命令了。‎ 答案: 正确 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎108、Scrapy的工程名字不能使用"scrapy"，否则爬虫会无法运行。除此以外工程名不受限制。‎ 答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：工程名可以使用英文字母和数字的组合，但是绝对不能使用“scrapy”（小写）作为工程名，否则爬虫无法运行。也不要使用任何已经安装的Python第三方库的名称作为工程名，否则可能会出现奇怪的错误。‎ ‎109、当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入"163.com"就可以了答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：如果有一些网址需要添加二级域名才能访问，那么这里也必须要把二级域名加上。‎ ‎110、已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：Scrapy的爬虫绝对不能通过Python直接运行example.py来运行。‎ ‎111、当运行爬虫代码后，出现"Forbidden by robots.txt"提示后，说明当前时间段被爬取的网站无法访问。‎ 答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎112、爬虫文件无法从Pycharm运行和调试，只能通过命令行的方式运行。‎ 答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：可以通过创建另一个Python文件的方式来通过pycharm运行 ‎113、在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。‎ 答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎114、如果MongoDB运行在所在的计算机上，MONGODB_HOST应该写成"192.168.0.1"‎ 答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：127.0.0.1本地IP地址 ‎115、Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎116、XPath提取出来的内容是一个SelectorList对象，它的第0个元素就是网页的源代码。‎ 答案: 错误 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎117、Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据，在Redis中把这个Key删除即可。‎ 答案: 正确 ‎★难度：易参见章节：第11章考核知识点：Scrapy框架试题解析：‎ ‎118、引用中间件时后面的数字代表的是中间件的执行顺序，例如 'AdvanceSpider.middlewares.ProxyMiddleware': 543 中的543‎ 答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎119、数字越大的中间件越先被执行答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎120、爬虫中间件的作用对象是请求request和返回response 答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎121、爬虫中间件的激活需要另外写一个文件来进行答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎122、下载器中间件里面的报错一般是由于外部原因引起的答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎123、middlewares.py是下载器中间件答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎124、代理中间件的可用代理列表一定要写在settings.py里面答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎125、把cookies这段文本放在Redis里面，可以使scrapy请求网页时始终保持登录状态答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎126、设置了这个中间件以后，仍然需要输入账号密码可以成功得到登录以后才能看到的HTML 答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎127、scrapy与selenium结合可以实现直接处理需要异步加载的页面答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎128、process_spider_output(response, result, output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx()前调用答案: 错误 ‎★难度：中参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎129、process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request()的时候调用答案: 错误 ‎★难度：中参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎130、使用Scrapyd，可以实现一键部署Scrapy爬虫，访问一个网址就启动/停止爬虫答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎131、Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎132、在默认情况下，Scrapyd可以从外网访问答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎133、”curl http://爬虫服务器IP地址:6800/cancel.json -d project=工程名 -d job=爬虫JOBID“该命令的作用是启动爬虫答案: 错误 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎134、使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码答案: 正确 ‎★难度：易参见章节：第12章考核知识点：Scrapy高级应用试题解析：‎ ‎135、如果目标网站本身就是提供公众查询服务的网站，那么使用爬虫是合法合规的。‎ 答案: 正确 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：‎ ‎136、自己能查看的数据，允许擅自拿给第三方查看答案: 错误 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：自己能查看的数据，不一定被允许擅自拿给第三方查看 ‎137、包含或超过50万人的个人信息，或者包含国家关键信息的数据，如果要转移到境外，必须经过主管或者监管部门组织安全评估。‎ 答案: 正确 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：‎ ‎138、如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。‎ 答案: 正确 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：‎ ‎139、如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司，从而获得销售收入。这是合法的。‎ 答案: 正确 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：‎ ‎140、如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是首先把数据或者分析结果出售给某基金公司，然后自己再买被爬公司的股票。此时，涉嫌内幕交易，属于严重违法行为。‎ 答案: 正确 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：‎ ‎141、robots.txt是一种规范,在法律范畴内答案: 错误 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：‎ robots.txt并不是一种规范，它只是一种约定，所以即使不遵守也不会受到惩罚。但是从道德上讲，建议遵守 ‎142、爬虫的源代码通过公开不会对被爬虫网站造成影响答案: 错误 ‎★难度：易参见章节：第13章考核知识点：爬虫开发中的法律和道德问题试题解析：开源是一件好事，但不要随便公开爬虫的源代码。因为别有用心的人可能会拿到被公开的爬虫代码而对网站进行攻击或者恶意抓取数据。‎ ‎（二）、选择部分 ‎1、网络爬虫的用途有（）‎ A.收集数据 B.尽职调查 C.提高流量 D.攻击服务器答案: A B C ‎★难度：中参见章节：第1章考核知识点：网络爬虫概念试题解析：‎ ‎2、以下哪些可以独立成为Python编译器（）‎ A.Pycharm B.IDLE C.Eclipse D.Visual Studio 2010‎ 答案: A B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎3、Python中Object=[1, 2, 3, 4, 5]，则Objcet是（）‎ A.列表 B.元组 C.字典 D.集合答案: A ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎4、Python中Object=(1, 2, 3, 4, 5)，则Objcet是（）‎ A.列表 B.元组 C.字典 D.集合答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎5、Python中的容器有（）‎ A.列表 B.元组 C.字典 D.集合答案: A B C D ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎6、Python中（）与元组由类似的数据读取方式 A.字符串 B.列表 C.字典 D.集合答案: A B ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎7、Python中哪种容器一旦生成就不能修改 A.列表 B.元组 C.字典 D.集合答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎8、Python中哪种容器生成后可以修改内容 A.列表 B.元组 C.字典 D.集合答案: A C D ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎9、Python中若定义object=[1, 2, 3, 4, 5]，则print(object[-4])输出（）‎ A.NULL B.2‎ C.4‎ D.程序报错答案: B ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎10、Python中若定义object=(1, 2, 3, 4, 5)，则print(object[1:3])输出（）‎ A.12‎ B.123‎ C.23‎ D.234‎ 答案: C ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎11、Python中若定义object=[1, 2, 3, 4, 5]，则print(object[:3])输出（）‎ A.12‎ B.123‎ C.23‎ D.234‎ 答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎12、Python中若定义object=(1, 2, 3, 4, 5)，则print(object[:3])输出（）‎ A.345‎ B.34‎ C.45‎ D.123‎ 答案: C ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎13、Python中若定义object="12345"，则print(object[::-1])输出（）‎ A.1‎ B.5‎ C.54321‎ D.程序报错答案: C ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎14、Python中列表可以用（）方法在末尾添加元素 A.add B.append C.plus D.+‎ 答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎15、Python中Object={'obj_1':'1','obj_2':'2'}，则Objcet是（）‎ A.列表 B.元组 C.字典 D.集合答案: C ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎16、Python中Object={1, 2, 3, 4, 5}，则Objcet是（）‎ A.列表 B.元组 C.字典 D.集合答案: D ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎17、Python中以下哪个容器里的元素不能重复（）‎ A.列表 B.元组 C.字典 D.集合答案: D ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎18、Python中Object={'obj_1':'1','obj_2':'2'}，则Objcet.get('boj_1','3')是（）‎ A.1‎ B.2‎ C.3‎ D.无输出答案: A ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎19、Python中Object={'obj_1':'1','obj_2':'2'}，则Objcet.get('boj_3','3')是（）‎ A.1‎ B.2‎ C.3‎ D.无输出答案: C ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎20、Python中把列表转换为集合需要使用##函数 A.set B.list C.convert D.change 答案: A ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎21、Python中把集合转换为列表需要使用##函数 A.set B.list C.convert D.change 答案: B ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎22、执行下面代码，结果为（）：‎ name_list = []‎ if name_list and name_list[100] == '张三':‎ ‎ print('OK')‎ A.程序报错 B.OK C.NULL D.无输出答案: B ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎23、Python中通过Key来从字典object中读取对应的Value的方法有（）‎ A.object[key]‎ B.object.get(key)‎ C.object.pop(key)‎ D.object.pop()‎ 答案: A B ‎★难度：中参见章节：第2章考核知识点：Python基础试题解析：‎ ‎24、下面代码一共执行循环多少次（）：‎ for i in range(10):‎ ‎ print(i ** i)‎ A.9‎ B.10‎ C.11#0‎ 答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎25、下面代码一共执行循环多少次（）：‎ i=0‎ while i<10:‎ ‎ i+=1‎ A.9‎ B.10‎ C.11#0‎ 答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎26、Python中跳过本次循环应用关键字（）‎ A.break B.continue C.exit D.return 答案: B ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎27、Python中退出循环应用关键字（）‎ A.break B.continue C.exit D.return 答案: A ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎28、Python中定义函数关键字为（）‎ A.def B.define C.func D.function 答案: A ‎★难度：易参见章节：第2章考核知识点：Python基础试题解析：‎ ‎29、Python中一个函数可以有（）个return语句 A.0‎ B.1‎ C.多个 D.2‎ 答案: A B C D ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎30、Python中一个函数没有返回值则可以写（）‎ A.没有return B.return C.return None D.return NULL 答案: A B C ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎31、下面Python代码输出为（）：‎ def default_para_trap(para=[], value=0):‎ ‎ para.append(value)‎ ‎ return para print('第一步:{}'.format(default_para_trap(value=100)))‎ print('第二步:{}'.format(default_para_trap(value=50)))‎ A.第一步:[100]‎ 第二步:[100,50]‎ B.第一步:[100]‎ 第二步:[50]‎ C.第一步:[100]‎ 第二步:[]‎ D.第一步:[100]‎ 第二步:[100]‎ 答案: A ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎32、下面Python代码输出为（）：‎ def default_para_without_trap(para=[], value=0):‎ ‎ if not para:‎ ‎ para = []‎ ‎ para.append(value)‎ ‎ return para print('第一步:{}'.format(default_para_trap(value=100)))‎ print('第二步:{}'.format(default_para_trap(value=50)))‎ A.第一步:[100]‎ 第二步:[100,50]‎ B.第一步:[100]‎ 第二步:[50]‎ C.第一步:[100]‎ 第二步:[]‎ D.第一步:[100]‎ 第二步:[100]‎ 答案: B ‎★难度：难参见章节：第2章考核知识点：Python基础试题解析：‎ ‎33、Python正则表达式模块的findall方法返回结果为（）‎ A.列表 B.元组 C.字典 D.集合答案: A ‎★难度：易参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎34、Python正则表达式模块的findall方法如果没有匹配到结果，则返回结果为（）‎ A.空 B.空列表 C.空元组 D.不返回答案: B ‎★难度：易参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎35、Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含（）‎ A.列表 B.元组 C.字典 D.集合答案: B ‎★难度：中参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎36、Python操作CSV文件可通过（）容器的方式操作单元格 A.列表 B.元组 C.字典 D.集合答案: C ‎★难度：中参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎37、Python中（）容器有推导式 A.列表 B.元组 C.字典 D.集合答案: A C D ‎★难度：难参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎38、Python读CSV文件需要哪个方法（）‎ A.CSVReader B.CsvReader C.DictReader D.FileReader 答案: C ‎★难度：难参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎39、Python写CSV文件需要哪个方法（）‎ A.CSVWriter B.CsvWriter C.DictWriter D.FileWriter 答案: C ‎★难度：难参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎40、以下哪些方法属于Python写CSV文件的方法（）‎ A.writeheaders B.writeheader C.writerrows D.writerow 答案: A C D ‎★难度：难参见章节：第3章考核知识点：正则表达式与文件操作试题解析：‎ ‎41、最常见的HTTP请求类型有（）‎ A.GET B.POST C.SEND D.RECEIVE 答案: A B ‎★难度：易参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎42、一般来说在页面传输登录信息都用HTTP（）请求类型 A.GET B.POST C.PUT D.SEND 答案: B ‎★难度：易参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎43、requests中post请求方法的第二个参数可以为（）‎ A.字典 B.列表 C.json数据 D.字符串答案: A C ‎★难度：难参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎44、requests中post请求方法的使用为requests.post('网址', data=data)中的data为（）‎ A.列表 B.元组 C.字典 D.集合答案: C ‎★难度：中参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎45、requests获取get或者post请求后需要通过（）属性获取文本内容 A.content B.text C.string D.body 答案: A ‎★难度：易参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎46、Python中线程池map()方法第二个参数是（）‎ A.列表 B.元组 C.字典 D.集合答案: A ‎★难度：中参见章节：第4章考核知识点：简单的网页爬虫方法试题解析：‎ ‎47、以下哪个HTML标签表示分区或节（）‎ A.

‎ B.‎ C.‎ D.

当前文档收益归属上传用户
下载本文档