发 帖  
原厂入驻New
申请华秋企业认证 多层板首单免费打样!
30s提交资料,10分钟通过审核(免费赔付+顺丰包邮)>>立即报名

[经验] 常见的几种爬虫策略

2019-11-22 17:25:30  202 爬虫
分享
1
在爬虫系统中,等待抓取URL队列是很重要的组成部分,等待抓取URL队列中的URL的顺序排列方式也是一个很重要的问题,因为这会决定到先抓取哪个页面,后抓取哪个页面.而决定这些URL排列顺序的方法,叫做抓取策略。
几种常见的抓取策略:
1、深度优先遍历策略:深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,直到处理完这条线路之后才会转入下一个起始页,继续跟踪链接。
2、宽度优先遍历策略:宽度优先遍历策略的基本思路就是,将新下载网页中发现的链接直接放入待抓取URL队列的末尾。也就是说网络爬虫会优先抓取起始网页中链接的所有网页,所有网页都抓取完之后,再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。
3、反向链接数策略:反向链接数是指一个网页被其他网页链接指向的数量,同时反向链接数也是表示一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。
4、OPIC策略策略:这种算法实际上也是对网络页面进行一个重要性的打分。在算法开始前,会给所有页面一个相同的初始现金(cash)。当下载了某个页面之后,将页面的现金分摊给所有从页面中分析出的链接,并且将页面的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序。
5、大站优先策略:对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。
  6.使用高质量亿牛云http代理配合爬虫程序去进行采集

王栋春 2019-11-22 21:51:29
没有接触过 略作了解一下
回复

举报

评论

高级模式
您需要登录后才可以回帖 登录 | 注册

发经验
关闭

站长推荐 上一条 /10 下一条

快速回复 返回顶部 返回列表