发 帖  
原厂入驻New
[问答]

什么是爬虫?

27 爬虫 Python爬虫
分享
什么是爬虫?
爬虫的价值?
最简单的python爬虫
爬虫基本架构
0
2020-11-5 06:13:12   评论 分享淘帖 邀请回答
4个回答
什么是爬虫?
爬虫的本质就是将互联网网页(数据)下载下来的程序。
爬虫通常为PC端爬虫、以及移动端爬虫(接口数据窃取 抓包 wap站),当然我们更多的是使用PC端的爬虫。
如下图可以看出爬虫相对于人浏览网页的不同,可以在脑袋里有个简单的概念。

通过对互联网无数个url数据的下载,url之间可能又有关联,于是形成了犹如蜘蛛网状的结构,而爬虫就守在这张大网之上,因此我们通常又将爬虫成为蜘蛛。
2020-11-5 16:29:51 评论

举报

爬虫的价值?
列几个简单的例子,看看就行


  • 搜索引擎
  • 今日头条
  • 比价网
  • 大数据
2020-11-5 16:29:58 评论

举报

最简单的python爬虫
urllib库 基于python3.5
# encoding:UTF-8import urllib.requestdef download_data():    url = "http://www.baidu.com"    response = urllib.request.urlopen(url)    print(response.getcode())    if response.getcode() == 200:        print(response.read())download_data()
运行结果如下

可以看出爬虫下载都是网页源码。
2020-11-5 16:30:05 评论

举报

爬虫基本架构

由上图可以看出爬虫一般由爬虫调度器、URL管理器、网页下载器、网页解析器、数据存储这几个模块组成。
爬虫调度器主要是对url管理器、网页下载器网页解析器进行管理。
URL管理器主要通过初始url及网页解析器获得的url进行存储管理,并为调度器提供接口,为网页下载器提供下载入口。
网页下载器主要功能就是下载该url下的网页数据(源码)
网页解析器一方面解析出我们需要的价值数据,一方面又将网页下载器下载数据中的url存储到url管理器中。
数据存储是将网页解析器的解析的价值数据存储到内存、数据库、文件等。
2020-11-5 16:30:14 评论

举报

撰写答案

你正在撰写答案

如果你是对答案或其他答案精选点评或询问,请使用“评论”功能。

高级模式
您需要登录后才可以回帖 登录 | 注册

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容图片侵权或者其他问题,请联系本站作侵删。 侵权投诉
我要提问
关闭

站长推荐 上一条 /9 下一条

快速回复 返回顶部 返回列表