如何完整写一个爬虫框架

优采云发布时间: 2020-05-03 08:02

　　本文主要为你们分享一篇怎么完整写一个爬虫框架的恳求方式，具有挺好的参考价值，希望对你们有所帮助。一起追随小编过来瞧瞧吧爬虫框架，希望能帮助到你们。

　　产生爬虫框架：

　　1、建立一个scrapy爬虫工程

　　2、在工程中形成一个scrapy爬虫

　　3、配置spider爬虫

　　4、运行爬虫，获取网页

　　具体操作：

　　1、建立工程

　　定义一个工程，名称为：python123demo

　　方法：

　　在cmd中，d: 步入盘符， cd pycodes 步入文件pycodes

　　然后输入

　　scrapy startproject python123demo

　　在pycodes中会生成一个文件：

　　_init_.py不需要用户编撰

　　2、在工程中形成一个scrapy爬虫

　　执行一条命令，给出爬虫名子和爬取的网站

　　产生爬虫：

　　生成一个名称为 demo 的spider

　　仅限生成 demo.py,其内容为：

　　name = 'demo' 当前爬虫名子为demo

　　allowed_domains = " 爬取该网站域名以下的链接，该域名由cmd命令台输入

　　start_urls = [] 爬取的初始页面

　　parse()用于处理相应，解析内容产生字典，发现新的url爬取恳求

　　3、配置形成的spider爬虫，使之满足我们的需求

　　将解析的页面保存成文件

　　修改demo.py文件

　　4、运行爬虫，获取网页

　　打开cmd输入命令行进行爬虫

　　然后我的笔记本上出现了一个错误

　　windows系统上出现这个问题的解决须要安装Py32Win模块，但是直接通过官网链接装exe会出现几百个错误，更方便的做法是

　　pip3 install pypiwin32

　　这是py3的解决方案

　　注意：py3版本假如用 pip install pypiwin32指令会发生错误

　　安装完成后，重新进行爬虫爬虫框架，成功！撒花！

　　捕获页面储存在 demo.html文件中

　　demo.py 所对应的完整代码：

　　两版本等价：

　　以上就是怎么完整写一个爬虫框架的详尽内容，更多请关注php中文网其它相关文章！

0

2020-05-03

爬虫框架域名

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何完整写一个爬虫框架

0 个评论

发起人

AI时代内容工厂

如何完整写一个爬虫框架

0 个评论

发起人

相关问题