如何完整写一个爬虫框架

优采云 发布时间: 2020-05-03 08:02

  

  本文主要为你们分享一篇怎么完整写一个爬虫框架的恳求方式,具有挺好的参考价值,希望对你们有所帮助。一起追随小编过来瞧瞧吧爬虫框架,希望能帮助到你们。

  产生爬虫框架:

  1、建立一个scrapy爬虫工程

  2、在工程中形成一个scrapy爬虫

  3、配置spider爬虫

  4、运行爬虫,获取网页

  具体操作:

  1、建立工程

  定义一个工程,名称为:python123demo

  方法:

  在cmd中,d: 步入盘符, cd pycodes 步入文件pycodes

  然后输入

  scrapy startproject python123demo

  在pycodes中会生成一个文件:

  

  

  _init_.py不需要用户编撰

  

  

  2、在工程中形成一个scrapy爬虫

  执行一条命令,给出爬虫名子和爬取的网站

  产生爬虫:

  

  生成一个名称为 demo 的spider

  仅限生成 demo.py,其内容为:

  

  name = 'demo' 当前爬虫名子为demo

  allowed_domains = " 爬取该网站域名以下的链接,该域名由cmd命令台输入

  start_urls = [] 爬取的初始页面

  parse()用于处理相应,解析内容产生字典,发现新的url爬取恳求

  3、配置形成的spider爬虫,使之满足我们的需求

  将解析的页面保存成文件

  修改demo.py文件

  

  4、运行爬虫,获取网页

  打开cmd输入命令行进行爬虫

  

  然后我的笔记本上出现了一个错误

  

  windows系统上出现这个问题的解决须要安装Py32Win模块,但是直接通过官网链接装exe会出现几百个错误,更方便的做法是

  pip3 install pypiwin32

  这是py3的解决方案

  注意:py3版本假如用 pip install pypiwin32指令会发生错误

  安装完成后,重新进行爬虫爬虫框架,成功!撒花!

  

  捕获页面储存在 demo.html文件中

  

  demo.py 所对应的完整代码:

  

  两版本等价:

  

  以上就是怎么完整写一个爬虫框架的详尽内容,更多请关注php中文网其它相关文章!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线