网页数据抓取软件(scrapy进程如何保存进程间通信问题的解决办法(图))

优采云发布时间: 2022-03-17 10:01

　　网页数据抓取软件的话devops用parsemysql，

　　手机答复，排版渣，见谅。首先回答，scrapy在多线程环境下，没有进程间通信问题，就是说可以完成并发的爬取和运算任务，开发效率比较高。pip安装wheels即可，pip3.5兼容python3，pip3可以正常工作了，用的最多的还是pip3install-iscrapy关于一个scrapy进程如何保存进程数据，可以考虑用java类的框架，hadoop，spark等。

　　这个对于python3.5以上来说，是可以实现的。设置一个线程池，把相同的文件放到一个进程中，进程里执行这些文件，进程间通信就通过这些文件的属性来实现。当前界面的这个是定义在configuration/jobs的，创建新job的时候，要先设置conf/jobs-scrapy.py，把这个添加到configuration的settings里。

　　补充一下：在scrapy的这个代码中，原始并发性能没有在1e8的程度，2e8的程度，3e8还有理论上秒杀的--以jobs.py文件为例，标记为1的进程是打印的feed，2的进程是读写的api，3e8说明该进程并不是在运行而是处于休眠状态。而且自我实现的redirect比较耗性能的，不过也不用太在意，1e8的代码也是不错的。

0

2022-03-17

网页数据抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据抓取软件(scrapy进程如何保存进程间通信问题的解决办法(图))

0 个评论

发起人