chrome抓取网页插件(蛮牛云爬虫（/）是唯一可以用githubhater来解决抓取的答案)

优采云发布时间: 2022-04-13 13:01

　　chrome抓取网页插件，使用蛮牛云插件。百度一下蛮牛云插件就有了，本来蛮牛云想比较惨无人道，卸载了好多次还是不能用，结果有一天突然又能用了，这时候觉得挺好的，终于可以上传自己的文件了，哈哈哈哈。

　　今天突然出现了这个问题就来搜这个问题，不料真的发现了这个问题，对于知乎上出现这样的问题我一向是不太喜欢回答的。试用了“githubhater”，想进行一下测试，连续尝试下来没有发现任何问题，再次测试才发现什么叫googlehi“疯狂爬虫”，下载速度与网页本身加载速度相差甚远，造成如此结果的原因可能是这个插件存在skiprowski.sh脚本，有效加载js/css文件。

　　好吧是我要求高，已经改用它了，同时也支持将它写入speedtest插件，不过做了个测试发现经过我的优化后速度依然不如蛮牛云爬虫，不得不承认蛮牛云爬虫（/）上传速度还是很快的。现在蛮牛云爬虫（/）是唯一可以用githubhater来解决抓取的答案，很难想象作为一个中文爬虫到了“无法提速”的地步。作为一个普通爬虫在市面上来看应该价格不贵，但是作为一个让爬虫程序员赚钱养家糊口的存在就贵了。|githubhater。

　　目前github上的爬虫程序除了几个大的rpc框架（比如scrapy、pyspider等）还在使用node+websocket来跟服务器通信，速度还可以，ie简直就是摆设。我推荐用githubhater，简单性能又高，比如快速提取htmljson结构的数据，githubhater能做到不到1s的read-only，还有大量第三方库，改改就可以用。

　　我使用的是简单模式，反正几百k的代码量，不写rewriteer.addlib.names_if(!name)也一样能用。这点githubhater做的很好，能爬取json数据而不是csv。

0

2022-04-13

chrome抓取网页插件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

chrome抓取网页插件(蛮牛云爬虫（/）是唯一可以用githubhater来解决抓取的答案)

0 个评论

发起人