chrome插件网页抓取(谷歌插件:chromeCrawl插件解析)
优采云 发布时间: 2022-01-29 19:01chrome插件网页抓取(谷歌插件:chromeCrawl插件解析)
普通爬虫:在代码中发送请求,然后从流中获取网页内容,解析网页内容获取相关信息。这种方法的优点是简单快速,缺点是容易被拦截,失败率高。
另一种方法是使用谷歌插件获取页面的所有内容,然后对其进行解析以获取所需的信息。
插件名称:chromeCrawl
插件添加地址:点我
如果无法访问谷歌app网站,可以使用github的手动安装教程:点我
易于使用的插件
安装完成后会在浏览器右上角看到安装后的图标:一共有三个功能
三个复选框的解释:
打开爬取页面功能:勾选该复选框,才会向后台接口发送页面内容,同时接收数据接口出现
自动关闭页面:勾选该复选框,爬取页面完成后,页面自动关闭。
不显示多媒体资源:勾选该复选框,图片,视频,字体等资源将不加载,可以提高网页加载速度
备注:
接收数据接口:接收页面数据的接口,需要自己定义,默认http://localhost:8080/content,与 打开爬取页面功能 联动
开启爬取功能后,我们要获取页面内容,可以这样设置:
如果是java,后台可以这样接收:
package com.molikam.shop.controller;
import java.util.concurrent.atomic.AtomicInteger;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController;
@RestController
public class CrawlerController {
AtomicInteger count = new AtomicInteger(0);
@RequestMapping(value="/content",method={RequestMethod.POST})
public void getContent(String content){
System.out.println(count.incrementAndGet());
System.out.println(content);
}
}
如果想看插件的具体代码或者自己添加更多需求,移步github下载:点我
下载后,只需在background.js和content_script.js这两个文件中添加内容即可。如何编写谷歌插件可以在百度上找到。