chrome插件网页抓取(谷歌插件：chromeCrawl插件解析)

优采云发布时间: 2022-01-29 19:01

　　普通爬虫：在代码中发送请求，然后从流中获取网页内容，解析网页内容获取相关信息。这种方法的优点是简单快速，缺点是容易被拦截，失败率高。

　　另一种方法是使用谷歌插件获取页面的所有内容，然后对其进行解析以获取所需的信息。

　　插件名称：chromeCrawl

　　插件添加地址：点我

　　如果无法访问谷歌app网站，可以使用github的手动安装教程：点我

　　易于使用的插件

　　安装完成后会在浏览器右上角看到安装后的图标：一共有三个功能

　　三个复选框的解释：

　　打开爬取页面功能：勾选该复选框，才会向后台接口发送页面内容，同时接收数据接口出现

自动关闭页面：勾选该复选框，爬取页面完成后，页面自动关闭。

不显示多媒体资源：勾选该复选框，图片，视频，字体等资源将不加载，可以提高网页加载速度

备注：

接收数据接口：接收页面数据的接口，需要自己定义，默认http://localhost:8080/content,与打开爬取页面功能联动

　　开启爬取功能后，我们要获取页面内容，可以这样设置：

　　如果是java，后台可以这样接收：

　　package com.molikam.shop.controller;

import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RequestMethod;

import org.springframework.web.bind.annotation.RestController;

@RestController

public class CrawlerController {

AtomicInteger count = new AtomicInteger(0);

@RequestMapping(value="/content",method={RequestMethod.POST})

public void getContent(String content){

System.out.println(count.incrementAndGet());

System.out.println(content);

}

　　如果想看插件的具体代码或者自己添加更多需求，移步github下载：点我

　　下载后，只需在background.js和content_script.js这两个文件中添加内容即可。如何编写谷歌插件可以在百度上找到。

0

2022-01-29

chrome插件网页抓取

0 个评论

要回复文章请先登录或注册