java爬虫抓取网页数据(java中好系列包含哪些内容?java爬虫框架webmgic入门使用)

优采云 发布时间: 2021-12-02 10:09

  java爬虫抓取网页数据(java中好系列包含哪些内容?java爬虫框架webmgic入门使用)

  1. 概述一下java爬虫系列都收录哪些内容?java爬虫框架入门 webmgic 使用webmgic抓取电影资源(动作片列表页、电影下载地址等) 使用webmgic抓取极客时间的课程资源(文章系列课程和视频系列课程)本文章 主要内容:介绍java中有用的爬虫框架Java爬虫框架webmagic介绍使用webgic爬取动作电影列表信息2.如何判断框架在好用的爬虫中是否优秀java中的框架?它易于学习和使用。网上相应的学习资料比较多,用得好的人也比较多。别人已经给你填好了。使用起来会更舒服。一些框架更新得更快,社区活跃,可以快速体验一些更好的功能,与作者交流。框架稳定,易于扩展。

  根据以上几点,推荐一个非常好用的java爬虫框架webmgic

  3. webmgic简介4. 使用webgic爬取动作片列表

  使用webgic爬取爱情电影的电影列表资源信息

  示例源代码地址

  1. springboot 新项目 java-pachong

  

  2. 导入maven配置

  

org.springframework.boot

spring-boot-starter

org.projectlombok

lombok

true

org.springframework.boot

spring-boot-starter-test

test

us.codecraft

webmagic-core

0.7.3

fastjson

com.alibaba

commons-io

commons-io

commons-io

commons-io

fastjson

com.alibaba

fastjson

com.alibaba

log4j

log4j

slf4j-log4j12

org.slf4j

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

net.minidev

json-smart

2.2.1

com.alibaba

fastjson

1.2.49

commons-lang

commons-lang

2.6

commons-io

commons-io

2.6

commons-codec

commons-codec

1.11

commons-collections

commons-collections

3.2.2

  3. 编写代码捕获电影数据

  package com.ady01.demo1;

import lombok.extern.slf4j.Slf4j;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

/**

* description:第一个爬虫示例,爬去动作片列表信息

* <b>time:2019/4/20 10:58

* <b>author:ready likun_557@163.com

*/

@Slf4j

public class Ady01comPageProcessor implements PageProcessor {

@Override

public void process(Page page) {

log.info("爬取成功!");

log.info("爬取的内容:" + page.getRawText());

}

@Override

public Site getSite() {

return Site.me().setSleepTime(1000).setRetryTimes(3);

}

public static void main(String[] args) {

String url = "http://m.ady01.com/rs/film/listJson/1/2?_=1555726508180";

Spider.create(new Ady01comPageProcessor()).addUrl(url).thread(1).run();

}

}

  4. 运行爬虫代码

  运行Ady01comPageProcessor中的main方法,执行结果如下:

  

  5.总结本文主要通过一个例子来说明webgic如此简单,可以完成数据的抓取工作。从代码可以看出,复杂的代码webmagic帮我们屏蔽了,我们只需要关注业务代码即可。准备。文章 webmagic的使用方法没有详细说明。至于为什么我没有在文档中说明,主要是webigc提供了非常完整的学习文档。可以移动到webgic中文文档。如果需要更深入的了解,可以研究一下webgic的源码,对你写爬虫很有用。明天我们会爬取每部动作片的详情页信息,采集详情页中电影下载地址的示例代码,导入idea运行,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线