java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)

优采云 发布时间: 2022-02-01 04:04

  java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)

  解释爬虫的基础 在这篇文章中,我将编写一个爬虫来爬取钩网的信息并将其存储在数据库中。使用 Struts2 框架。必备知识:了解java语言语法、Html语法。输入主题:一、明确要抓取的信息。比如我想在这个webapp中抓取的信息是:职位名称、公司名称、公司网站、福利、月薪、发布日期、工作地点、工作性质、最低*敏*感*词*、工作类别1、创建一个Struts2 web项目导入需要的架子包2、

   讲解爬虫基础

  在本文中,我将编写一个爬虫来爬取钩网的信息并将其存储在数据库中。使用 Struts2 框架。

  必备知识:了解java语言语法、Html语法。

  重点:

  一、指定要抓取的信息。

  比如我想在这个webapp中抓取的信息是:

  职位名称、公司名称、公司网站、福利、月薪、发布日期、工作地点、工作性质、最低*敏*感*词*、工作类别

  1、创建一个Struts2 web项目并导入所需的shelf包

  2、搭建基本框架

  

  3、建立连接

  使用方法获取连接

  文档 doc = Jsoup.connect("");

  Document对象是网页解析后的对象类型,加载后可以输出。

  输出的时候发现无法得到想要的内容,于是输出了整个网页,看到结果是这样的

  

  此时,分析可能的原因。一般来说,网站采用了反爬虫机制。第一个尝试是写浏览器的头文件。

  文档 doc = Jsoup.connect("").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/ 30.0").get();

  然后再运行一次就可以得到你想要的了

  3、分析网页

  建议您使用谷歌浏览器,F12 分析源码。

  您可以清楚地看到它的结构,因此无需借用其他工具。

  元素元素 = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");

  使用选择器选择此页面上的所有职业信息。Elements 是元素的集合,然后一步一步抓取需要的信息。

  输出所需信息

  

  这样的数据,输出是这样的,我们可以添加到数据库中。

  这些都没有了。

  原文地址:~all~es_rank~default-11-79052808.pc_search_all_es&utm_term=java%E7%88%AC%E8%99%AB

  这个 文章 网址:

  类似推荐

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线