java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)

优采云发布时间: 2022-02-01 04:04

　　解释爬虫的基础在这篇文章中，我将编写一个爬虫来爬取钩网的信息并将其存储在数据库中。使用 Struts2 框架。必备知识：了解java语言语法、Html语法。输入主题：一、明确要抓取的信息。比如我想在这个webapp中抓取的信息是：职位名称、公司名称、公司网站、福利、月薪、发布日期、工作地点、工作性质、最低*敏*感*词*、工作类别1、创建一个Struts2 web项目导入需要的架子包2、

　　讲解爬虫基础

　　在本文中，我将编写一个爬虫来爬取钩网的信息并将其存储在数据库中。使用 Struts2 框架。

　　必备知识：了解java语言语法、Html语法。

　　重点：

　　一、指定要抓取的信息。

　　比如我想在这个webapp中抓取的信息是：

　　职位名称、公司名称、公司网站、福利、月薪、发布日期、工作地点、工作性质、最低*敏*感*词*、工作类别

　　1、创建一个Struts2 web项目并导入所需的shelf包

　　2、搭建基本框架

　　3、建立连接

　　使用方法获取连接

　　文档 doc = Jsoup.connect("");

　　Document对象是网页解析后的对象类型，加载后可以输出。

　　输出的时候发现无法得到想要的内容，于是输出了整个网页，看到结果是这样的

　　此时，分析可能的原因。一般来说，网站采用了反爬虫机制。第一个尝试是写浏览器的头文件。

　　文档 doc = Jsoup.connect("").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/ 30.0").get();

　　然后再运行一次就可以得到你想要的了

　　3、分析网页

　　建议您使用谷歌浏览器，F12 分析源码。

　　您可以清楚地看到它的结构，因此无需借用其他工具。

　　元素元素 = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");

　　使用选择器选择此页面上的所有职业信息。Elements 是元素的集合，然后一步一步抓取需要的信息。

　　输出所需信息

　　这样的数据，输出是这样的，我们可以添加到数据库中。

　　这些都没有了。

　　原文地址：~all~es_rank~default-11-79052808.pc_search_all_es&utm_term=java%E7%88%AC%E8%99%AB

　　这个文章网址：

　　类似推荐

0

2022-02-01

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)

0 个评论

发起人

相关问题