java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)
优采云 发布时间: 2022-02-01 04:04java爬虫抓取网页数据(讲解爬虫基础在本文中我将写一个爬虫网的信息)
解释爬虫的基础 在这篇文章中,我将编写一个爬虫来爬取钩网的信息并将其存储在数据库中。使用 Struts2 框架。必备知识:了解java语言语法、Html语法。输入主题:一、明确要抓取的信息。比如我想在这个webapp中抓取的信息是:职位名称、公司名称、公司网站、福利、月薪、发布日期、工作地点、工作性质、最低*敏*感*词*、工作类别1、创建一个Struts2 web项目导入需要的架子包2、
讲解爬虫基础
在本文中,我将编写一个爬虫来爬取钩网的信息并将其存储在数据库中。使用 Struts2 框架。
必备知识:了解java语言语法、Html语法。
重点:
一、指定要抓取的信息。
比如我想在这个webapp中抓取的信息是:
职位名称、公司名称、公司网站、福利、月薪、发布日期、工作地点、工作性质、最低*敏*感*词*、工作类别
1、创建一个Struts2 web项目并导入所需的shelf包
2、搭建基本框架
3、建立连接
使用方法获取连接
文档 doc = Jsoup.connect("");
Document对象是网页解析后的对象类型,加载后可以输出。
输出的时候发现无法得到想要的内容,于是输出了整个网页,看到结果是这样的
此时,分析可能的原因。一般来说,网站采用了反爬虫机制。第一个尝试是写浏览器的头文件。
文档 doc = Jsoup.connect("").userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/ 30.0").get();
然后再运行一次就可以得到你想要的了
3、分析网页
建议您使用谷歌浏览器,F12 分析源码。
您可以清楚地看到它的结构,因此无需借用其他工具。
元素元素 = doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");
使用选择器选择此页面上的所有职业信息。Elements 是元素的集合,然后一步一步抓取需要的信息。
输出所需信息
这样的数据,输出是这样的,我们可以添加到数据库中。
这些都没有了。
原文地址:~all~es_rank~default-11-79052808.pc_search_all_es&utm_term=java%E7%88%AC%E8%99%AB
这个 文章 网址:
类似推荐