java抓取网页数据(我会不会抓网页的内容,然后把一些表格整理成excel )
优采云 发布时间: 2021-10-12 06:19java抓取网页数据(我会不会抓网页的内容,然后把一些表格整理成excel
)
志超同志今天问我要不要抓取网页的内容,然后把一些表格整理成excel。
嗯,我不会,但我想试试,结果还是可行的。
先说他的需求,他需要把这个网站中的所有公司信息都存储在一个excel表中。
之前没用java来抓取网页内容,但是写过用过,略懂一点。
我找到了这个文章的内容:
然后,删除它的部分代码后,就可以抓取网页的源代码了。
github地址:
其他网址有相应的改编版本
下面是程序执行的第一步,抓取第一页到第22页的内容,并保存公司子页面的链接。
<p>import java.io.BufferedInputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
public class Main {
/**
* 主函数
* @param args
*/
static public void main(String[] args){
String SrcWebSiteUrl = new String("http://www.zjex.com.cn/view/company.php?func=listAll&catalog=0401&page=");
int WebSitePageId = 1;
ArrayList WebUrlArrayList = new ArrayList();
for (WebSitePageId = 1;WebSitePageId '){
IsBlock = false;
}
}
else{
if (TempChar == '