抓取网页新闻(网上谷歌人家的开发经验写下来与别人分享下。)

优采云发布时间: 2021-10-14 08:12

　　我已经工作近两年了，我一直在学习谷歌人在互联网上的经验。这次也把自己的开发心得写下来分享给大家。很快，我换了一份新工作，新公司刚结束了一个网站。网站新闻内容是自己编辑添加的，都是手动的，所以我接受任务，做一个自动更新新闻内容的功能。

　　开始整理思路，第一步通过网站URL获取整个网站新闻链接的所有URL，第二步将获取到的URL返回到其源码中，第三步解析源代码中的内容和标题，第四步存入数据库。最后，使用java timer自动更新。

　　过程中最棘手的部分是解析HTML源代码，果断决定用htmlparser，废话少说，上部分代码。部分代码注释写得不好，请指教。

/** * 返回网页中所有URL * @return type:NodeList */ public static NodeList getAllUrl(String Url) throws Exception { //使用htmlparser获取 Parser parser = new Parser(); parser.setResource(Url); //待定的编码格式 parser.setEncoding("gbk"); //遍历所有节点自定义内部类(自定义过滤器) NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter() { private static final long serialVersionUID = 1L; public boolean accept(Node node) { //判断node是否是LinkTag的一个实例 if (node instanceof LinkTag) return true; else{ return false; } } }); return nodeList; }

/* * 返回新闻内容 */ public static String getContent(String urlpath){ Parser parser = new Parser(); String content = ""; try { parser.setResource(urlpath);//传入url NodeFilter divFilter = new NodeClassFilter(Div.class);//自定义过滤器 NodeList divlist = parser.parse(divFilter);//加载过滤器 for(int i=0;i

0

2021-10-14

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(网上谷歌人家的开发经验写下来与别人分享下。)

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(网上谷歌人家的开发经验写下来与别人分享下。)

0 个评论

发起人

相关问题