从网页抓取数据(【技巧】从网页抓取数据的话,原理很简单)

优采云 发布时间: 2021-12-11 03:00

  从网页抓取数据(【技巧】从网页抓取数据的话,原理很简单)

  从网页抓取数据的话,原理很简单,是因为爬虫在爬取这个网页的时候,总会对网页源代码进行解析,而这个解析是一个很简单的方法就是使用js动态生成,比如webpack就可以对assets/js文件进行构建,然后从webpack.config.js文件中获取文件配置信息或文件体积信息,从而完成对文件的获取。这个解析动作,为我们做数据抓取提供了很好的途径。

  网页全生成下来,并打包在浏览器打开,那么这个网页就是一个dom对象,那么我们就可以进行对它的dom操作,例如做上标、下标的操作,方法就是生成锚点,然后进行上下标操作。这里面要注意几点,我们不能为了上下标操作,而生成xpath这种不规范的文档类型,要不得到的就是一堆不规范的属性名。每次只需要将要操作的文档绑定到事件就行,只要是浏览器就可以执行。

  从http获取数据,我的理解大概有三种方式:方式一:在项目的根目录生成一个js文件,然后对这个js文件进行解析,获取网页中的数据。例如taobao.js。方式二:在项目的根目录生成一个js文件,然后对这个js文件进行解析,获取网页中的数据。例如京东.js。方式三:爬虫所有的请求,都是一个json对象,这些json对象,是提供了一些信息的,同时也是一个数据库。

  我们可以通过数据库来爬取数据,爬取成功后通过jsonp的方式返回结果到http中,就可以解析了。当然,其实还有一些别的方式,只是我现在用的最多的就是前两种。但是,如果想要了解更多,可以先去看一下这篇文章,很短,但可以了解下基本技术。爬虫在抓取京东的数据一次爬取京东的上百万条数据的详细方法和注意事项-呆顶兔-博客园呆顶兔-博客园。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线