搜索引擎如何抓取网页(搜索引擎如何抓取网页内容?(二次压缩)?)

优采云 发布时间: 2022-03-09 12:02

  搜索引擎如何抓取网页(搜索引擎如何抓取网页内容?(二次压缩)?)

  搜索引擎如何抓取网页内容?先简单地简单的说一下抓取的原理。网页抓取涉及到三个方面:cookie,flashscript,网络协议,然后把上面三个方面的东西编程或者架设一个程序,把文件存入程序里面。记住一定要把程序封装一下,让程序像一个普通的java程序一样运行。如果你想抓取nodejs,python等也都是可以的。

  上面说的方法和方向错误,不仅抓取效率慢,对页面的后续处理也困难,比如:如何存入数据库?如何加入搜索引擎?如何完善后续页面?如何做bs,cookie,script嵌入?..(未完待续)。

  选择一种检索方法。比如你这种方法,存入savedata数据库,一天后删除。

  自己可以实现个网页一键搜索引擎,还可以自动联想,主要是结合数据库。

  用fiddler2就可以,编程逻辑可以简单理解为将url转换为静态页面(html,css,js)后发送给浏览器的方法。只是这个静态页面也可以自己根据需要二次压缩。这个过程既可以浏览器用,也可以后端用。自己写的话,一般是用解析web请求头,返回解析出来的静态页面,然后依据页面内容有时候会模拟js页面。

  如果是我的话,我会用数据库读写,数据库不用转换,直接读写cookie。如果是抓取后端不一样的话可以参考@王威的方案,然后配合fiddler2,goagent。具体方案我自己就开发了,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线