搜索引擎如何抓取网页(搜索引擎如何抓取网页内容?(二次压缩)?)

优采云发布时间: 2022-03-09 12:02

　　搜索引擎如何抓取网页内容?先简单地简单的说一下抓取的原理。网页抓取涉及到三个方面：cookie,flashscript,网络协议，然后把上面三个方面的东西编程或者架设一个程序，把文件存入程序里面。记住一定要把程序封装一下，让程序像一个普通的java程序一样运行。如果你想抓取nodejs，python等也都是可以的。

　　上面说的方法和方向错误，不仅抓取效率慢，对页面的后续处理也困难，比如:如何存入数据库？如何加入搜索引擎？如何完善后续页面？如何做bs,cookie,script嵌入？..(未完待续)。

　　选择一种检索方法。比如你这种方法，存入savedata数据库，一天后删除。

　　自己可以实现个网页一键搜索引擎，还可以自动联想，主要是结合数据库。

　　用fiddler2就可以，编程逻辑可以简单理解为将url转换为静态页面（html，css，js）后发送给浏览器的方法。只是这个静态页面也可以自己根据需要二次压缩。这个过程既可以浏览器用，也可以后端用。自己写的话，一般是用解析web请求头，返回解析出来的静态页面，然后依据页面内容有时候会模拟js页面。

　　如果是我的话，我会用数据库读写，数据库不用转换，直接读写cookie。如果是抓取后端不一样的话可以参考@王威的方案，然后配合fiddler2，goagent。具体方案我自己就开发了，

0

2022-03-09

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎如何抓取网页内容?(二次压缩)?)

0 个评论

发起人

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎如何抓取网页内容?(二次压缩)?)

0 个评论

发起人

相关问题