浏览器抓取网页(面试时说说思路和想法就行了，还要回去做个东西给他？)

优采云发布时间: 2021-10-09 03:00

　　关于收到的页面，如何分析过滤，我的想法不是很新鲜，欢迎大家给我各种建议，有需要注意的地方提醒一下！

　　- - - 解决方案 - - - - - - - - - -

　　建议楼主找新公司。

　　这是什么？就在面试的时候说说你的想法和想法，然后回去给他做点什么？

　　- - - 解决方案 - - - - - - - - - -

　　你可以把它做成一个中转站，接受客户的请求，然后自己把请求发给百度，然后得到他的回应

　　然后处理响应流...至于处理方法...

　　我自己没有太多经验。你问的专家在他的网站上有他自己的上传文件的源代码。有一些代码用于处理这些流。您可以参考以下内容。

　　- - - 解决方案 - - - - - - - - - -

　　1 次抓取

　　2 正则匹配

　　超过

　　- - - 解决方案 - - - - - - - - - -

　　过来看看热闹。. 对了，老子竹不是有网页爬虫系统吗？. 或者我错了。.

　　- - - 解决方案 - - - - - - - - - -

　　我记得有一根竹子。你去他的网站看看。

　　- - - 解决方案 - - - - - - - - - -

　　讨论

　　1 次抓取

　　2 正则匹配

　　超过

　　- - - 解决方案 - - - - - - - - - -

　　正则表达式

　　- - - 解决方案 - - - - - - - - - -

　　我不认为这很难，对吧，

　　首先使用流的内容到网页，

　　第二种是将title设置为关键字，并使用常规的title值，

　　- - - 解决方案 - - - - - - - - - -

　　哈哈，这很有趣。我们的项目经理还说那天我们可以自由地做这样的事情。大部分代码都在，不过只是项目中的代码，没办法暴露，哈哈。

　　- - - 解决方案 - - - - - - - - - -

　　建议你去车东的网站，

　　- - - 解决方案 - - - - - - - - - -

　　讨论

　　引用：

　　1 次抓取

　　2 正则匹配

　　超过

　　哪一种更有效率？? ?

　　- - - 解决方案 - - - - - - - - - -

　　贼

　　常规的

　　- - - 解决方案 - - - - - - - - - -

　　1.分析百度搜索时如何发送请求

　　2.使用您指定的关键字伪造请求

　　3.使用apache common-httpclient（我忘了是不是这个）获取百度网页的内容

　　4.使用正则表达式抓取网页内容

　　- - - 解决方案 - - - - - - - - - -

　　经过。. . 研究了一下，好像前几天刚看到类似的问题，

　　AJAX取结果，正则法等方法处理结果流，显示处理结果，结果有多页的情况如何处理？

　　- - - 解决方案 - - - - - - - - - -

　　当有多个页面时，先用正则表达式获取网页下页码的url，循环获取，然后重复发送网页请求。定期获取您想要的内容。Lucene 是个好东西。如果你需要工作，你可以好好看看。但是既然你需要把关键字Send it to baidu 百度会给你做的检索工作或者不使用它。学习这个东西需要时间。

　　- - - 解决方案 - - - - - - - - - -

　　常规~

　　- - - 解决方案 - - - - - - - - - -

　　你用httpclient模拟cookies等抓取整个数据，然后定时匹配抓取相关的！我刚做了这个东西！但是有验证码有点难啊！

　　- - - 解决方案 - - - - - - - - - -

　　不知道，楼主已经解决了，建议你去看看Nutch，这是一个从抓取网页到页面分析，再到构建搜索，再到查询的完整实现的搜索引擎。它是开源的。

　　引用：

　　1 次抓取

　　2 正则匹配

　　超过

　　哪一种更有效率？? ?

　　发帖人的思路其实就是这两个步骤的具体解释，1.抓取，就是发帖人说的：“网络爬虫”。

　　我是这样想的：1.做一个jsp页面，在里面输入一条信息，然后转发到百度。

　　2. 然后接收并下载返回的页面。

　　2、正则匹配指的是楼主提到的：3.将返回的html页面作为xml文件一一分析过滤。

　　4. 把过滤后的数据整理出来，提取我需要的部分

　　然后返回自己的jsp页面进行展示！这一步其实就是nutch的查询

　　上面的东西已经nutch实现了，可以参考

　　- - - 解决方案 - - - - - - - - - -

0

2021-10-09

浏览器抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

浏览器抓取网页(面试时说说思路和想法就行了，还要回去做个东西给他？)

0 个评论

发起人