浏览器抓取网页(面试时说说思路和想法就行了,还要回去做个东西给他?)

优采云 发布时间: 2021-10-09 03:00

  浏览器抓取网页(面试时说说思路和想法就行了,还要回去做个东西给他?)

  关于收到的页面,如何分析过滤,我的想法不是很新鲜,欢迎大家给我各种建议,有需要注意的地方提醒一下!

  - - - 解决方案 - - - - - - - - - -

  建议楼主找新公司。

  这是什么?就在面试的时候说说你的想法和想法,然后回去给他做点什么?

  - - - 解决方案 - - - - - - - - - -

  你可以把它做成一个中转站,接受客户的请求,然后自己把请求发给百度,然后得到他的回应

  然后处理响应流...至于处理方法...

  我自己没有太多经验。你问的专家在他的网站上有他自己的上传文件的源代码。有一些代码用于处理这些流。您可以参考以下内容。

  - - - 解决方案 - - - - - - - - - -

  1 次抓取

  2 正则匹配

  超过

  - - - 解决方案 - - - - - - - - - -

  过来看看热闹。. 对了,老子竹不是有网页爬虫系统吗?. 或者我错了。.

  - - - 解决方案 - - - - - - - - - -

  我记得有一根竹子。你去他的网站看看。

  - - - 解决方案 - - - - - - - - - -

  讨论

  1 次抓取

  2 正则匹配

  超过

  - - - 解决方案 - - - - - - - - - -

  正则表达式

  - - - 解决方案 - - - - - - - - - -

  我不认为这很难,对吧,

  首先使用流的内容到网页,

  第二种是将title设置为关键字,并使用常规的title值,

  - - - 解决方案 - - - - - - - - - -

  哈哈,这很有趣。我们的项目经理还说那天我们可以自由地做这样的事情。大部分代码都在,不过只是项目中的代码,没办法暴露,哈哈。

  - - - 解决方案 - - - - - - - - - -

  建议你去车东的网站,

  - - - 解决方案 - - - - - - - - - -

  讨论

  引用:

  1 次抓取

  2 正则匹配

  超过

  哪一种更有效率?? ?

  - - - 解决方案 - - - - - - - - - -

  贼

  常规的

  - - - 解决方案 - - - - - - - - - -

  1.分析百度搜索时如何发送请求

  2.使用您指定的关键字伪造请求

  3.使用apache common-httpclient(我忘了是不是这个)获取百度网页的内容

  4.使用正则表达式抓取网页内容

  - - - 解决方案 - - - - - - - - - -

  经过。. . 研究了一下,好像前几天刚看到类似的问题,

  AJAX取结果,正则法等方法处理结果流,显示处理结果,结果有多页的情况如何处理?

  - - - 解决方案 - - - - - - - - - -

  当有多个页面时,先用正则表达式获取网页下页码的url,循环获取,然后重复发送网页请求。定期获取您想要的内容。Lucene 是个好东西。如果你需要工作,你可以好好看看。但是既然你需要把关键字Send it to baidu 百度会给你做的检索工作或者不使用它。学习这个东西需要时间。

  - - - 解决方案 - - - - - - - - - -

  常规~

  - - - 解决方案 - - - - - - - - - -

  你用httpclient模拟cookies等抓取整个数据,然后定时匹配抓取相关的!我刚做了这个东西!但是有验证码有点难啊!

  - - - 解决方案 - - - - - - - - - -

  不知道,楼主已经解决了,建议你去看看Nutch,这是一个从抓取网页到页面分析,再到构建搜索,再到查询的完整实现的搜索引擎。它是开源的。

  引用:

  引用:

  1 次抓取

  2 正则匹配

  超过

  哪一种更有效率?? ?

  发帖人的思路其实就是这两个步骤的具体解释,1.抓取,就是发帖人说的:“网络爬虫”。

  我是这样想的:1.做一个jsp页面,在里面输入一条信息,然后转发到百度。

  2. 然后接收并下载返回的页面。

  2、正则匹配指的是楼主提到的:3.将返回的html页面作为xml文件一一分析过滤。

  4. 把过滤后的数据整理出来,提取我需要的部分

  然后返回自己的jsp页面进行展示!这一步其实就是nutch的查询

  上面的东西已经nutch实现了,可以参考

  - - - 解决方案 - - - - - - - - - -

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线