浏览器抓取网页(面试时说说思路和想法就行了,还要回去做个东西给他?)
优采云 发布时间: 2021-10-09 03:00浏览器抓取网页(面试时说说思路和想法就行了,还要回去做个东西给他?)
关于收到的页面,如何分析过滤,我的想法不是很新鲜,欢迎大家给我各种建议,有需要注意的地方提醒一下!
- - - 解决方案 - - - - - - - - - -
建议楼主找新公司。
这是什么?就在面试的时候说说你的想法和想法,然后回去给他做点什么?
- - - 解决方案 - - - - - - - - - -
你可以把它做成一个中转站,接受客户的请求,然后自己把请求发给百度,然后得到他的回应
然后处理响应流...至于处理方法...
我自己没有太多经验。你问的专家在他的网站上有他自己的上传文件的源代码。有一些代码用于处理这些流。您可以参考以下内容。
- - - 解决方案 - - - - - - - - - -
1 次抓取
2 正则匹配
超过
- - - 解决方案 - - - - - - - - - -
过来看看热闹。. 对了,老子竹不是有网页爬虫系统吗?. 或者我错了。.
- - - 解决方案 - - - - - - - - - -
我记得有一根竹子。你去他的网站看看。
- - - 解决方案 - - - - - - - - - -
讨论
1 次抓取
2 正则匹配
超过
- - - 解决方案 - - - - - - - - - -
正则表达式
- - - 解决方案 - - - - - - - - - -
我不认为这很难,对吧,
首先使用流的内容到网页,
第二种是将title设置为关键字,并使用常规的title值,
- - - 解决方案 - - - - - - - - - -
哈哈,这很有趣。我们的项目经理还说那天我们可以自由地做这样的事情。大部分代码都在,不过只是项目中的代码,没办法暴露,哈哈。
- - - 解决方案 - - - - - - - - - -
建议你去车东的网站,
- - - 解决方案 - - - - - - - - - -
讨论
引用:
1 次抓取
2 正则匹配
超过
哪一种更有效率?? ?
- - - 解决方案 - - - - - - - - - -
贼
常规的
- - - 解决方案 - - - - - - - - - -
1.分析百度搜索时如何发送请求
2.使用您指定的关键字伪造请求
3.使用apache common-httpclient(我忘了是不是这个)获取百度网页的内容
4.使用正则表达式抓取网页内容
- - - 解决方案 - - - - - - - - - -
经过。. . 研究了一下,好像前几天刚看到类似的问题,
AJAX取结果,正则法等方法处理结果流,显示处理结果,结果有多页的情况如何处理?
- - - 解决方案 - - - - - - - - - -
当有多个页面时,先用正则表达式获取网页下页码的url,循环获取,然后重复发送网页请求。定期获取您想要的内容。Lucene 是个好东西。如果你需要工作,你可以好好看看。但是既然你需要把关键字Send it to baidu 百度会给你做的检索工作或者不使用它。学习这个东西需要时间。
- - - 解决方案 - - - - - - - - - -
常规~
- - - 解决方案 - - - - - - - - - -
你用httpclient模拟cookies等抓取整个数据,然后定时匹配抓取相关的!我刚做了这个东西!但是有验证码有点难啊!
- - - 解决方案 - - - - - - - - - -
不知道,楼主已经解决了,建议你去看看Nutch,这是一个从抓取网页到页面分析,再到构建搜索,再到查询的完整实现的搜索引擎。它是开源的。
引用:
引用:
1 次抓取
2 正则匹配
超过
哪一种更有效率?? ?
发帖人的思路其实就是这两个步骤的具体解释,1.抓取,就是发帖人说的:“网络爬虫”。
我是这样想的:1.做一个jsp页面,在里面输入一条信息,然后转发到百度。
2. 然后接收并下载返回的页面。
2、正则匹配指的是楼主提到的:3.将返回的html页面作为xml文件一一分析过滤。
4. 把过滤后的数据整理出来,提取我需要的部分
然后返回自己的jsp页面进行展示!这一步其实就是nutch的查询
上面的东西已经nutch实现了,可以参考
- - - 解决方案 - - - - - - - - - -