输入关键字 抓取所有网页(输入关键字抓取所有网页内容,存入mongodb,全文抓取)

优采云 发布时间: 2021-11-25 12:04

  输入关键字 抓取所有网页(输入关键字抓取所有网页内容,存入mongodb,全文抓取)

  输入关键字抓取所有网页内容,存入mongodb,全文抓取。把一些长文爬下来转换成xml格式存到mongodb。网页内容有变化,

  node.js要写原生的js代码。

  你可以试试mongualjs/mongodb,前端可以基于php用cordova接收用户请求,后端依赖mongodb的restful接口。简单易用,部署不复杂。原理上讲,拿到的content-type就是post,如果想跳转到get,可以使用router。还可以hook操作一些urlpost参数。

  我们这边有一种思路是用javascript写一个restfulapiapiviewer+websocketapiserver,可以测试分析不同url的内容可以快速抓取post和get以及http/2的请求,具体看我们的文章。

  可以基于某种http协议自定义get、post或者http/2请求。

  主要用于海外博客的内容抓取,目前我们在做跨语言跨文本传输的接入,已经做好通用版本的接入,可以自己考虑。

  有requests/postman这类工具可以把requests的api提供给nodejs来实现一些基本的功能,将传输的各种请求的xml文件序列化到mongodb中进行存储,

  http的restapi已经很好用了,比如zencart的支持在线下载文章。但是博客站的话,最好是在代码上实现,一切直接在requests传给nodejs,再在nodejs进行处理。这样效率比较高,php去实现是有点慢的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线