php抓取网页程序(一天就能上线一个微信小程序,你准备好了吗?)
优采云 发布时间: 2022-04-18 11:39php抓取网页程序(一天就能上线一个微信小程序,你准备好了吗?)
最近在研究微信小程序的云开发功能。云开发最大的优势是无需搭建前端服务器,利用云能力从零开始编写在线微信小程序,避免了购买服务器的成本。对于尝试从前端到后端开发实践微信小程序的个人来说是一个不错的选择。一天之内可以推出一个微信小程序。
云开发的优势
云开发为开发者提供完整的云支持,弱化后端和运维的概念,无需搭建服务器,利用平台提供的API进行核心业务开发,实现快速上线和迭代。使用的云服务相互兼容,而不是相互排斥。
云开发目前提供三种基本能力支持:
云功能:代码运行在云端,微信私有协议自然认证,开发者只需要编写自己的业务逻辑代码数据库:可以在小程序前端操作,也可以读取的JSON数据库并写在云功能Storage中:在小程序前端直接上传/下载云文件,在云开发控制台中可视化管理
好了,介绍了这么多关于云开发的知识,感性的同学可以去研究一下。官方文档地址:
网页内容抓取
小程序是关于回答问题的,所以问题的来源是问题。在网上搜索,一个话题一个话题贴是一种方法,但是估计这样重复的工作大概10贴左右就放弃了。所以想到了网络抓取。刚拿起之前学过的节点。
必备工具:Cheerio。一个类似于服务器端 JQuery 的包。主要用于分析和过滤爬取的内容。Node 的 fs 模块。这是node自带的一个模块,用来读写文件。这用于将解析后的数据写入 json 文件。Axios(可选)。用于抓取 网站 的 HTML 页面。因为我想要的数据是在网页上点击一个按钮后获取并渲染的,所以无法直接爬取这个网址。无奈,只能复制自己想要的内容,保存为字符串,解析字符串。
接下来可以使用npm init来初始化一个node项目,一路回车后,就可以生成一个package.json文件了。
然后 npm install --save axioscheerio 安装cheerio 和 axios 包。
关键是使用cheerio来实现一个类似jquery的功能。你只需要cheerio.load(quesitons)抓取到的内容,然后你就可以根据jquery的操作去获取DOM,组装你想要的数据。
最后,使用 fs.writeFile 将数据保存到 json 文件中,大功告成。
具体代码如下:
让 axios = 要求(axios);
让cheerio = 要求(cheerio);
让 fs = 要求(fs);
// 我的html结构大致如下,有很多条数据
常量问题 = `
`;
常量 $ = Cheerio.load(问题);
var arr = [];
对于 (var i = 0; 我
变量 obj = {};
obj.questions = $(#q + i).find(.question).text();
obj.A = $($(#q + i).find(.answer)[0]).text();
obj.B = $($(#q + i).find(.answer)[1]).text();
obj.C = $($(#q + i).find(.answer)[2]).text();
obj.D = $($(#q + i).find(.answer)[3]).text();
obj.index = i + 1;
obj.answer=
$($(#q + i).find(.answer)[0]).attr(value) == 1
: $($(#q + i).find(.answer)[1]).attr(value) == 1
: $($(#q + i).find(.answer)[2]).attr(value) == 1
:D;
arr.push(obj);
}
fs.writeFile(poem.json, JSON.stringify(arr), err => {
if (err) 抛出错误;
console.log(json文件保存成功!);
});
保存为json后的文件格式如下,这样就可以通过json文件上传到云服务器了。
防范措施
对于微信小程序云开发的数据库,需要注意上传的json文件的数据格式。之前总是提示格式错误。后来发现JSON数据不是数组,而是类似于JSON Lines,即每个记录对象用n隔开,而且不是逗号。因此,在上传成功之前,需要对node写入的json文件进行一个小处理。