js提取指定网站内容(京东资源复制过去使用命令行.js和puppeteer小试牛刀`)

优采云发布时间: 2021-12-15 13:10

　　需要：

　　如果你是技术员，那可以看我下一个文章，否则请直接移到我的github仓库看文档直接使用

　　仓库地址：附文件和源代码

　　此要求中使用的技术：Node.js 和 puppeteer

　　做个小测试，爬取京东资源

const puppeteer = require('puppeteer'); // 引入依赖

(async () => { //使用async函数完美异步

const browser = await puppeteer.launch(); //打开新的浏览器

const page = await browser.newPage(); // 打开新的网页

await page.goto('https://www.jd.com/'); //前往里面 'url' 的网页

const result = await page.evaluate(() => { //这个result数组包含所有的图片src地址

let arr = []; //这个箭头函数内部写处理的逻辑

const imgs = document.querySelectorAll('img');

imgs.forEach(function (item) {

arr.push(item.src)

})

return arr

});

// '此时的result就是得到的爬虫数据，可以通过'fs'模块保存'

})()

　　复制过去，使用命令行命令`node file name`运行获取爬虫数据。这个 puppeteer 包实际上为我们打开了另一个浏览器，重新打开了网页，并获取了他们的数据。

　　注意上面所有的逻辑都是puppeteer包帮助我们在不可见的地方打开另一个浏览器，然后处理逻辑，所以我们最后调用browser.close()方法关闭那个浏览器。

　　这时候我们优化了上一篇的代码，爬取了相应的资源。

const puppeteer = require('puppeteer');

(async () => {

const browser = await puppeteer.launch();

const page = await browser.newPage();

await page.goto('https://www.jd.com/');

const hrefArr = await page.evaluate(() => {

let arr = [];

const aNodes = document.querySelectorAll('.cate_menu_lk');

aNodes.forEach(function (item) {

arr.push(item.href)

})

return arr

});

let arr = [];

for (let i = 0; i < hrefArr.length; i++) {

const url = hrefArr[i];

console.log(url) //这里可以打印

await page.goto(url);

const result = await page.evaluate(() => { //这个方法内部console.log无效

return $('title').text(); //返回每个界面的title文字内容

});

arr.push(result) //每次循环给数组中添加对应的值

}

console.log(arr) //得到对应的数据可以通过Node.js的 fs 模块保存到本地

await browser.close()

})()

　　有一个天坑page.evaluate函数。内部console.log无法打印，内部无法获取外部变量，只能使用return。

　　要使用选择器，必须先到对应界面的控制台测试是否可以选择DOM，然后才能使用。比如京东就不能使用querySelector。这里因为

　　京东的界面使用了jQuery，所以我们可以使用jQuery。简而言之，他们可以开发任何可以使用的选择器。我们可以使用它们，否则我们不能。

　　接下来直接爬取Node.js的官网首页，直接生成PDF

　　无论您是否了解 Node.js 和 puppeteer 爬虫，您都可以做到。请仔细阅读本文档并按顺序执行每个步骤。

　　本项目的实现需求：给我们一个网页地址，抓取他的网页内容，然后输出成我们想要的PDF格式文档，请注意是高质量的PDF文档

　　TIPS：本项目的设计思路是每个网页一个PDF文件，所以每次爬取单个页面时，请复制index.pdf，然后继续更改URL地址，继续爬取，生成一个新的PDF 文件。当然，你也可以通过循环编译等方式一次抓取多个网页生成多个PDF文件。

　　对应京东首页这种图片懒加载的网页，爬取的部分内容是处于加载状态的内容。对于有一些反爬虫机制的网页，爬虫也会有问题，但是绝大多数网站都是有可能的

const puppeteer = require('puppeteer');

const url = require('./url');

(async () => {

const browser = await puppeteer.launch({ headless: true })

const page = await browser.newPage()

//选择要打开的网页

await page.goto(url, { waitUntil: 'networkidle0' })

//选择你要输出的那个PDF文件路径，把爬取到的内容输出到PDF中，必须是存在的PDF，可以是空内容，如果不是空的内容PDF，那么会覆盖内容

let pdfFilePath = './index.pdf';

//根据你的配置选项，我们这里选择A4纸的规格输出PDF，方便打印

await page.pdf({

path: pdfFilePath,

format: 'A4',

scale: 1,

printBackground: true,

landscape: false,

displayHeaderFooter: false

});

await browser.close()

})()

　　文件解构设计

　　数据在这个时代非常宝贵。根据网页的设计逻辑，通过选择特定href的地址，可以直接先获取对应的资源，也可以再次使用page.goto方法进入，然后调用page.evaluate( ) 处理逻辑。或者输出对应的PDF文件，当然也可以一次输出多个PDF文件~

　　这里就不过多介绍了，毕竟Node.js可以上天堂，说不定以后真的什么都可以了。这么高质量的短教程，请采集

　　或者转发给你的朋友，谢谢。

　　以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持面圈教程。

0

2021-12-15

js提取指定网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js提取指定网站内容(京东资源复制过去使用命令行.js和puppeteer小试牛刀`)

0 个评论

发起人

AI时代内容工厂

js提取指定网站内容(京东资源复制过去使用命令行.js和puppeteer小试牛刀`)

0 个评论

发起人

相关问题