网站内容抓取(这是什么?这是一个issue,文章转为测试用:issue )

优采云 发布时间: 2021-11-04 06:16

  网站内容抓取(这是什么?这是一个issue,文章转为测试用:issue

)

  这是什么?

  这是一个github动作,使用issue在互联网上归档文章。您可以将 文章 转换为用于持久存储的问题。配置了这个动作的仓库在创建问题时会触发爬取,新创建的问题下会跟进文章的内容。可以看到爬取的样本:

  这个动作支持什么网站?

  目前改编的网站:

  如何配置?创建一个新的代码仓库,这个仓库将用于存储捕获的文件,它可以是一个私有仓库。在操作选项卡中设置工作流,选择简单工作流或任何一个。用内容替换编辑器中的内容,然后保存。怎么用?

  在代码仓库新建一个issue,在title或body中写上要爬取的文章链接,提交即可触发爬取。通常需要一分钟,在操作选项卡下可以看到抓取过程。

  开发

  添加爬取的配置,可以在websites文件夹新建一个文件,文件名将作为网站名称后面引用。 网站配置文件的格式为:

  boolean, // 给定一个网址,用于检测是否属于当前配置 网站 process: (string) => {// 给定一个网址,抓取文章的内容,返回值应该是一个对象 title: string, author: string || null, dom: HTMLElement, // 表示文章内容的jsdom对象 date: string || null // 文章在原网站date on} samples: Array // 链接到示例 URL}">

  {

test: (string) => boolean, // 给定一个网址,用来检测属不属于当前配置的网站

process: (string) => { // 给定一个网址,抓取文章内容,返回值应为一个对象

title: string,

author: string || null,

dom: HTMLElement, // 代表文章内容的jsdom对象

date: string || null // 文章在原网站上的日期

}

samples: Array // 示例网址的链接

}

  测试命令:

  npm run test-website weixin # 使用website配置里的samples进行抓取测试

npm run determine-website https://mp.weixin.qq.com/s # 确定一个url使用的website

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线