网站内容抓取(这是什么？这是一个issue，文章转为测试用：issue )

优采云发布时间: 2021-11-04 06:16

　　网站内容抓取(这是什么？这是一个issue，文章转为测试用：issue

)

　　这是什么？

　　这是一个github动作，使用issue在互联网上归档文章。您可以将文章转换为用于持久存储的问题。配置了这个动作的仓库在创建问题时会触发爬取，新创建的问题下会跟进文章的内容。可以看到爬取的样本：

　　这个动作支持什么网站？

　　目前改编的网站：

　　如何配置？创建一个新的代码仓库，这个仓库将用于存储捕获的文件，它可以是一个私有仓库。在操作选项卡中设置工作流，选择简单工作流或任何一个。用内容替换编辑器中的内容，然后保存。怎么用？

　　在代码仓库新建一个issue，在title或body中写上要爬取的文章链接，提交即可触发爬取。通常需要一分钟，在操作选项卡下可以看到抓取过程。

　　开发

　　添加爬取的配置，可以在websites文件夹新建一个文件，文件名将作为网站名称后面引用。网站配置文件的格式为：

　　boolean, // 给定一个网址，用于检测是否属于当前配置网站 process: (string) => {// 给定一个网址，抓取文章的内容，返回值应该是一个对象 title: string, author: string || null, dom: HTMLElement, // 表示文章内容的jsdom对象 date: string || null // 文章在原网站date on} samples: Array // 链接到示例 URL}">

　　{

test: (string) => boolean, // 给定一个网址，用来检测属不属于当前配置的网站

process: (string) => { // 给定一个网址，抓取文章内容，返回值应为一个对象

title: string,

author: string || null,

dom: HTMLElement, // 代表文章内容的jsdom对象

date: string || null // 文章在原网站上的日期

}

samples: Array // 示例网址的链接

}

　　测试命令：

　　npm run test-website weixin # 使用website配置里的samples进行抓取测试

npm run determine-website https://mp.weixin.qq.com/s # 确定一个url使用的website

0

2021-11-04

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(这是什么？这是一个issue，文章转为测试用：issue )

0 个评论

发起人

AI时代内容工厂

网站内容抓取(这是什么？这是一个issue，文章转为测试用：issue )

0 个评论

发起人

相关问题