最新版本:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

优采云 发布时间: 2022-10-26 00:32

  最新版本:WordPress胖鼠采集插件教程-WP自动采集和发布微信公众号,简书

  WordPress原本是一个博客,但由于其强大的功能和众多的用户,WordPress已经成为了一个cms平台,一些公司甚至使用WordPress进行网站建设,这真是无处不在。采集建筑工地用wordpress,一直在做垃圾站的朋友都在用。

  一方面,Wordpress本身的SEO相当不错,有利于搜索引擎收录和SEO排名;好复杂的配置,就算是新手也能搭建一个自动采集每天自动发布的网站,放个小广告“坐享其成”。

  WordPress采集的插件很多,但基本上都是付费的。本文文章主要是分享WordPress新版采集插件-胖鼠标采集,开源免费,支持所有网站列表详情页,有以下功能批量自动采集、自动发布、自动标注等。可用于采集微信公众号、短书等各种网站。

  关于采集信息的采集和自动化,还可以看:

  用Huginn抢任意网站RSS和微信公众号更新——搭建一站式信息阅读平台自建RSS阅读器Tiny Tiny RSS安装配置自动更新、全文RSS、换主题、手机RSS登录VPS主机库存发货监控及微信\TG通知系统:VPS-Inventory-Monitoring安装配置

  PS:2020年3月23日更新,好的插件也需要好的主题。国外WordPress主题市场相对成熟。我们可以试试:WordPress付费主题平台AppThemes:主题购买、安装、升级及问题。

  1. WP Fat Mouse 采集 插件安装

  插入:

  WordPress Fat Mouse 采集 插件推荐使用 PHP 7。如果您的PHP版本低于PHP7,请移步肥鼠Github采集下载使用肥鼠v5版本分支名称:based_php_5.6,系统要求如下:

  PHP >= 5.6

  查询列表 v4

  mysql不需要

  Nginx 没有要求

  WordPress Fat Mouse 采集插件的主要功能如下:

  微信公众号文章采集,简书文章采集,列表页文章批量采集。

  详情页文章采集,分页爬取——历史数据,别放过。

  自动采集,自动发布,文章自动添加动态内容优化SEO。

  自动标记自动标记,文章 过滤,自动精选图像。

  内容关键字过滤替换 伪原创 ,自定义 采集any网站 。

  WordPress Fat Mouse 采集 插件主要有以下几个部分:

  ①爬虫模块,Pioneer配置模块的各种特色配置,用于搜寻数据。

  ② 配置模块,支持爬虫模块为他提供采集规则核心能量。

  ③ 数据模块,数据 该模块具有胖鼠的各种特色发布功能。

  安装Wordpress Fat Mouse 采集插件后,如下图所示:

  2. WP Fat Mouse 采集 插件操作 2.1 配置中心

  在 WP Fat Mouse 采集 插件配置中心,已经配置了 采集 规则。Wordpress Fat Mouse 采集插件自带几个配置,可以先点击导入。(点击放大)

  2.2 采集 中心

  在采集中心,可以启动采集文章,Wordpress胖鼠标采集插件分为list采集和details采集, list采集可以批量采集某个网站,详情采集是采集的某个页面。

  2.3 数据中心

  采集完成后可以到数据中心查看已经采集到的文章,点击这里发布。(点击放大)

  WordPress Fat Mouse 采集Plugins采集 和 Publishing文章 运行良好。

  这是Wordpress胖鼠标采集插件采集文章的详情页,完全把网站的文章采集带过来了。

  3. WP胖鼠采集微信公众号

  WordPress的采集微信公众号的文章也很简单,先找到你想要的采集的微信公众号文章。

  然后在“采集中心”填写微信公众号文章的网址,支持批量添加多个网址,点击采集。

  采集完成后,即可从采集发布微信公众号文章。如下所示:

  

  4. WP胖老鼠采集小册子知乎

  WordPress采集简书、知乎等类似上面的采集微信公众号文章,直接输入网址采集即可。

  5. WP自定义采集any网站

  WordPress Fat Mouse 采集 插件自带的几个配置文件其实是给我们演示的。真正的威力是我们自己定制的 Wordpress Fat Mouse 采集plugin采集rules,采集Any网站Content(非 AJax)。

  5.1 新建采集规则

  在Wordpress Fat Mouse 采集插件中新建采集规则,这里以采集文章为例,先命名,选择列表配置(文章 很多,选择这个Batch 采集),其他的保持如下图:

  然后填写采集地址、范围、采集规则等,如下图:

  一般来说,采集规则需要多次测试才能成功,所以在创建新规则之前,我们先开启插件的Debug模式,具体结果在Chrome的网络一栏查看浏览器元素。

  5.2 列出采集 规则

  采集 范围是 Wordpress Fat Mouse 采集 插件 采集 所需的 URL 列表。首页最新的文章标题以H2+URL的形式嵌套(点击放大)。)。

  所以我这里填写采集的范围:#cat_all >.news-post.article-post > .row > .col-sm-7 > .post-content > h2,这个路径不需要手动完成。你可以直接在Chrome评论元素底部看到,注意上图。

  在列表中写采集规则:a:eq(0) href,href表示选择a标签的href属性(即URL),我们使用jquery的eq语法a:eq(0 ) 表示取 H2 区域的第一部分 a。注意:如果目标站链接是相对链接,则代码从0开始(只有一个a标签只能填写a)。该程序将自动完成。

  在Debgu模式下,我们可以看到我们已经获取到了首页最新的文章栏下所有文章的URL地址。

  5.3 详情采集规则

  上面我们有采集列表下的所有URL,那么我们需要采集该URL下文章的内容。打开某个文章,发现标题在.title-post,文章的内容在.the-content。并且标题和内容都在 .single-post-box 下。

  标题。现在我们可以为采集标题写规则如下:范围是.single-post-box,选择器是.title-post,属性是文本。

  在 Debug 模式下,我们可以看到我们成功获取了 文章 标题。

  内容。采集内容规范写成:范围是.single-post-box,选择器是.the-content,属性是html。文章的内容成功获取如下。

  最后,采集Latest文章栏下的所有文章规则如下:(点击放大)

  6. WP自定义采集成功效果

  在采集中心,点击我们刚刚配置的列表采集config。

  稍等片刻,Wordpress Fat Mouse 采集 插件就会把最新的文章all采集 带过来。

  点击发布,采集成功。

  7. WP Custom 采集 Rules Question 7.1 参数和属性

  WordPress Fat Mouse 采集 插件需要三个参数:

  link 采集链接一般取a标签的href属性

  title 标题一般取详情页h1标签的text属性

  内容内容一般采用详情页的 .content 标签中的 html 属性。

  WordPress Fat Mouse 采集 插件属性解释如下:

  href基本是指a标签的href属性(这个属性存放的是点击后的跳转地址)

  

  text 取区域的文本,一般用于标题

  html fetch区的所有html一般都是用来获取内容的,内容比较多。而且内容有布局,image css js里有很多东西。所以要获取所有原创的html

  7.2 jQuery 选择器

  :first、:last、:odd 等几个 jQuery 选择器在下面的内容过滤中非常有用,大家可以熟悉一下。

  8. WP Fat Mouse采集 优化方法 8.1 内容过滤

  正文内容收录作者信息、广告、版权声明等无用信息,我们需要从正文内容中过滤掉这些内容。如何使用标签过滤?基本方法如下:

  a是去掉区域内所有的a标签跳转功能。保留文字。

  -a 删除a标签包括删除a标签中收录的内容(不推荐,因为a中删除了一些图片,a中的图片就没有了。)

  -div 删除所有 div

  -p 同上

  -b 同上

  -span 如上

  -p:先删除第一个p标签

  -p:last 删除最后一个 p 标签

  -p:eq(-2) 删除最后两个p

  -p:eq(2) 删除正两个p

  比如我写的过滤规则: -div#ftwp-container-outer -div#sociables -div.uc-favorite-2.uc-btn -p:last -ol:first ,意思是删除#ftwp-container -outer , #socialables, .uc-favorite-2.uc-btn 三个Div的内容,同时删除最后一个P和第一个ol列表。

  8.2 URL自动转换拼音

  Wenprise 拼音蛞蝓

  WordPress Fat Mouse 采集 插件设置的标题收录文本。我们可以使用 Wenprise Pinyin Slug 让 WordPress 自动将 文章 别名更改为英文或拼音。

  8.3 自动添加标签

  简单标签

  WordPress Fat Mouse 采集 插件有自己的自动标记功能。如果你觉得不好用,可以使用 WP 自动标签插件 Simple Tags 为你的文章自动生成标签,自动添加链接地址等。

  8.4 自动设置特*敏*感*词*片

  快速精选图片

  Quick Featured Images 帮助您为自动 采集 和发布的 文章 设置特*敏*感*词*像。

  9. WP Auto采集 和自动发布

  插入:

  WordPress Fat Mouse 采集 插件可以设置自动采集 频率。

  WordPress Fat Mouse 采集 插件还可以设置自动发布间隔。

  要更改自动采集 和自动发布的时间,您可以使用 WP Crontrol 插件,启用该插件后,应该能够看到 WordPress网站 上发生的所有“歪曲任务”。

  点击编辑定时任务(Wordpress胖鼠标采集插件定时任务以fc开头),这里可以设置自动采集和自动发布的时间。

  10. 总结

  WordPress Fat Mouse 采集插件很强大,只要你要采集的页面不是Ajax,就可以使用WordPress Fat Mouse采集插件自动采集并发布文章,为了防止被搜索引擎发现,还可以替换链接和关键字,在页面前后插入一定的内容,形成“伪原创”。

  WordPress Fat Mouse 采集 插件目前没有监控功能,即无法在某个网站 内容更新时自动跳转到采集。我们可以用规则写进去。一般来说,第一篇文章就是最近更新的文章。这时候我们可以把采集的范围缩小到第一个H2区域,写成如下:

  #cat_all > div:nth-child(1) > div > div.col-sm-7 > div > h2

  文章发件人:Dug Station No,保留所有权利。本站文章为作者原创文章除非注明出处,可自由引用,但请注明出处。部分内容引用自:.

  最新版:[内附完整源码和文档] 基于python的新闻检索系统

  1 系统介绍

  1.1 系统要求

  新闻检索系统:以采集不少于4个中文社会新闻网站或频道为目标,实现对这些网站新闻信息和评论信息的自动抓取、提取、索引和检索。本项目没有使用成熟的开源框架,如 lucene 和 Goose。

  1.2 系统思路与框架

  本系统整体实现思路如图1所示:

  一个完整的搜索系统的主要步骤是:

  爬取新闻网页获取语料库

  提取新闻的主要内容得到结构化的xml数据

  内存中单遍扫描索引构建方法构建倒排索引供检索模块使用

  用户输入查询,相关文档返回给用户

  2 设计方案

  2.1 新闻抓取

  

  2.1.1 算法简介

  本模块获取搜狐、网易、腾讯三大主流新闻网站和官方参考新闻网站的新闻。并基于其网站结构,设计了不同的爬取模式。由于网站的结构相似,所以选取两种类型的典型代表如下:

  (1) 搜狐新闻

  除了普通的首页,搜狐新闻还有一个隐藏列表式的新闻页面,比如/1/0903/62/subject212846206.shtml。

  (2) 网易新闻

  网易新闻和腾讯新闻属于一般类型的新闻首页,我们采用广度优先的从新闻首页开始的递归爬取策略。请注意,新闻的正文页面通常是静态网页。

  对于一些不是新闻的错误分类页面,通过检查新闻正文标签来检查容错性

  将被删除。

  在新闻正文页面中,我们关注内容、时间和评论获取。

  2.1.2 创新

  实现动态加载新闻页面评论的爬取,如搜狐新闻评论爬取

  在没有开源新闻爬取工具的帮助下,实现了对新闻标题、文字、时间、评论内容、评论数量的高效爬取。

  2.2 索引构建

  

  分词,我们使用开源的jieba中文分词组件来完成,jieba分词可以将一个中文句子切割成词条,这样就可以统计tf,df

  去除停用词,去除停用词的步骤在jieba分词之后完成

  倒排记录表存储,字典存储在B-tree或者hash中,倒排记录表存储在邻接链表中,可以大大减少存储空间

  倒排索引构造算法采用内存中单遍扫描索引构造方法(SPIMI),即依次对每条新闻进行分段。如果出现新术语,则将其插入字典。否则,将文档的信息附加到相应的术语中。在倒排记录表中。

  2.3 检索模块

  2.3.1 搜索模式

  (1) 关键词搜索

  查询是根据用户输入的关键字返回相应的新闻。首先,jieba根据用户的查询进行分词,将分词后的词条数记录下来,以字典的形式存储。

  完整的源代码和详细文档已上传至WRITE-BUG技术分享平台。请拿起你需要的东西:

  /article/3122.html

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线