话题：自动采集网站内容 - 自动文章采集器-优采云官网

【收藏】健康码行程码截图快速收集、自动命名图片、自动压缩打包文件

采集交流 • 优采云发表了文章 • 0 个评论 • 2872 次浏览 • 2022-06-22 02:31 • 来自相关话题

　　【收藏】健康码行程码截图快速收集、自动命名图片、自动压缩打包文件
　　新冠疫情零星散发，多点开花，疫情防控工作不可松懈。开学在即，学校为了疫情防控的需要，经常会收集员工、学生的健康码、行程码截图。
　　在学校，班主任作为班级疫情防控的责任人，要收集班上几十个学生的健康码、行程码，还要命名、图片打包上交，通常的做法是把截图发到班级微信群里，再在电脑上把图片复制或下载下来以学生姓名重命名图片，再打包上交，工作量不小。有没有快速收集的办法？
　　下面简要介绍一下利用金山表单收集截图，并且截图图片文件以学生姓名命名的主要流程。
　　一、电脑登录金山表单。网址：
　　二、新建一个文件
　　
　　场景选择：表单或文件收集
　　
　　
　　三、填写标题、填写说明、收集的内容等
　　1、输入本班学生花名册
　　题型为选择题，勾选为必填。
　　
　　从表格文档（需提前准备好）中复制本班学生花名册粘贴到此区域。设计这一个题的目的，主要是方便查找哪个学生没有上传健康码。
　　
　　2、学生姓名。题型为填空题，勾选为必填。
　　
　　3、收集健康码截图
　　题目设计要求：
　　（1）题型为图片题
　　（2）打开“添加水印”选项，水印选择为“上传时间、提交时间”，
　　（3）文件命名方式选择为“姓名 + 文件原名”
　　（4）图片上传为1张，勾选为必填。
　　
　　4、收集行程码截图
　　题目设计要求与健康码截图提交一样，所以可以采用复制题目然后修改的办法，可以节约时间。
　　点右下角“...”图标，在弹出的对话框中选择“复制题目”，复制成功后，将“健康码截图”修改成“行程码截图”即可。
　　
　　四、创建完成后，转发到班级微信群，让家长填写。
　　
　　
　　五、未填写学生督促
　　登录手机微信小程序“金山表单”，其中的“数据统计”可以查看哪些学生没有填写，以便及时督促。
　　六、数据下载：
　　1、健康码截图下载。
　　电脑登录这个问卷，下翻到第3题，点右上角“去文件夹查看”
　　
　　2、勾选第1个学生，往下翻看完每个学生。
　　
　　3、点“已选中1条”前的“—”图标，变成“√”，后面的文字也变成“已选中XX条”，
　　
　　4、下载打包好的文件
　　
　　5、在弹出的对话框中点击刚下载的压缩文件后“文件夹”，找到文件位置，将压缩文件名称改为“XX班学生健康码截图”即可上交。
　　
　　6、行程码截图打包好的压缩文件下载也是类似的操作。
　　
　　流程看起来有点复杂，如果提前准备好的花名册电子文档，熟练后，只需要几分钟即可做好，省时省力，可以有更多的时间来处理开学时各种繁杂的事务。
　　如果觉得有帮助，请点亮“在看”并转发给有需要的朋友。查看全部

　　【收藏】健康码行程码截图快速收集、自动命名图片、自动压缩打包文件
　　新冠疫情零星散发，多点开花，疫情防控工作不可松懈。开学在即，学校为了疫情防控的需要，经常会收集员工、学生的健康码、行程码截图。
　　在学校，班主任作为班级疫情防控的责任人，要收集班上几十个学生的健康码、行程码，还要命名、图片打包上交，通常的做法是把截图发到班级微信群里，再在电脑上把图片复制或下载下来以学生姓名重命名图片，再打包上交，工作量不小。有没有快速收集的办法？
　　下面简要介绍一下利用金山表单收集截图，并且截图图片文件以学生姓名命名的主要流程。
　　一、电脑登录金山表单。网址：
　　二、新建一个文件
　　

　　场景选择：表单或文件收集
　　

　　三、填写标题、填写说明、收集的内容等
　　1、输入本班学生花名册
　　题型为选择题，勾选为必填。
　　

　　从表格文档（需提前准备好）中复制本班学生花名册粘贴到此区域。设计这一个题的目的，主要是方便查找哪个学生没有上传健康码。
　　

　　2、学生姓名。题型为填空题，勾选为必填。
　　

　　3、收集健康码截图
　　题目设计要求：
　　（1）题型为图片题
　　（2）打开“添加水印”选项，水印选择为“上传时间、提交时间”，
　　（3）文件命名方式选择为“姓名 + 文件原名”
　　（4）图片上传为1张，勾选为必填。
　　

　　4、收集行程码截图
　　题目设计要求与健康码截图提交一样，所以可以采用复制题目然后修改的办法，可以节约时间。
　　点右下角“...”图标，在弹出的对话框中选择“复制题目”，复制成功后，将“健康码截图”修改成“行程码截图”即可。
　　

　　四、创建完成后，转发到班级微信群，让家长填写。
　　

　　五、未填写学生督促
　　登录手机微信小程序“金山表单”，其中的“数据统计”可以查看哪些学生没有填写，以便及时督促。
　　六、数据下载：
　　1、健康码截图下载。
　　电脑登录这个问卷，下翻到第3题，点右上角“去文件夹查看”
　　

　　2、勾选第1个学生，往下翻看完每个学生。
　　

　　3、点“已选中1条”前的“—”图标，变成“√”，后面的文字也变成“已选中XX条”，
　　

　　4、下载打包好的文件
　　

　　5、在弹出的对话框中点击刚下载的压缩文件后“文件夹”，找到文件位置，将压缩文件名称改为“XX班学生健康码截图”即可上交。
　　

　　6、行程码截图打包好的压缩文件下载也是类似的操作。
　　

　　流程看起来有点复杂，如果提前准备好的花名册电子文档，熟练后，只需要几分钟即可做好，省时省力，可以有更多的时间来处理开学时各种繁杂的事务。
　　如果觉得有帮助，请点亮“在看”并转发给有需要的朋友。

校庆产品短视频内容营销(校园短视频活动意义)

采集交流 • 优采云发表了文章 • 0 个评论 • 55 次浏览 • 2022-06-21 07:02 • 来自相关话题

　　校庆产品短视频内容营销(校园短视频活动意义)
　　校庆产品短视频内容营销(校园短视频活动意义)
　　█百度排名联系排名大神【QQ/V:897569356】【╇飞机libing8899】首页快速上排名,专注百度霸屏、搜一搜霸屏、抖音短视频霸屏,站群推广，企业精准推广，另加V可以免费领取全套抖音seo教程。
　　图片处理也是做自媒体必备的一项基本技能，新手用美团秀秀，黄油相机就可以了，这两个操作很简单，能够节省点时间，当然需求多的话可以用ps来完成图片的制作。
　　伪原创工具和采集工具拥有全自动采集内容和定时发布功能，可以完全满足网站对于内容的需求，但是近几年来搜索引擎严重打击伪原创和采集行为，所以在采集内容的时候，一定要把控好文章的质量，不然很容易遭到搜索引擎的惩罚。
　　
　　毋庸置疑，短视频营销近两年太火了，特别是疫情袭后彻底迎来了短视频的全面爆发，火得几乎每个人每个组织和企业都吵着嚷着要上短视频。然而，在如火如荼的短视频应用中，能玩得得心应手、顺风顺水的并不多，一些用户感觉只有那些所谓的“头部”用户最风光。实际上，许多个人或组织和企业的短视频应用与短视频营销遇到了瓶颈，但却不知道原因在哪里。
　　现在您已经知道SEO运作需要多长时间，并且希望获得SEO的好处，包括增加网站访问量，提高品牌知名度和增加收入，浪知潮可以为您提供帮助。
　　
　　信息过载的时代，快消品牌可通过优质的内容营销聚焦消费者目光，强化与KOL的广泛合作，实现品牌/产品与消费者的深度沟通，达到品效合一。
　　一段话如果说得没有逻辑，前后不连贯，条理不清晰，行文不流畅，就会让粉丝感到混乱。如果这个时候还用感性的文字，就会让粉丝心烦。同样，如果过于强调逻辑性，内容呆板生硬，也会让粉丝无感。
　　
　　以这款“面膜”为例，我们可以看到种草类播主占比较高，而且视频点赞的占比也比较高，说明这个商品适合种草类播主推广。如果你是种草类播主，就可以考虑直接推广这个商品。
　　由此可见，原创内容就显得极为重要了，其次，我们对于网站中的原创文章，最好要进行有规律的更新，使搜索引擎在不定时的抓取过程中能够及时收录，大大增加网站的权重。查看全部

　　校庆产品短视频内容营销(校园短视频活动意义)
　　校庆产品短视频内容营销(校园短视频活动意义)
　　█百度排名联系排名大神【QQ/V:897569356】【╇飞机libing8899】首页快速上排名,专注百度霸屏、搜一搜霸屏、抖音短视频霸屏,站群推广，企业精准推广，另加V可以免费领取全套抖音seo教程。
　　图片处理也是做自媒体必备的一项基本技能，新手用美团秀秀，黄油相机就可以了，这两个操作很简单，能够节省点时间，当然需求多的话可以用ps来完成图片的制作。
　　伪原创工具和采集工具拥有全自动采集内容和定时发布功能，可以完全满足网站对于内容的需求，但是近几年来搜索引擎严重打击伪原创和采集行为，所以在采集内容的时候，一定要把控好文章的质量，不然很容易遭到搜索引擎的惩罚。
　　

　　毋庸置疑，短视频营销近两年太火了，特别是疫情袭后彻底迎来了短视频的全面爆发，火得几乎每个人每个组织和企业都吵着嚷着要上短视频。然而，在如火如荼的短视频应用中，能玩得得心应手、顺风顺水的并不多，一些用户感觉只有那些所谓的“头部”用户最风光。实际上，许多个人或组织和企业的短视频应用与短视频营销遇到了瓶颈，但却不知道原因在哪里。
　　现在您已经知道SEO运作需要多长时间，并且希望获得SEO的好处，包括增加网站访问量，提高品牌知名度和增加收入，浪知潮可以为您提供帮助。
　　

　　信息过载的时代，快消品牌可通过优质的内容营销聚焦消费者目光，强化与KOL的广泛合作，实现品牌/产品与消费者的深度沟通，达到品效合一。
　　一段话如果说得没有逻辑，前后不连贯，条理不清晰，行文不流畅，就会让粉丝感到混乱。如果这个时候还用感性的文字，就会让粉丝心烦。同样，如果过于强调逻辑性，内容呆板生硬，也会让粉丝无感。
　　

　　以这款“面膜”为例，我们可以看到种草类播主占比较高，而且视频点赞的占比也比较高，说明这个商品适合种草类播主推广。如果你是种草类播主，就可以考虑直接推广这个商品。
　　由此可见，原创内容就显得极为重要了，其次，我们对于网站中的原创文章，最好要进行有规律的更新，使搜索引擎在不定时的抓取过程中能够及时收录，大大增加网站的权重。

如何对专属SRC进行信息收集

采集交流 • 优采云发表了文章 • 0 个评论 • 114 次浏览 • 2022-06-20 04:45 • 来自相关话题

如何对专属SRC进行信息收集
　　前言
　　一直觉得自己信息收集做的不怎么好，刚好最近也在挖专属，顺便总结一下对该公司的信息收集方法
　　以xxx公司为例
　　根域名：
　　涉及此公司的部分已打码，补充部分用的是某安信和某度
　　一、子域名收集1.Oneforall
　　尽量把API凑齐，fofa可以的话找大佬借api，越多越好
　　python3 oneforall.py --target xxx.cn run
　　2.JSFinder
　　JSFinder是一个在网页的JS文件中寻找URL和子域名的工具
　　python3 JSFinder.py -u http://www.xxx.cn -d -ou JSurl.txt -os JSdomain.txt
　　运行结束后生会成两个txt文本， JSurl.txt为URL里面会有一些接口什么的，
　　JSdomain.txt为子域名
　　3. Layer
　　4.subDomainsBrute
　　python subDomainsBrute.py -t 10 xxx.cn -o xxx.cn.txt
　　python subDomainsBrute.py -t 10 --full xxx.cn -o xxx.cn.txt //全扫描
　　5. Sublist3r
　　kali和windows环境下都可以装这个工具
　　kali：
　　git clone https://github.com/aboul3la/Sublist3r
　　下载好之后
　　python sublist3r.py -d 6pian.cn -o xxx.cn-sublist3r.txt
　　6. DNSdumpster
　　非常好用的一个域名搜索网站，还会自动归纳同一个IP的多个域名
　　7. 在线域名爆破
　　8. 小蓝本
　　9. 谷歌语法
　　谷歌/必应：site:
　　site:xxx.cn
　　如果发现检索出来的很多结果都是www，众所周知主站一般防御很严，如果我们不想看到主站可以直接-www
　　site:xxx.cn -www
　　这样出来的结果就会自动删去www
　　然后一个一个减去没什么入手点的网站
　　二、公众号收集1.搜狗搜索引擎
　　
　　2. 企查查
　　
　　三、微信小程序企查查
　　
　　这里爱企查等等的都可以，不过发现爱企查查出来的好像没有企查查多，不过也可以都试试
　　四、 app1.小蓝本
　　
　　2. 企查查
　　
　　3. 点点
　　
　　4. 七麦
　　
　　七麦还可以在这里切换苹果和安卓
　　
　　然后获取下载链接下载apk丢进模拟器
　　
　　五、指纹识别1. BugScaner
　　
　　主站没识别出来，但是其他子站都可以丢进来看看
　　2.潮汐指纹
　　3. Kscan
　　此工具需要go环境
　　kscan -t www.baidu.com
　　六、敏感信息收集1.github
　　github敏感信息泄露一直是企业信息泄露和知识产权泄露的重灾区，安全意识薄弱的同事经常会将公司的代码、各种服务的账户等极度敏感的信息『开源』到github中。
　　这里可以利用github找存在这个关键字的代码，这样可以收集到的方面更广
　　2.网盘搜索
　　盘多多：
　　盘搜搜：
　　盘搜：
　　凌云风搜索：
　　直接输入厂商名字然后搜索，可以看看是否泄露了源码，或者什么账号密码之类的
　　3. 路径扫描
　　404,403页面，不是真的没有东西，要一层一层fuzz，一层一层的扫下去
　　工具：
　　1.dirsearch
　　2.御剑
　　3.7kbscan
　　每个工具扫出来同一个站点都会爆出不同的路径，建议可以吧三个工具都拿来扫一遍
　　另外找一些像后台、登录系统什么的可以用Google Hacking
　　site:xxx.com admin
　　site:xxx.com login
　　site:xxx.com system
　　site:xxx.com 管理
　　site:xxx.com 登录
　　site:xxx.com 内部
　　site:xxx.com 系统
　　4. 基于证书
　　5. 基于shodan找到带有该icon的网站
　　在Shodan搜索中有一个关于网站icon图标的搜索语法，http.favicon.hash，我们可以使用这个语法来搜索出使用了同一icon图标的网站
　　由于hash为一个未知的随机数
　　所以是无法通过输入一个确定的hash值来搜索带有指定图标的网站的
　　只能够通过查看一个已经被Shodan收录的网站的hash值，来进一步获取到所有带有某icon的网站。
　　那么这里的用法就非常的有局限性，你只能是碰运气的来找到你所需要查找的网站，因为Shodan不一定收录了你想要搜索的网站。
　　那么如果Shodan收录了某个ip，这个服务器带有某个icon图标，我能不能搜索所有带有此icon的服务器ip？答案是可以的。
　　这里拿百度举例，这里有一个ip为180.97.34.35的服务器，截图如下
　　如果我想搜索带有这个icon的所有ip地址的话，可以先在Shodan搜索这个ip
　　这里要用到一个之前没注意到的东西，就是Shodan的原始数据（Raw Data）功能
　　点击详情里的View Raw Data，打开可以看到Shodan所存储的关于这个ip所有信息的原始数据，由于东西篇幅太多，就不一一截图
　　这里我们需要用到关于icon hash的字段是这个，data.0.http.favicon.hash，
　　如图所示
　　可以看到结果为-1507567067，查看全部

如何对专属SRC进行信息收集
　　前言
　　一直觉得自己信息收集做的不怎么好，刚好最近也在挖专属，顺便总结一下对该公司的信息收集方法
　　以xxx公司为例
　　根域名：
　　涉及此公司的部分已打码，补充部分用的是某安信和某度
　　一、子域名收集1.Oneforall
　　尽量把API凑齐，fofa可以的话找大佬借api，越多越好
　　python3 oneforall.py --target xxx.cn run
　　2.JSFinder
　　JSFinder是一个在网页的JS文件中寻找URL和子域名的工具
　　python3 JSFinder.py -u http://www.xxx.cn -d -ou JSurl.txt -os JSdomain.txt
　　运行结束后生会成两个txt文本， JSurl.txt为URL里面会有一些接口什么的，
　　JSdomain.txt为子域名
　　3. Layer
　　4.subDomainsBrute
　　python subDomainsBrute.py -t 10 xxx.cn -o xxx.cn.txt
　　python subDomainsBrute.py -t 10 --full xxx.cn -o xxx.cn.txt //全扫描
　　5. Sublist3r
　　kali和windows环境下都可以装这个工具
　　kali：
　　git clone https://github.com/aboul3la/Sublist3r
　　下载好之后
　　python sublist3r.py -d 6pian.cn -o xxx.cn-sublist3r.txt
　　6. DNSdumpster
　　非常好用的一个域名搜索网站，还会自动归纳同一个IP的多个域名
　　7. 在线域名爆破
　　8. 小蓝本
　　9. 谷歌语法
　　谷歌/必应：site:
　　site:xxx.cn
　　如果发现检索出来的很多结果都是www，众所周知主站一般防御很严，如果我们不想看到主站可以直接-www
　　site:xxx.cn -www
　　这样出来的结果就会自动删去www
　　然后一个一个减去没什么入手点的网站
　　二、公众号收集1.搜狗搜索引擎

　　2. 企查查
　　

　　三、微信小程序企查查
　　

　　这里爱企查等等的都可以，不过发现爱企查查出来的好像没有企查查多，不过也可以都试试
　　四、 app1.小蓝本
　　

　　2. 企查查
　　

　　3. 点点
　　

　　4. 七麦
　　

　　七麦还可以在这里切换苹果和安卓
　　

　　然后获取下载链接下载apk丢进模拟器
　　

　　五、指纹识别1. BugScaner
　　

主站没识别出来，但是其他子站都可以丢进来看看
　　2.潮汐指纹
　　3. Kscan
　　此工具需要go环境
　　kscan -t www.baidu.com
　　六、敏感信息收集1.github
　　github敏感信息泄露一直是企业信息泄露和知识产权泄露的重灾区，安全意识薄弱的同事经常会将公司的代码、各种服务的账户等极度敏感的信息『开源』到github中。
　　这里可以利用github找存在这个关键字的代码，这样可以收集到的方面更广
　　2.网盘搜索
　　盘多多：
　　盘搜搜：
　　盘搜：
　　凌云风搜索：
　　直接输入厂商名字然后搜索，可以看看是否泄露了源码，或者什么账号密码之类的
　　3. 路径扫描
　　404,403页面，不是真的没有东西，要一层一层fuzz，一层一层的扫下去
　　工具：
　　1.dirsearch
　　2.御剑
　　3.7kbscan
　　每个工具扫出来同一个站点都会爆出不同的路径，建议可以吧三个工具都拿来扫一遍
　　另外找一些像后台、登录系统什么的可以用Google Hacking
　　site:xxx.com admin
　　site:xxx.com login
　　site:xxx.com system
　　site:xxx.com 管理
　　site:xxx.com 登录
　　site:xxx.com 内部
　　site:xxx.com 系统
　　4. 基于证书
　　5. 基于shodan找到带有该icon的网站
　　在Shodan搜索中有一个关于网站icon图标的搜索语法，http.favicon.hash，我们可以使用这个语法来搜索出使用了同一icon图标的网站
　　由于hash为一个未知的随机数
　　所以是无法通过输入一个确定的hash值来搜索带有指定图标的网站的
　　只能够通过查看一个已经被Shodan收录的网站的hash值，来进一步获取到所有带有某icon的网站。
　　那么这里的用法就非常的有局限性，你只能是碰运气的来找到你所需要查找的网站，因为Shodan不一定收录了你想要搜索的网站。
　　那么如果Shodan收录了某个ip，这个服务器带有某个icon图标，我能不能搜索所有带有此icon的服务器ip？答案是可以的。
　　这里拿百度举例，这里有一个ip为180.97.34.35的服务器，截图如下
　　如果我想搜索带有这个icon的所有ip地址的话，可以先在Shodan搜索这个ip
　　这里要用到一个之前没注意到的东西，就是Shodan的原始数据（Raw Data）功能
　　点击详情里的View Raw Data，打开可以看到Shodan所存储的关于这个ip所有信息的原始数据，由于东西篇幅太多，就不一一截图
　　这里我们需要用到关于icon hash的字段是这个，data.0.http.favicon.hash，
　　如图所示
　　可以看到结果为-1507567067，

合集｜Python数据采集、分析挖掘、可视化，看这一篇就够了！

采集交流 • 优采云发表了文章 • 0 个评论 • 91 次浏览 • 2022-06-17 21:48 • 来自相关话题

　　合集｜Python数据采集、分析挖掘、可视化，看这一篇就够了！
　　这几年，“数据分析”是很火啊，在这个数据驱动一切的时代，数据挖掘和数据分析就是这个时代的“淘金”，懂数据分析、拥有数据思维，往往成了大厂面试的加分项。
　　比如通过数据分析，我们可以更好地了解用户画像，为产品做留存率、流失率等指标分析，精细化产品运营；再比如去年疫情，有 B 站网友通过数据分析、调整参数，制作的“疫情传播速率”视频，点击量相当大。
　　身边不少人跳入这个行业，我也经常在后台收到粉丝的一些困惑：
　　我当时学数据分析也有同样的苦恼，资料看了一大堆，总是一知半解，没有老师时时给你解答问题，很多时候都感觉自己要放弃了。
　　但，我不得不说一句：学数据分析绝对没错，坚持下去你会看到一个完全不一样的自己。
　　之前在百度的曹政举了他身边的例子，令人印象深刻，蛮多看上去并不优秀的人却都能靠着数据分析 C 位出道。
　　十来年前我在百度招聘过一个人大本科应届的小伙子邓明生，从学历背景看在百度并不占优势，当时开始跟我做数据分析，写程序分析百度的业务数据，后来慢慢独挡一面，因为对百度所有业务线的数据都清晰，后来百度出现一些人事危机的时候开始成为救火队长，连续在不同业务部门担纲重要职位，一路升到联盟事业部总经理，今年离职出来创办御势资本，青出于蓝而胜于蓝，人家现在比我厉害很多了。
　　还是十来年前，又有一个应届生吴海生，从百度产品部门申请内部调动去做数据分析，开始经验不足，写报告还被我嘲讽过的那种。好多年不见，最近看新闻才知道，已经某新近上市的金融公司CEO，妥妥的 C 位出道有没有，真是让人刮目相看。
　　数据分析到底该怎么学呢？讲真，真不难！我摸爬滚打这么久，也算总结出三个经验：
　　1.找到一个实力与经验俱佳的“教练”，从思维、工具、实战带你“即学即用”。
　　2.制定一份正确的学习计划与路径，你真正需要的是好方法而不是蛮力。
　　3.有效工具的运用会让你事半功倍。
　　这方面，给我启发很大的是清华大学计算机系博士 —— 陈旸写的《数据分析实战 45 讲》，超过6W人在学，口碑不错。我最近开始二刷了，在专栏中，陈旸清晰地把数据分析拆解成三个部分：数据采集、数据可视化和数据挖掘，而且有大量实战。（下面有我详细的给大家分享这三部分所需要掌握的知识）
　　
　　原价¥129，现在¥90就可以到手，需要赶紧上车。
　　扫码免费试读
　　限时优惠口令「618gogogo」
　　到手仅¥90，立省¥40
　　说到陈旸，也是挺厉害了。清华有一门课，叫数据挖掘，他通过这门课，学会了如何从海量的数据中找到关联关系，以及如何进行价值挖掘。并利用自己学的技巧，在微博用 3 个月的时间就积累了 4 万粉丝，一年的时间积累了上百万粉丝。
　　整个专栏的授课逻辑我也非常喜欢，专栏里一直秉承着“MAS 学习法”，即 Multi-DImension（多维度认识）、Ask（提问）和 Sharing（分享），从“思维”到“工具”再到“实践”，学以致用，更高效上手数据分析。而且老师还会直接提供项目数据，让你上手练习，可以在简历上完善项目经历，顺利找到工作。
　　练手的数据项目
　　好，下面接着给大家分享上图中数据采集、数据可视化和数据挖掘需要掌握的知识。
　　数据采集
　　你可以用Python自动采集数据，也可以使用第三方平台，比如用“优采云”来采集数据。《数据分析实战 45 讲》中，陈旸用了两个实战案例来讲解如何用 Python 和八抓鱼来采集数据，讲的非常细致，看完你可以掌握这两种常用方法。
　　
　　老师制作的「Python爬虫总结图」
　　详细地，你可以去直接看《数据分析实战45讲》专栏里这两篇文章：第9讲 |如何用优采云采集微博上的“D&G”评论？第10讲 |如何用Python自动化下载王祖贤海报？
　　数据可视化
　　在《数据分析实战45讲》中，主要用Python的 Matplotlib 工具来做数据可视化。Matplotlib 是Python的可视化基础库，非常适合入门学习。学完专栏，下面的这几张图我也可以做出来，非常抢眼。
　　你可以看看《数据分析实战45讲》专栏里这篇文章：第15讲 |如何用Python绘制10种常见的可视化视图？
　　数据挖掘
　　当你掌握了数据分析中基础的操作后，接下来就该正式处理数据了。为了进行数据挖掘任务，数据科学家们提出了各种算法，《数据分析实战45讲》中详细讲解了数据挖掘十大经典算法，根据用途，把它们分为四大类：
　　值得一提的是，专栏里用了大篇幅内容、许多案例来讲解这十大算法，还会提供一些数据库让大家去实操，亲测有效。
　　
　　最后想说的是，在留言区你依然能看到大家各种各样的解题思路，其中有的你可能会意想不到，可以说，在留言区你也能学到很多。
　　
　　数据分析能力必然是每个互联网人必须具备的，只有懂数据，才能以数据驱动，科学优化工作，锻炼自己强大的战斗力和核心竞争力，拉开与其他人的差距。
　　最后，再和大家说个限时优惠：
　　超级会员7 月1日涨价至¥2999
　　现在到手只需¥498 查看全部

　　合集｜Python数据采集、分析挖掘、可视化，看这一篇就够了！
　　这几年，“数据分析”是很火啊，在这个数据驱动一切的时代，数据挖掘和数据分析就是这个时代的“淘金”，懂数据分析、拥有数据思维，往往成了大厂面试的加分项。
　　比如通过数据分析，我们可以更好地了解用户画像，为产品做留存率、流失率等指标分析，精细化产品运营；再比如去年疫情，有 B 站网友通过数据分析、调整参数，制作的“疫情传播速率”视频，点击量相当大。
　　身边不少人跳入这个行业，我也经常在后台收到粉丝的一些困惑：
　　我当时学数据分析也有同样的苦恼，资料看了一大堆，总是一知半解，没有老师时时给你解答问题，很多时候都感觉自己要放弃了。
　　但，我不得不说一句：学数据分析绝对没错，坚持下去你会看到一个完全不一样的自己。
　　之前在百度的曹政举了他身边的例子，令人印象深刻，蛮多看上去并不优秀的人却都能靠着数据分析 C 位出道。
　　十来年前我在百度招聘过一个人大本科应届的小伙子邓明生，从学历背景看在百度并不占优势，当时开始跟我做数据分析，写程序分析百度的业务数据，后来慢慢独挡一面，因为对百度所有业务线的数据都清晰，后来百度出现一些人事危机的时候开始成为救火队长，连续在不同业务部门担纲重要职位，一路升到联盟事业部总经理，今年离职出来创办御势资本，青出于蓝而胜于蓝，人家现在比我厉害很多了。
　　还是十来年前，又有一个应届生吴海生，从百度产品部门申请内部调动去做数据分析，开始经验不足，写报告还被我嘲讽过的那种。好多年不见，最近看新闻才知道，已经某新近上市的金融公司CEO，妥妥的 C 位出道有没有，真是让人刮目相看。
　　数据分析到底该怎么学呢？讲真，真不难！我摸爬滚打这么久，也算总结出三个经验：
　　1.找到一个实力与经验俱佳的“教练”，从思维、工具、实战带你“即学即用”。
　　2.制定一份正确的学习计划与路径，你真正需要的是好方法而不是蛮力。
　　3.有效工具的运用会让你事半功倍。
　　这方面，给我启发很大的是清华大学计算机系博士 —— 陈旸写的《数据分析实战 45 讲》，超过6W人在学，口碑不错。我最近开始二刷了，在专栏中，陈旸清晰地把数据分析拆解成三个部分：数据采集、数据可视化和数据挖掘，而且有大量实战。（下面有我详细的给大家分享这三部分所需要掌握的知识）
　　

　　原价¥129，现在¥90就可以到手，需要赶紧上车。
　　扫码免费试读
　　限时优惠口令「618gogogo」
　　到手仅¥90，立省¥40
　　说到陈旸，也是挺厉害了。清华有一门课，叫数据挖掘，他通过这门课，学会了如何从海量的数据中找到关联关系，以及如何进行价值挖掘。并利用自己学的技巧，在微博用 3 个月的时间就积累了 4 万粉丝，一年的时间积累了上百万粉丝。
　　整个专栏的授课逻辑我也非常喜欢，专栏里一直秉承着“MAS 学习法”，即 Multi-DImension（多维度认识）、Ask（提问）和 Sharing（分享），从“思维”到“工具”再到“实践”，学以致用，更高效上手数据分析。而且老师还会直接提供项目数据，让你上手练习，可以在简历上完善项目经历，顺利找到工作。
　　练手的数据项目
　　好，下面接着给大家分享上图中数据采集、数据可视化和数据挖掘需要掌握的知识。
　　数据采集
　　你可以用Python自动采集数据，也可以使用第三方平台，比如用“优采云”来采集数据。《数据分析实战 45 讲》中，陈旸用了两个实战案例来讲解如何用 Python 和八抓鱼来采集数据，讲的非常细致，看完你可以掌握这两种常用方法。
　　

　　老师制作的「Python爬虫总结图」
　　详细地，你可以去直接看《数据分析实战45讲》专栏里这两篇文章：第9讲 |如何用优采云采集微博上的“D&G”评论？第10讲 |如何用Python自动化下载王祖贤海报？
　　数据可视化
　　在《数据分析实战45讲》中，主要用Python的 Matplotlib 工具来做数据可视化。Matplotlib 是Python的可视化基础库，非常适合入门学习。学完专栏，下面的这几张图我也可以做出来，非常抢眼。
　　你可以看看《数据分析实战45讲》专栏里这篇文章：第15讲 |如何用Python绘制10种常见的可视化视图？
　　数据挖掘
　　当你掌握了数据分析中基础的操作后，接下来就该正式处理数据了。为了进行数据挖掘任务，数据科学家们提出了各种算法，《数据分析实战45讲》中详细讲解了数据挖掘十大经典算法，根据用途，把它们分为四大类：
　　值得一提的是，专栏里用了大篇幅内容、许多案例来讲解这十大算法，还会提供一些数据库让大家去实操，亲测有效。
　　

　　最后想说的是，在留言区你依然能看到大家各种各样的解题思路，其中有的你可能会意想不到，可以说，在留言区你也能学到很多。
　　

　　数据分析能力必然是每个互联网人必须具备的，只有懂数据，才能以数据驱动，科学优化工作，锻炼自己强大的战斗力和核心竞争力，拉开与其他人的差距。
　　最后，再和大家说个限时优惠：
　　超级会员7 月1日涨价至¥2999
　　现在到手只需¥498

新词儿|写作机器人（上）：个人自动写作入口

采集交流 • 优采云发表了文章 • 0 个评论 • 312 次浏览 • 2022-06-17 21:47 • 来自相关话题

　　新词儿|写作机器人（上）：个人自动写作入口
　　
　　写在前面
　　相信大家或多或少听说过“写作机器人”这个概念，写作机器人的兴起也带来了很多版权争议。未来两期，小编将带大家分别来了解个人和媒体写作机器人的入口。本期小编给大家带来的是个人常用的写作机器人入口类型，一起来看看吧~
　　
　　一
　　采集+自动生成型
　　DREAMS COME TRUE
　　这种模式需要用户下载一个软件或登录网页，然后输入关键词，机器人可以自动通过网络搜集相关文章，并且自动组合成一篇新文章进行自动生成，同时可以支持批量导入关键词，一键生成N篇文章。优点：快速高效。缺点：采集出来的文章质量较差，标题和文章内容可能很不匹配，且文章的可读性较差。
　　较有代表性的有：
　　1.Giiso（智搜）写作机器人（），它可以帮你一秒get千字思想汇报文。除此之外，它还有很多类型的文章模板，很适合自媒体的工作需求，按提纲生成文章也很实用。智搜是国内做智能写作比较早的，产品设计下了较大的功夫。
　　2.Get写作（），它可以根据时事热点智能改写、扩写文章，还能给用户提供写作角度的建议。站内有很多现成的写作模板可以套用，比如职场干货文、教育观点文、深度影评文等等。支持用户自主输入关键词，以及热点话题推荐，也有AI推荐素材的功能，功能很全，比较适合自媒体人。
　　3.易撰（），能够分析爆文数据给用户参考、输入几个关键词生成文章、智能拟定爆款标题，还能帮助用户分析文章质量、提供改写建议。缺点是很多功能需要会员。
　　4.WPS智能写作（），选择题材-输入主题-选定写作思路-一键生成，用起来超方便。主要是日常需要的工作汇报、心得体会、演讲致辞之类的，很方便!
　　5.柠檬AI写作，是一款功能比较强大，而且比较小巧精悍的专业自动生成文章生成器，它同时支持中文和英文两种自动生成模式，而且是完全免费的。这款自动生成工具是专门针对百度、谷歌搜索引擎爬行习惯以及关键词算法分析开发出来的，可以使用它对文章进行优化。
　　6.弈写，适合深度原创，真正做到了人机协作，提升创作效率。弈写比较好用的地方如下：（1）支持导入写作。这个功能对找素材来说太方便了，比如文章写一半写不下去了，可以通过导入写作快速找到AI推荐的参考素材，而且AI匹配的素材准确性很高。（2）AI推荐写作素材，支持自己搜写作素材。弈写会根据写作话题，自动推荐相关素材，包括“相关”“延伸”等素材列表，同时支持自主搜索语料。（3）能对参考文章进行多维度拆解。对于特别长的参考资料，会将文章拆解成不同的维度，比如时间线索，人物观点等，有助于快速消化参考素材。（4）对参考文章句子拖拽的引用方式非常方便，对快速搭建文章框架很有帮助。
　　
　　（智搜官网界面）
　　
　　二
　　英文资讯批量翻译型
　　DREAMS COME TRUE
　　此种模式是通过国外的门户平台去抓取大量的资讯内容，然后通过翻译API接口批量导出大量的文章。优点：内容相对比较新颖，产出量大且速度较快。缺点：这类国外的文章通过机器翻译后，最终的SEO布局基本需要人工后期调整一遍，相对而言比较耗费人工。
　　例如：秘塔写作猫（），它是一款好用的人工智能写作与校对工具，支持中英文写作，帮用户发现标点、用词、语法等错误。网站、浏览器插件、手机小程序，多平台支持，怎么方便怎么来。他们宣传主要服务“写字的人”。写作猫会进行大量的同义替换，同时还会调整语序。它可以实现句子结构重塑和文风的改变。写作猫的免费用户每天可以处理2万字内容。他们也对外提供改写API。
　　（秘塔写作猫官网）
　　
　　三
　　LNP智能生成型
　　DREAMS COME TRUE
　　LNP就是自然语言处理技术，能实现输入一个关键词，快速产出一篇文章。如果通过接口开发，基本上就能实现批量导入任意关键词，就可以直接生产出N篇文章出来。但是，目前LNP还处于萌芽阶段，所以这类文章的可读性和SEO部署还不是很理想。优点：效率高，不需要考虑文章素材或者编辑思路，全自动AI执行。缺点：文章SEO布局较差，前言不搭后语经常发生，比较适合做外链文本素材。
　　较有代表性的有：5118（），这是一个功能很全的SEO工具。他们的自动生成功能基于一个强大的文本库建立，可直接调取并自动分析出相关的智能段落，并智能提取文本核心词、摘要内容、智能标题、下拉智能扩词等。用户既可以在他们的网站上手动对文章进行改写，也可以直接调用他们提供的API。
　　
　　四
　　模板化拆分拓展组合型
　　DREAMS COME TRUE
　　此种模式大概思路如下：自己写一篇文章模板，然后将文章按顺序拆分为一个个词语和标点符号，然后针对每个词去进行近义词拓展，最后通过程序随机选择一个近义词，按顺序重新组合，从而可以形成大量相似度极低的文章。这种模式需要自己先事先准备好大量意思相近的关键词，然后针对其中一个关键词先写一篇文章，接着用这个网站的系统将这篇文章自动拆分、自动拓展近义词，然后重新组合生产文章。即模板写好之后，直接导入关键词就可以批量生成对应的文章。这种模式在模板设置时，只要考虑到了SEO关键词密度，还有近义词的合理度，基本上出来的文章可读性和SEO布局都是很不错的。而且这个网站导出的文章还能直接导出在一个CSV中，导出后只要网站支持，就可以实现一键自动批量发布。优点：产出量大，效率高，非常符合SEO需求，方便快捷。缺点：这种模式只能适用于批量去写意思相近的词，而且需要词量大才合适。
　　较为典型的有：
　　1.AI写作猫（），输入标题或关键词一键生成文章，或上传一篇文章然后智能改写/仿写，也支持文章的智能排版。但每次使用需要“猫粮”，除了注册账号赠送的那些，每次约一毛钱。
　　2.优采云，优采云是一款使用了AI技术对智能化内容进行创作的平台，这款自动生成工具采用中文词库和语言模式进行文章原创。比较适合一些新手使用，如果不知道如何进行原创文章更新的话，那么就可以利用这款工具来自动生成文章。它不仅可以自定义制作以及替换内容，还支持繁体简体双重字体自动生成，主要是通过打乱句子以及生成繁体等方式，来自动生成，实用性很强。
　　（AI写作猫界面）
　　To读者：
　　
　　以上就是本期新词儿——个人写作机器人的全部内容，看完本期推荐，大家对个人写作机器人是不是有了更深刻的理解呢？
　　
　　热词征集令
　　对媒介版权领域感兴趣的小伙伴们注意啦！
　　如果你在“网上冲浪”时常遇到不明所以的热词，或是你想知道它有什么样的法律意义，只要是你想了解的新词儿、热词儿，都可以通过后台向我们投稿，我们将全力为你科普。
　　说不定你就是我们下一期的灵感来源哦~
　　— END —
　　新传春田查看全部

　　新词儿|写作机器人（上）：个人自动写作入口
　　

　　写在前面
　　相信大家或多或少听说过“写作机器人”这个概念，写作机器人的兴起也带来了很多版权争议。未来两期，小编将带大家分别来了解个人和媒体写作机器人的入口。本期小编给大家带来的是个人常用的写作机器人入口类型，一起来看看吧~
　　

　　一
　　采集+自动生成型
　　DREAMS COME TRUE
　　这种模式需要用户下载一个软件或登录网页，然后输入关键词，机器人可以自动通过网络搜集相关文章，并且自动组合成一篇新文章进行自动生成，同时可以支持批量导入关键词，一键生成N篇文章。优点：快速高效。缺点：采集出来的文章质量较差，标题和文章内容可能很不匹配，且文章的可读性较差。
　　较有代表性的有：
　　1.Giiso（智搜）写作机器人（），它可以帮你一秒get千字思想汇报文。除此之外，它还有很多类型的文章模板，很适合自媒体的工作需求，按提纲生成文章也很实用。智搜是国内做智能写作比较早的，产品设计下了较大的功夫。
　　2.Get写作（），它可以根据时事热点智能改写、扩写文章，还能给用户提供写作角度的建议。站内有很多现成的写作模板可以套用，比如职场干货文、教育观点文、深度影评文等等。支持用户自主输入关键词，以及热点话题推荐，也有AI推荐素材的功能，功能很全，比较适合自媒体人。
　　3.易撰（），能够分析爆文数据给用户参考、输入几个关键词生成文章、智能拟定爆款标题，还能帮助用户分析文章质量、提供改写建议。缺点是很多功能需要会员。
　　4.WPS智能写作（），选择题材-输入主题-选定写作思路-一键生成，用起来超方便。主要是日常需要的工作汇报、心得体会、演讲致辞之类的，很方便!
　　5.柠檬AI写作，是一款功能比较强大，而且比较小巧精悍的专业自动生成文章生成器，它同时支持中文和英文两种自动生成模式，而且是完全免费的。这款自动生成工具是专门针对百度、谷歌搜索引擎爬行习惯以及关键词算法分析开发出来的，可以使用它对文章进行优化。
　　6.弈写，适合深度原创，真正做到了人机协作，提升创作效率。弈写比较好用的地方如下：（1）支持导入写作。这个功能对找素材来说太方便了，比如文章写一半写不下去了，可以通过导入写作快速找到AI推荐的参考素材，而且AI匹配的素材准确性很高。（2）AI推荐写作素材，支持自己搜写作素材。弈写会根据写作话题，自动推荐相关素材，包括“相关”“延伸”等素材列表，同时支持自主搜索语料。（3）能对参考文章进行多维度拆解。对于特别长的参考资料，会将文章拆解成不同的维度，比如时间线索，人物观点等，有助于快速消化参考素材。（4）对参考文章句子拖拽的引用方式非常方便，对快速搭建文章框架很有帮助。
　　

　　（智搜官网界面）
　　

　　二
　　英文资讯批量翻译型
　　DREAMS COME TRUE
　　此种模式是通过国外的门户平台去抓取大量的资讯内容，然后通过翻译API接口批量导出大量的文章。优点：内容相对比较新颖，产出量大且速度较快。缺点：这类国外的文章通过机器翻译后，最终的SEO布局基本需要人工后期调整一遍，相对而言比较耗费人工。
　　例如：秘塔写作猫（），它是一款好用的人工智能写作与校对工具，支持中英文写作，帮用户发现标点、用词、语法等错误。网站、浏览器插件、手机小程序，多平台支持，怎么方便怎么来。他们宣传主要服务“写字的人”。写作猫会进行大量的同义替换，同时还会调整语序。它可以实现句子结构重塑和文风的改变。写作猫的免费用户每天可以处理2万字内容。他们也对外提供改写API。
　　（秘塔写作猫官网）
　　

　　三
　　LNP智能生成型
　　DREAMS COME TRUE
　　LNP就是自然语言处理技术，能实现输入一个关键词，快速产出一篇文章。如果通过接口开发，基本上就能实现批量导入任意关键词，就可以直接生产出N篇文章出来。但是，目前LNP还处于萌芽阶段，所以这类文章的可读性和SEO部署还不是很理想。优点：效率高，不需要考虑文章素材或者编辑思路，全自动AI执行。缺点：文章SEO布局较差，前言不搭后语经常发生，比较适合做外链文本素材。
　　较有代表性的有：5118（），这是一个功能很全的SEO工具。他们的自动生成功能基于一个强大的文本库建立，可直接调取并自动分析出相关的智能段落，并智能提取文本核心词、摘要内容、智能标题、下拉智能扩词等。用户既可以在他们的网站上手动对文章进行改写，也可以直接调用他们提供的API。
　　

　　四
　　模板化拆分拓展组合型
　　DREAMS COME TRUE
　　此种模式大概思路如下：自己写一篇文章模板，然后将文章按顺序拆分为一个个词语和标点符号，然后针对每个词去进行近义词拓展，最后通过程序随机选择一个近义词，按顺序重新组合，从而可以形成大量相似度极低的文章。这种模式需要自己先事先准备好大量意思相近的关键词，然后针对其中一个关键词先写一篇文章，接着用这个网站的系统将这篇文章自动拆分、自动拓展近义词，然后重新组合生产文章。即模板写好之后，直接导入关键词就可以批量生成对应的文章。这种模式在模板设置时，只要考虑到了SEO关键词密度，还有近义词的合理度，基本上出来的文章可读性和SEO布局都是很不错的。而且这个网站导出的文章还能直接导出在一个CSV中，导出后只要网站支持，就可以实现一键自动批量发布。优点：产出量大，效率高，非常符合SEO需求，方便快捷。缺点：这种模式只能适用于批量去写意思相近的词，而且需要词量大才合适。
　　较为典型的有：
　　1.AI写作猫（），输入标题或关键词一键生成文章，或上传一篇文章然后智能改写/仿写，也支持文章的智能排版。但每次使用需要“猫粮”，除了注册账号赠送的那些，每次约一毛钱。
　　2.优采云，优采云是一款使用了AI技术对智能化内容进行创作的平台，这款自动生成工具采用中文词库和语言模式进行文章原创。比较适合一些新手使用，如果不知道如何进行原创文章更新的话，那么就可以利用这款工具来自动生成文章。它不仅可以自定义制作以及替换内容，还支持繁体简体双重字体自动生成，主要是通过打乱句子以及生成繁体等方式，来自动生成，实用性很强。
　　（AI写作猫界面）
　　To读者：
　　

　　以上就是本期新词儿——个人写作机器人的全部内容，看完本期推荐，大家对个人写作机器人是不是有了更深刻的理解呢？
　　

　　热词征集令
　　对媒介版权领域感兴趣的小伙伴们注意啦！
　　如果你在“网上冲浪”时常遇到不明所以的热词，或是你想知道它有什么样的法律意义，只要是你想了解的新词儿、热词儿，都可以通过后台向我们投稿，我们将全力为你科普。
　　说不定你就是我们下一期的灵感来源哦~
　　— END —
　　新传春田

自动采集网站内容是必要的，但是应该是原创的

采集交流 • 优采云发表了文章 • 0 个评论 • 105 次浏览 • 2022-06-05 15:00 • 来自相关话题

　　自动采集网站内容是必要的，但是应该是原创的
　　自动采集网站内容是必要的，但是网站内容应该是原创的。对于没有采集的网站内容，我们最常用的方法就是第三方采集器来进行内容采集，像五狗网站采集器、采花草网站采集器、p站采集器等。这些方法都是可以查看采集内容是否原创，是否存在过滤等情况。
　　网站采集软件吧，看别人发布的资源，自己站上也可以采，现在主流的基本上都是第三方网站采集工具，这些工具我推荐你用五狗，一个还不错的国产老牌采集器，它支持超多采集网站，并且还在不断更新优化，可以说是相当稳定靠谱了。还有一个比较实用的就是它的很多电脑软件都很厉害，很好用，至于想进一步采集有关站点内容，我个人推荐你用个515采集器，可以一键不用翻墙全国卫视台全都采集到，一起来看看有没有帮助。对于这些工具你是不是也很好奇是怎么一回事呢？那我就把我的网站分享给你，你可以去看看。点击这里。
　　网站采集也分很多方向：内容采集：uecook内容采集器微信网站采集：wordpresswordpress采集工具，还有些网站可以收藏，网站之前被采过的地方可以保存一下。站长助手uecook采集器：提供站长助手，让站长轻松实现网站收录提升seo策略采集：uecookseo技术采集，汇聚优质站长团队的seo策略站长采集站长宝站长宝-站长论坛站长之家：站长宝-帮助站长提升站长个人竞争力。查看全部

　　自动采集网站内容是必要的，但是应该是原创的
　　自动采集网站内容是必要的，但是网站内容应该是原创的。对于没有采集的网站内容，我们最常用的方法就是第三方采集器来进行内容采集，像五狗网站采集器、采花草网站采集器、p站采集器等。这些方法都是可以查看采集内容是否原创，是否存在过滤等情况。
　　网站采集软件吧，看别人发布的资源，自己站上也可以采，现在主流的基本上都是第三方网站采集工具，这些工具我推荐你用五狗，一个还不错的国产老牌采集器，它支持超多采集网站，并且还在不断更新优化，可以说是相当稳定靠谱了。还有一个比较实用的就是它的很多电脑软件都很厉害，很好用，至于想进一步采集有关站点内容，我个人推荐你用个515采集器，可以一键不用翻墙全国卫视台全都采集到，一起来看看有没有帮助。对于这些工具你是不是也很好奇是怎么一回事呢？那我就把我的网站分享给你，你可以去看看。点击这里。
　　网站采集也分很多方向：内容采集：uecook内容采集器微信网站采集：wordpresswordpress采集工具，还有些网站可以收藏，网站之前被采过的地方可以保存一下。站长助手uecook采集器：提供站长助手，让站长轻松实现网站收录提升seo策略采集：uecookseo技术采集，汇聚优质站长团队的seo策略站长采集站长宝站长宝-站长论坛站长之家：站长宝-帮助站长提升站长个人竞争力。

内容交换工具除了爬虫，还能做什么？(图)

采集交流 • 优采云发表了文章 • 0 个评论 • 83 次浏览 • 2022-05-17 17:04 • 来自相关话题

　　内容交换工具除了爬虫，还能做什么？(图)
　　自动采集网站内容的软件，最近最火的莫过于爬虫工具。所以给这些网站采集团队，发放资源的时候，他们采用最多的协议就是scrapy。但爬虫工具又是什么呢？以前，爬虫工具的用途是帮我们找网站内容，查找可用的资源，更厉害一点，可以做工具的版权保护，一旦有问题，还可以通过爬虫程序向维基网站追查责任。现在呢？内容交换工具，这个词最近比较火，爬虫工具除了爬虫，还能做什么？目前市面上，基本上做不了。
　　为什么这么说？首先说我常用的几款爬虫工具。大家都知道，最常用的爬虫工具是5118。这款工具的核心技术是二级采集加页面下载，就是从你所抓取的网站内容页面，进行搜索，找到你需要的内容，然后，下载并返回相应的数据。但是，现在的爬虫工具，一般都要把你所抓取的网站内容“改头换面”后，才敢进行二级采集，你点击进去，发现，这种内容页没有了，又怎么办？其实，现在大家不用纠结这个，目前的所有采集工具都可以，只要使用正确的登录方式，一样能搜索到你需要的内容，而且，用正确的标签进行分类索引，也能搜索到你需要的内容。
　　如果你使用爬虫工具的二级登录方式，直接去找你需要的内容页面，会比较困难，因为，你要访问很多不同的网站，才能找到你需要的内容。二级登录方式，需要我们了解很多网站的登录页面。现在，就我所知，市面上主流的有8种网站登录方式。如果你不了解的话，可以在知乎搜索关键词“爬虫”，它很多相关内容。大家可以尝试下。主流登录方式有如下几种：二级登录方式有如下几种：二级登录方式现在的所有采集工具，都是登录方式，都是一个账号去找你需要的内容页面，或者，都是多个账号，以对同一页面的访问方式去抓取，获取所需内容。查看全部

　　内容交换工具除了爬虫，还能做什么？(图)
　　自动采集网站内容的软件，最近最火的莫过于爬虫工具。所以给这些网站采集团队，发放资源的时候，他们采用最多的协议就是scrapy。但爬虫工具又是什么呢？以前，爬虫工具的用途是帮我们找网站内容，查找可用的资源，更厉害一点，可以做工具的版权保护，一旦有问题，还可以通过爬虫程序向维基网站追查责任。现在呢？内容交换工具，这个词最近比较火，爬虫工具除了爬虫，还能做什么？目前市面上，基本上做不了。
　　为什么这么说？首先说我常用的几款爬虫工具。大家都知道，最常用的爬虫工具是5118。这款工具的核心技术是二级采集加页面下载，就是从你所抓取的网站内容页面，进行搜索，找到你需要的内容，然后，下载并返回相应的数据。但是，现在的爬虫工具，一般都要把你所抓取的网站内容“改头换面”后，才敢进行二级采集，你点击进去，发现，这种内容页没有了，又怎么办？其实，现在大家不用纠结这个，目前的所有采集工具都可以，只要使用正确的登录方式，一样能搜索到你需要的内容，而且，用正确的标签进行分类索引，也能搜索到你需要的内容。
　　如果你使用爬虫工具的二级登录方式，直接去找你需要的内容页面，会比较困难，因为，你要访问很多不同的网站，才能找到你需要的内容。二级登录方式，需要我们了解很多网站的登录页面。现在，就我所知，市面上主流的有8种网站登录方式。如果你不了解的话，可以在知乎搜索关键词“爬虫”，它很多相关内容。大家可以尝试下。主流登录方式有如下几种：二级登录方式有如下几种：二级登录方式现在的所有采集工具，都是登录方式，都是一个账号去找你需要的内容页面，或者，都是多个账号，以对同一页面的访问方式去抓取，获取所需内容。

采集拼多多商品评价内容

采集交流 • 优采云发表了文章 • 0 个评论 • 259 次浏览 • 2022-05-12 19:40 • 来自相关话题

　　采集拼多多商品评价内容
　　访问电商记网站（）安装浏览器插件v9.1.4以上版本即可使用本功能。
　　
　　流程一开始，用户输入一个拼多多商品ID。流程会打开一个拼多多商品评价页面，然后自动往下滚动页面。
　　
　　在评价页面滚动过程中，浏览器从网站获得评价数据，这些数据被解析为表格。当流程结束运行后，自动保存为Excel文件。
　　
　　采集结果包含5列或更多，第一列是评价内容，第二列是SKU名称，第三列是SKU的值，第四列是日期，第五列或更多是图片。
　　查看全部

　　采集拼多多商品评价内容
　　访问电商记网站（）安装浏览器插件v9.1.4以上版本即可使用本功能。
　　

　　流程一开始，用户输入一个拼多多商品ID。流程会打开一个拼多多商品评价页面，然后自动往下滚动页面。
　　

　　在评价页面滚动过程中，浏览器从网站获得评价数据，这些数据被解析为表格。当流程结束运行后，自动保存为Excel文件。
　　

　　采集结果包含5列或更多，第一列是评价内容，第二列是SKU名称，第三列是SKU的值，第四列是日期，第五列或更多是图片。
　　

优采云多线程采集搜狗问问实战第一节教学（可实现批量导入seo关键词采集）

采集交流 • 优采云发表了文章 • 0 个评论 • 95 次浏览 • 2022-05-12 19:37 • 来自相关话题

　　优采云多线程采集搜狗问问实战第一节教学（可实现批量导入seo关键词采集）
　　搜狗问问采集思路：
　　1、采集问答的真实地址
　　2、采集真实地址里的全部回答内容
　　——采集问答的真实地址——
　　第一步：搜狗问问网址采集规则
　　浏览器打开F12进行抓包，分析列表地址的变化规则
　　
　　注意：问答地址是做了JS跳转的，不是真实的地址
　　
　　
　　（得出）网址采集规则：
　　https://www.sogou.com/sogou?query=[地址参数]&pid=sogou-wsse-a9e18cb5dd9d3ab4&duppid=1&cid=&s_from=result_up&insite=wenwen.sogou.com&page=[地址参数1]&ie=utf8
　　
　　地址参数：关键词，一行一个
　　地址参数1：页数，搜狗问问的最大页数是100页
　　第二步：搜狗问问内容采集规则
　　根据上面的设置获取到的地址如：
　　https://www.sogou.com/link%3Fu ... tjw..
　　请求上面的网址，源码如下所示
　　
　　前后截取，获取真实的问答地址
　　
　　效果演示如下，多线程采集，速度超快
　　
　　剑侠SEO（VX：LA_1980）
　　十年以上SEO行业工作经验，管理着数十人的SEO团队，擅长网站seo、自媒体seo推广，精通易语言+python软件开发，以更低的成本获取更多精准客户。
　　专注研究的SEO流量获取技术：采集手法、混沌重组、批量运维、自动管理；不谈理论，只讲实战，实战多了，所谓的理论便是自已实战后的经验总结！查看全部

　　优采云多线程采集搜狗问问实战第一节教学（可实现批量导入seo关键词采集）
　　搜狗问问采集思路：
　　1、采集问答的真实地址
　　2、采集真实地址里的全部回答内容
　　——采集问答的真实地址——
　　第一步：搜狗问问网址采集规则
　　浏览器打开F12进行抓包，分析列表地址的变化规则
　　

　　注意：问答地址是做了JS跳转的，不是真实的地址
　　

　　（得出）网址采集规则：
　　https://www.sogou.com/sogou?query=[地址参数]&pid=sogou-wsse-a9e18cb5dd9d3ab4&duppid=1&cid=&s_from=result_up&insite=wenwen.sogou.com&page=[地址参数1]&ie=utf8
　　

　　地址参数：关键词，一行一个
　　地址参数1：页数，搜狗问问的最大页数是100页
　　第二步：搜狗问问内容采集规则
　　根据上面的设置获取到的地址如：
　　https://www.sogou.com/link%3Fu ... tjw..
　　请求上面的网址，源码如下所示
　　

　　前后截取，获取真实的问答地址
　　

　　效果演示如下，多线程采集，速度超快
　　

　　剑侠SEO（VX：LA_1980）
　　十年以上SEO行业工作经验，管理着数十人的SEO团队，擅长网站seo、自媒体seo推广，精通易语言+python软件开发，以更低的成本获取更多精准客户。
　　专注研究的SEO流量获取技术：采集手法、混沌重组、批量运维、自动管理；不谈理论，只讲实战，实战多了，所谓的理论便是自已实战后的经验总结！

信息收集系列|子域名收集姿势总结

采集交流 • 优采云发表了文章 • 0 个评论 • 78 次浏览 • 2022-05-10 17:40 • 来自相关话题

信息收集系列|子域名收集姿势总结
　　声明：本文在FreeBuf首发，首发链接为：概述
　　在渗透测试或SRC漏洞挖掘中，安全测试人员通常会得到一些域名资产。为了更好地进行渗透测试，通常都需要进行子域名收集。
　　为什么需要进行子域名收集？
　　扩大资产范围，可以增加漏洞发现的概率
　　众所周知，一般情况下主站的安全性可能相对较高，而一些不常用的子站或者上线不久的站点，可能安全方面的考虑还没有很周全，可能成为目标系统的脆弱点
　　通常情况下，同一组织采用相同应用搭建多个服务的可能性很大，以及补丁的情况也可能大致相同，因此，存在相同漏洞的概率非常大
　　子域名收集通常分为两种方式，分别为被动收集和主动收集。
　　被动收集是指，在不与目标系统进行交互的情况下，通过第三方进行收集。这种方式有着明显的优势，因为不需要和目标系统进行交互，所以不会对目标系统造成任何影响，更不会触发任何安全产品的告警。
　　被动子域名收集的方式：
　　主动收集是指，通过与目标系统进行交互，对子域名进行收集。因为需要和目标系统进行交互，很可能出现高频访问等情况，有触犯安全产品告警的风险。
　　主动收集子域名的方式：
　　被动子域名收集信息泄露搜索引擎
　　常用的搜索引擎有Google和百度，基础的搜索语法：
　　site:*.baidu.com
　　一般用作工具搜集的补充，也可以编写脚本进行批量操作
　　网络资产搜索引擎
　　常见的空间测绘引擎：
　　直接在搜索框使用语法进行搜素，基础语法：
　　domain=Your_domain
　　也可以利用API进行搜索
　　 echo 'domain="baidu.com"' | base64 - | xargs -I{} curl "https://fofa.info/api/v1/search/all?email=${Your_Mail}&key=${Your_Key}&page=1&qbase64={}"
　　再编写个脚本，对返回的数据进行简单的处理，即可获得一个子域名列表。
　　import requests from base64 import b64encode import json # 配置信息 domain = 'domain="baidu.com"' domain = str(b64encode(domain.encode("utf-8")), "utf-8") email = "Your_email" key = "Your_key" # end url = "https://fofa.info/api/v1/search/all?email={email}&key={key}&qbase64={domain}".format(email=email, key=key, domain=domain) + "&page={page}" page = 1 subdomain = list() while True: url = url.format(page=str(page)) req = requests.get(url=url).text result = json.loads(req)['results'] if result: tmp = [i[0] for i in result] subdomain += tmp else: break page += 1 print(set(subdomain)) # 去重
　　注：这里的代码仅仅是展现处理的逻辑，暂未考虑优化处理，师傅们轻喷~
　　第三方DNS服务VirusTotal
　　VirusTotal会运行DNS复制功能，通过存储用户访问URL时执行的DNS解析来构建数据库。
　　
　　
　　
　　其他在线DNS工具汇总：
　　证书透明
　　常用证书透明查询网站
　　使用也是比较简单，直接搜索主域名即可。因为这种方法的原理是根据日志信息收集，只增不减，所以可能会出现一些失效的子域名。
　　ASN
　　AS 号码帮助识别属于组织的网络块，而该网络快又可能具有有效域
　　查找ASN
　　使用nmap进行查找
　　nmap --script targets-asn --script-args targets-asn.asn=Your_asn > netblocks.txt
　　像fofa这类的网络空间测绘引擎也支持ASN查找
　　SAN
　　SAN(Subject Alternative Name) 是 SSL 标准 x509 中定义的一个扩展。使用了 SAN 字段的 SSL 证书，可以扩展此证书支持的域名，使得一个证书可以支持多个不同域名的解析。
　　允许在安全证书中使用 subjectAltName 字段将多种值与证书关联，这些值被称为主题备用名称。名称可包括：IP地址、DNS名称等。
　　这里用火狐浏览器作为例子：
　　
　　
　　
　　
　　也可以使用 appsecco 提供的shell脚本： sed -ne 's/^$ *$Subject:/\1/p;/X509v3 Subject Alternative Name/{ N;s/^.*\n//;:a;s/^$ *$$.*$, /\1\2\n\1/;ta;p;q; }' < 查看全部

信息收集系列|子域名收集姿势总结
　　声明：本文在FreeBuf首发，首发链接为：概述
　　在渗透测试或SRC漏洞挖掘中，安全测试人员通常会得到一些域名资产。为了更好地进行渗透测试，通常都需要进行子域名收集。
　　为什么需要进行子域名收集？
　　扩大资产范围，可以增加漏洞发现的概率
　　众所周知，一般情况下主站的安全性可能相对较高，而一些不常用的子站或者上线不久的站点，可能安全方面的考虑还没有很周全，可能成为目标系统的脆弱点
　　通常情况下，同一组织采用相同应用搭建多个服务的可能性很大，以及补丁的情况也可能大致相同，因此，存在相同漏洞的概率非常大
　　子域名收集通常分为两种方式，分别为被动收集和主动收集。
　　被动收集是指，在不与目标系统进行交互的情况下，通过第三方进行收集。这种方式有着明显的优势，因为不需要和目标系统进行交互，所以不会对目标系统造成任何影响，更不会触发任何安全产品的告警。
　　被动子域名收集的方式：
　　主动收集是指，通过与目标系统进行交互，对子域名进行收集。因为需要和目标系统进行交互，很可能出现高频访问等情况，有触犯安全产品告警的风险。
　　主动收集子域名的方式：
　　被动子域名收集信息泄露搜索引擎
　　常用的搜索引擎有Google和百度，基础的搜索语法：
　　site:*.baidu.com
　　一般用作工具搜集的补充，也可以编写脚本进行批量操作
　　网络资产搜索引擎
　　常见的空间测绘引擎：
　　直接在搜索框使用语法进行搜素，基础语法：
　　domain=Your_domain
　　也可以利用API进行搜索
　　 echo 'domain="baidu.com"' | base64 - | xargs -I{} curl "https://fofa.info/api/v1/search/all?email=${Your_Mail}&key=${Your_Key}&page=1&qbase64={}"
　　再编写个脚本，对返回的数据进行简单的处理，即可获得一个子域名列表。
　　import requests from base64 import b64encode import json # 配置信息 domain = 'domain="baidu.com"' domain = str(b64encode(domain.encode("utf-8")), "utf-8") email = "Your_email" key = "Your_key" # end url = "https://fofa.info/api/v1/search/all?email={email}&key={key}&qbase64={domain}".format(email=email, key=key, domain=domain) + "&page={page}" page = 1 subdomain = list() while True: url = url.format(page=str(page)) req = requests.get(url=url).text result = json.loads(req)['results'] if result: tmp = [i[0] for i in result] subdomain += tmp else: break page += 1 print(set(subdomain)) # 去重
　　注：这里的代码仅仅是展现处理的逻辑，暂未考虑优化处理，师傅们轻喷~
　　第三方DNS服务VirusTotal
　　VirusTotal会运行DNS复制功能，通过存储用户访问URL时执行的DNS解析来构建数据库。

　　其他在线DNS工具汇总：
　　证书透明
　　常用证书透明查询网站
　　使用也是比较简单，直接搜索主域名即可。因为这种方法的原理是根据日志信息收集，只增不减，所以可能会出现一些失效的子域名。
　　ASN
　　AS 号码帮助识别属于组织的网络块，而该网络快又可能具有有效域
　　查找ASN
　　使用nmap进行查找
　　nmap --script targets-asn --script-args targets-asn.asn=Your_asn > netblocks.txt
　　像fofa这类的网络空间测绘引擎也支持ASN查找
　　SAN
　　SAN(Subject Alternative Name) 是 SSL 标准 x509 中定义的一个扩展。使用了 SAN 字段的 SSL 证书，可以扩展此证书支持的域名，使得一个证书可以支持多个不同域名的解析。
　　允许在安全证书中使用 subjectAltName 字段将多种值与证书关联，这些值被称为主题备用名称。名称可包括：IP地址、DNS名称等。
　　这里用火狐浏览器作为例子：
　　

也可以使用 appsecco 提供的shell脚本： sed -ne 's/^$ *$Subject:/\1/p;/X509v3 Subject Alternative Name/{ N;s/^.*\n//;:a;s/^$ *$$.*$, /\1\2\n\1/;ta;p;q; }' <

【观点交锋】输入法可以收集用户上传的内容！要智能还是隐私？

采集交流 • 优采云发表了文章 • 0 个评论 • 106 次浏览 • 2022-05-10 06:45 • 来自相关话题

　　【观点交锋】输入法可以收集用户上传的内容！要智能还是隐私？
　　
　　“和朋友聊到微波炉、尿布、洗面奶等东西时，发现有输入法自动推送了广告。”近日，一位网友在知乎上发出了这样的问题描述。这个问题得到了不少网友的共鸣。
　　记者通过华为应用商店下载了推荐排名前列的5款输入法App，发现其中4款App均有提示加入或默认勾选加入的“用户体验改进计划”，而该计划的主要内容就是输入法可以收集用户上传的内容。而对于是否会根据聊天内容推送广告，不同输入法的隐私政策则有不同的解读。
　　对此，有专家表示只有收集用户输入习惯，才能优化输入法的输入体验，这是技术发展的需要；但也有网友担心，这样会窥探用户隐私。
　　那么输入法可以收集用户上传内容的做法，您觉得妥当吗？
　　观点交锋现在开始
　　
　　实测：4家输入法用户服务协议
　　规定有权收集用户上传内容
　　
　　
　　其中，搜狗输入法和QQ输入法在首次登录后，会弹窗提示用户加入“用户体验计划”，而百度输入法和讯飞输入法则会默认勾选加入“用户体验计划”（可手动取消），4款App均规定，加入用户体验计划即代表用户同意相关用户服务协议或隐私条款。
　　记者打开搜狗输入法用户服务协议发现，该协议3.1用户权利条款规定“您理解并同意，我们有权对您上传的内容进行存储。您授权我们对您上传的内容进行合理的使用，包括但不限于产品分析、宣传、推广等。”
　　
　　
　　网友：输入法推送广告还弹窗
　　专业人士：免费的代价
　　前述网友在与朋友通过微信聊天谈到“最怕换尿布”的聊天内容时，搜狗输入法输入界面弹出了“孩子容易得尿布疹看看对策！”的广告弹窗。
　　
　　记者搜索发现，除了在输入法输入界面弹出广告外，有更多人对搜狗输入法PC端上存在弹窗广告一事有更深的“怨念”，搜索如何关闭搜狗弹窗广告的问题很多，此外，记者实测发现有时使用搜狗输入法在搜索引擎搜索关键词时，会出现搜狗输入法自动跳转到搜狗搜索的情况。
　　“其实这都是国人不愿意为软件付费导致，这么做其实只会使得谋求利益的行为隐而不彰，以致容易无所顾忌。”知乎认证为小众输入法开发作坊主的网友“岁寒”吐槽到，“国人并不愿意为软件付费，甚至大有老子用你的软件是看得起你的傲娇之心。对于应用开发者而言，用户不愿意付费是吧，没关系，总会办法让你把钱吐出来的。”
　　在记者测试的5款输入法App中，章鱼输入法并没有与其他4款输入法一样要求记者加入“用户体验计划”，但记者在使用该App中发现不少弹窗广告。此外，该输入法号称拥有“金币提现”功能，即输入字符越多可获越多金额奖励，对于该功能，其表示是根据“点击键盘的次数”来判断输入的字符数量，不会涉及键入信息的具体内容。当记者点击足够多次数时，发现了一个金币领取选项，当点击领取时，该输入法再度跳出了广告，照此看来，章鱼输入法是走出了一条“用户主动点击广告赚钱”的模式……
　　对此，有业界人士告诉记者，输入法广告同其他免费App的广告一样，是当前免费模式下的无奈之选。“微软智能ABC没有广告，但你看谁用它？如果需要便捷的功能以及联想就可弹出的表情包，都需要一定支出，此时只能通过广告等手段才能让输入法盈利，从另一方面来说，免费的就是最贵的。”
　　网友大红苹果甜malic表示，目前一般有广告的输入法都是智能输入法，一定要有云词库，还可以登录账号。“智能化是需要开销的，例如不同专业的人士输入某个词的时候，输入法根据你以前输入的习惯与特点，可以把专业相关的词汇放在相当靠前的位置，方便你输入。相比于离线的输入法，这部分开销还是有点影响的。当然，很少有输入法要人付费使用，那就要靠广告。虽然很烦，但就当作是智能输入法的代价吧。”
　　你怎么看？查看全部

　　【观点交锋】输入法可以收集用户上传的内容！要智能还是隐私？
　　

　　“和朋友聊到微波炉、尿布、洗面奶等东西时，发现有输入法自动推送了广告。”近日，一位网友在知乎上发出了这样的问题描述。这个问题得到了不少网友的共鸣。
　　记者通过华为应用商店下载了推荐排名前列的5款输入法App，发现其中4款App均有提示加入或默认勾选加入的“用户体验改进计划”，而该计划的主要内容就是输入法可以收集用户上传的内容。而对于是否会根据聊天内容推送广告，不同输入法的隐私政策则有不同的解读。
　　对此，有专家表示只有收集用户输入习惯，才能优化输入法的输入体验，这是技术发展的需要；但也有网友担心，这样会窥探用户隐私。
　　那么输入法可以收集用户上传内容的做法，您觉得妥当吗？
　　观点交锋现在开始
　　

　　实测：4家输入法用户服务协议
　　规定有权收集用户上传内容
　　

　　其中，搜狗输入法和QQ输入法在首次登录后，会弹窗提示用户加入“用户体验计划”，而百度输入法和讯飞输入法则会默认勾选加入“用户体验计划”（可手动取消），4款App均规定，加入用户体验计划即代表用户同意相关用户服务协议或隐私条款。
　　记者打开搜狗输入法用户服务协议发现，该协议3.1用户权利条款规定“您理解并同意，我们有权对您上传的内容进行存储。您授权我们对您上传的内容进行合理的使用，包括但不限于产品分析、宣传、推广等。”
　　

　　网友：输入法推送广告还弹窗
　　专业人士：免费的代价
　　前述网友在与朋友通过微信聊天谈到“最怕换尿布”的聊天内容时，搜狗输入法输入界面弹出了“孩子容易得尿布疹看看对策！”的广告弹窗。
　　

　　记者搜索发现，除了在输入法输入界面弹出广告外，有更多人对搜狗输入法PC端上存在弹窗广告一事有更深的“怨念”，搜索如何关闭搜狗弹窗广告的问题很多，此外，记者实测发现有时使用搜狗输入法在搜索引擎搜索关键词时，会出现搜狗输入法自动跳转到搜狗搜索的情况。
　　“其实这都是国人不愿意为软件付费导致，这么做其实只会使得谋求利益的行为隐而不彰，以致容易无所顾忌。”知乎认证为小众输入法开发作坊主的网友“岁寒”吐槽到，“国人并不愿意为软件付费，甚至大有老子用你的软件是看得起你的傲娇之心。对于应用开发者而言，用户不愿意付费是吧，没关系，总会办法让你把钱吐出来的。”
　　在记者测试的5款输入法App中，章鱼输入法并没有与其他4款输入法一样要求记者加入“用户体验计划”，但记者在使用该App中发现不少弹窗广告。此外，该输入法号称拥有“金币提现”功能，即输入字符越多可获越多金额奖励，对于该功能，其表示是根据“点击键盘的次数”来判断输入的字符数量，不会涉及键入信息的具体内容。当记者点击足够多次数时，发现了一个金币领取选项，当点击领取时，该输入法再度跳出了广告，照此看来，章鱼输入法是走出了一条“用户主动点击广告赚钱”的模式……
　　对此，有业界人士告诉记者，输入法广告同其他免费App的广告一样，是当前免费模式下的无奈之选。“微软智能ABC没有广告，但你看谁用它？如果需要便捷的功能以及联想就可弹出的表情包，都需要一定支出，此时只能通过广告等手段才能让输入法盈利，从另一方面来说，免费的就是最贵的。”
　　网友大红苹果甜malic表示，目前一般有广告的输入法都是智能输入法，一定要有云词库，还可以登录账号。“智能化是需要开销的，例如不同专业的人士输入某个词的时候，输入法根据你以前输入的习惯与特点，可以把专业相关的词汇放在相当靠前的位置，方便你输入。相比于离线的输入法，这部分开销还是有点影响的。当然，很少有输入法要人付费使用，那就要靠广告。虽然很烦，但就当作是智能输入法的代价吧。”
　　你怎么看？

Emlog采集插件-无需像优采云一样写入采集规则以及发布模块

采集交流 • 优采云发表了文章 • 0 个评论 • 365 次浏览 • 2022-05-10 02:19 • 来自相关话题

　　Emlog采集插件-无需像优采云一样写入采集规则以及发布模块
　　Emlog采集插件，什么是Emlog采集插件，可以实现自动采集发布吗？不用像优采云一样写规则吗？今天给大家分享一款
　　免费的Emlog采集发布工具
　　：只需要输入关键词或输入指定域名就能实现采集，采集后自动发布到网站后台。
　　无需像优采云一样写入代码规则就能实现全自动采集发布，详细教程可参考图片。
　　
　　Emlog采集也是需要注意关键词密度是一个或多个关键词在网页上呈现的总次数与其他词的比率。相关于页面上的总词数，呈现的关键词越多，总关键词密度越大。其他词呈现的次数越多，关键词所占比例越低，关键词密度越小。
　　
　　Emlog采集关键词密度是许多搜索引擎的搜索算法之一，包括Google、Yahoo和MSN。每一个搜索引擎都有一套关于关键词密度的不同数学公式，能够让你取得更高的排名。就惩罚前允许的关键词密度水平而言，不同的搜索引擎也有不同的容忍度。
　　Emlog采集关键词是搜索者在搜索信息、产品或效劳时进入搜索引擎界面的术语。关键词是搜索引擎算法执行的数学运算中的一个要素，用来肯定数十亿网页和特定搜索之间的相关性。搜索算法以为与关键词搜索最相关的页面将依次排序。
　　
　　Emlog采集关键词能够是单个单词，也能够是包含该单词的单词。这两种办法对搜索者查找信息都很有用。普通规则是关键词越长，从搜索引擎索引返回的信息就越精确。
　　固然没有固定的关键词公式，但将关键词占网页总词数的比例控制在5%以下可能是不错的做法。太多的关键词可能会触发关键词填充过滤器。假如关键词在网页文本中呈现的次数过多，会减少读者的保存时间，降低访问者向付费用户的转化率。毕竟，Emlog采集对于任何一个商业网站来说，网页的目的是把访问者变成顾客。关于内容网站，其目的是让尽可能多的访问者阅读有用的信息。糟糕的写作会产生相反的效果。
　　关键词密度是指一个页面上运用的关键词数量与讨论页面上总单词数的比率。关键词散布是指这些关键词在网页上的位置。它能够是标题标志、链接、标题、正文或任何文本的中文。
　　
　　一些SEO优化师以为，将关键词放在页面的较高位置会使页面的搜索排名飙升。但是，并非一切地搜索引擎察看家都这么以为。普通来说，尽量依照正常的编辑作风在整个网页内容中散布关键词。Emlog采集看起来自然的内容更容易阅读，而且，像在页面上特别散布的关键词，在搜索排名中得分会更好。
　　网站频繁变动
　　比方经常修正网站架构、标题等之类的缘由，特别是新站，这个是特别要留意的中央。
　　网站后台的代码太乱
　　这个乱不光说的是格式，同时也说的是内容。
　　网站外链
　　网站发布大量的高质量外链，数量也越大，网站快照的更新速度越快，并且越有规律。假如发布低质量的链接，会影响到内容收录的问题。
　　内容比较敏感
　　搜索引擎是经过过滤人工干预过的，假如网站的内容有敏感的内容都会影响到你的网站，留意单个文章也会影响你的网站。
　　
　　JS代码溢出
　　搜索引擎对JS代码并没什么关系，假如让JS代码不经过调用直接显现在搜索引擎的眼前，那么最大的难点就是形成蜘蛛的匍匐艰难，自然就会影响到快照的更新了。
　　总结：关于
　　使用Emlog采集发布来说这一款工具相对于来说会简单很多，无需像其它采集工具那样会写入很多的规则以及代码。好了今天的Emlog采集发布教程就分享到这里了。查看全部

　　Emlog采集插件-无需像优采云一样写入采集规则以及发布模块
　　Emlog采集插件，什么是Emlog采集插件，可以实现自动采集发布吗？不用像优采云一样写规则吗？今天给大家分享一款
　　免费的Emlog采集发布工具
　　：只需要输入关键词或输入指定域名就能实现采集，采集后自动发布到网站后台。
　　无需像优采云一样写入代码规则就能实现全自动采集发布，详细教程可参考图片。
　　

　　Emlog采集也是需要注意关键词密度是一个或多个关键词在网页上呈现的总次数与其他词的比率。相关于页面上的总词数，呈现的关键词越多，总关键词密度越大。其他词呈现的次数越多，关键词所占比例越低，关键词密度越小。
　　

　　Emlog采集关键词密度是许多搜索引擎的搜索算法之一，包括Google、Yahoo和MSN。每一个搜索引擎都有一套关于关键词密度的不同数学公式，能够让你取得更高的排名。就惩罚前允许的关键词密度水平而言，不同的搜索引擎也有不同的容忍度。
　　Emlog采集关键词是搜索者在搜索信息、产品或效劳时进入搜索引擎界面的术语。关键词是搜索引擎算法执行的数学运算中的一个要素，用来肯定数十亿网页和特定搜索之间的相关性。搜索算法以为与关键词搜索最相关的页面将依次排序。
　　

　　Emlog采集关键词能够是单个单词，也能够是包含该单词的单词。这两种办法对搜索者查找信息都很有用。普通规则是关键词越长，从搜索引擎索引返回的信息就越精确。
　　固然没有固定的关键词公式，但将关键词占网页总词数的比例控制在5%以下可能是不错的做法。太多的关键词可能会触发关键词填充过滤器。假如关键词在网页文本中呈现的次数过多，会减少读者的保存时间，降低访问者向付费用户的转化率。毕竟，Emlog采集对于任何一个商业网站来说，网页的目的是把访问者变成顾客。关于内容网站，其目的是让尽可能多的访问者阅读有用的信息。糟糕的写作会产生相反的效果。
　　关键词密度是指一个页面上运用的关键词数量与讨论页面上总单词数的比率。关键词散布是指这些关键词在网页上的位置。它能够是标题标志、链接、标题、正文或任何文本的中文。
　　

　　一些SEO优化师以为，将关键词放在页面的较高位置会使页面的搜索排名飙升。但是，并非一切地搜索引擎察看家都这么以为。普通来说，尽量依照正常的编辑作风在整个网页内容中散布关键词。Emlog采集看起来自然的内容更容易阅读，而且，像在页面上特别散布的关键词，在搜索排名中得分会更好。
　　网站频繁变动
　　比方经常修正网站架构、标题等之类的缘由，特别是新站，这个是特别要留意的中央。
　　网站后台的代码太乱
　　这个乱不光说的是格式，同时也说的是内容。
　　网站外链
　　网站发布大量的高质量外链，数量也越大，网站快照的更新速度越快，并且越有规律。假如发布低质量的链接，会影响到内容收录的问题。
　　内容比较敏感
　　搜索引擎是经过过滤人工干预过的，假如网站的内容有敏感的内容都会影响到你的网站，留意单个文章也会影响你的网站。
　　

　　JS代码溢出
　　搜索引擎对JS代码并没什么关系，假如让JS代码不经过调用直接显现在搜索引擎的眼前，那么最大的难点就是形成蜘蛛的匍匐艰难，自然就会影响到快照的更新了。
　　总结：关于
　　使用Emlog采集发布来说这一款工具相对于来说会简单很多，无需像其它采集工具那样会写入很多的规则以及代码。好了今天的Emlog采集发布教程就分享到这里了。

像 Pinterest 一样收集、整理网页内容

采集交流 • 优采云发表了文章 • 0 个评论 • 81 次浏览 • 2022-05-09 10:44 • 来自相关话题

　　像 Pinterest 一样收集、整理网页内容
　　Cutouts 几乎仿照了 Pinterest 的全部使用流程，针对网页上的文字、图片，或者视频，只需要右键，选择Save to Cutouts，就被保存了下来。
　　
　　再点击 Chrome 扩展栏的 Cutouts 按钮后，可以看到 Cutouts 已经根据图片、文字、视频，以及颜色进行了自动筛选，并且还可以在左边栏添加分类：
　　
　　Cutouts 会自动提取图片的颜色：
　　
　　最终，所有数据都可以导出为 CSV 文件，结构也非常简单，如果想要进行二次利用的话，不是难事。
　　
　　相比较笔记工具，Cutouts 适合做无干扰的第一次初筛选，之后再导入正经的笔记工具，也是完全没问题的。
　　Cutouts 非常适合在很多个网页上收集多种类型的资料，有来源，有引用，有预览，展示也算简洁明了，Chrome 商店地址，免费使用。
　　查看全部

　　像 Pinterest 一样收集、整理网页内容
　　Cutouts 几乎仿照了 Pinterest 的全部使用流程，针对网页上的文字、图片，或者视频，只需要右键，选择Save to Cutouts，就被保存了下来。
　　

　　再点击 Chrome 扩展栏的 Cutouts 按钮后，可以看到 Cutouts 已经根据图片、文字、视频，以及颜色进行了自动筛选，并且还可以在左边栏添加分类：
　　

　　Cutouts 会自动提取图片的颜色：
　　

　　最终，所有数据都可以导出为 CSV 文件，结构也非常简单，如果想要进行二次利用的话，不是难事。
　　

　　相比较笔记工具，Cutouts 适合做无干扰的第一次初筛选，之后再导入正经的笔记工具，也是完全没问题的。
　　Cutouts 非常适合在很多个网页上收集多种类型的资料，有来源，有引用，有预览，展示也算简洁明了，Chrome 商店地址，免费使用。
　　

健康码、行程码可自动识别！收集核对更轻松

采集交流 • 优采云发表了文章 • 0 个评论 • 201 次浏览 • 2022-05-08 13:08 • 来自相关话题

　　健康码、行程码可自动识别！收集核对更轻松
　　节后返工返校，为做好疫情防控工作，老师们都会忙于收集健康码、行程卡等信息，但截图整理麻烦，核对排查也很费时。
　　WPS表单上线了健康码识别、行程卡识别功能，可自动识别上传的截图，将红绿黄码、行程是否带星等关键信息提取到表格，帮助大家高效完成收集。
　　企业微信中扫码进入小程序使用
　　
　　01自动识别图片信息，核查更高效截图信息自动填充
　　以老师的收集工作为例，每次收集学生及同住人的健康码、行程卡截图，需逐一把图片下载保存，还要把本人信息及截图对应起来整理到表格中便于后续统计，工作量非常大。
　　如果使用表单进行收集，学生家长在填写页面上传健康码截图，就能提取出如码色、日期、核酸检测时间等关键信息并完成填写。
　　
　　网络不佳情况下，识别时间可能会稍慢
　　同样，上传行程卡也可以识别是否途径中高风险地区（带星），还可以提取途径的全部城市，方便后续的排查。
　　
　　网络不佳情况下，识别时间可能会稍慢收集结果自动统计
　　批量收集的结果是否有黄码、行程带星等异常情况，在统计页面会高亮显示，收集者的名字与上传的健康码图片、截图信息一一对应，筛查时一眼便知。
　　
　　入口：重新进入表单-数据统计&分析页面
　　如果想要快速找出收集人员是否途径某个中高风险地区、或检查是否持24小时核酸。我们可以在数据汇总表中，选择用【WPS打开】，回到我们能熟悉的WPS表格界面，使用「筛选」、「查找」等功能来进行深度处理。
　　
　　入口：重新进入表单-右上角「查看数据汇总表」-WPS打开02使用教程用模板，快速创建收集表单
　　打开电脑版WPS，点击左上角【新建】，在新建表单页面，按需选择表单模板快速进行创建。
　　
　　手机用户可直接点击下方，使用模板快速创建收集表：
　　在「健康码识别」、「行程卡识别」题目中还可以设置「选择识别信息」，选择想要提取的信息。比如上传截图的日期、是否有24/48小时核酸、接种疫苗次数等等。如需同时收集与同住人的健康码截图，还可以灵活设置多张上传张数。
　　
　　健康码识别支持的地区，以产品最新上线为准。
　　倘若每天都需要进行健康信息的收集，我们可以把表单设置为定期收集，无需每天重新点击发布。
　　
　　想要随时查看表单统计进度，可以在电脑版WPS应用的【分享协作】中，找到「统计表单」点击星标星，将它添加到WPS首页左边侧栏，即可在WPS首页进入查看。
　　查看全部

　　健康码、行程码可自动识别！收集核对更轻松
　　节后返工返校，为做好疫情防控工作，老师们都会忙于收集健康码、行程卡等信息，但截图整理麻烦，核对排查也很费时。
　　WPS表单上线了健康码识别、行程卡识别功能，可自动识别上传的截图，将红绿黄码、行程是否带星等关键信息提取到表格，帮助大家高效完成收集。
　　企业微信中扫码进入小程序使用
　　

　　01自动识别图片信息，核查更高效截图信息自动填充
　　以老师的收集工作为例，每次收集学生及同住人的健康码、行程卡截图，需逐一把图片下载保存，还要把本人信息及截图对应起来整理到表格中便于后续统计，工作量非常大。
　　如果使用表单进行收集，学生家长在填写页面上传健康码截图，就能提取出如码色、日期、核酸检测时间等关键信息并完成填写。
　　

　　网络不佳情况下，识别时间可能会稍慢
　　同样，上传行程卡也可以识别是否途径中高风险地区（带星），还可以提取途径的全部城市，方便后续的排查。
　　

　　网络不佳情况下，识别时间可能会稍慢收集结果自动统计
　　批量收集的结果是否有黄码、行程带星等异常情况，在统计页面会高亮显示，收集者的名字与上传的健康码图片、截图信息一一对应，筛查时一眼便知。
　　

　　入口：重新进入表单-数据统计&分析页面
　　如果想要快速找出收集人员是否途径某个中高风险地区、或检查是否持24小时核酸。我们可以在数据汇总表中，选择用【WPS打开】，回到我们能熟悉的WPS表格界面，使用「筛选」、「查找」等功能来进行深度处理。
　　

　　入口：重新进入表单-右上角「查看数据汇总表」-WPS打开02使用教程用模板，快速创建收集表单
　　打开电脑版WPS，点击左上角【新建】，在新建表单页面，按需选择表单模板快速进行创建。
　　

　　手机用户可直接点击下方，使用模板快速创建收集表：
　　在「健康码识别」、「行程卡识别」题目中还可以设置「选择识别信息」，选择想要提取的信息。比如上传截图的日期、是否有24/48小时核酸、接种疫苗次数等等。如需同时收集与同住人的健康码截图，还可以灵活设置多张上传张数。
　　

　　健康码识别支持的地区，以产品最新上线为准。
　　倘若每天都需要进行健康信息的收集，我们可以把表单设置为定期收集，无需每天重新点击发布。
　　

　　想要随时查看表单统计进度，可以在电脑版WPS应用的【分享协作】中，找到「统计表单」点击星标星，将它添加到WPS首页左边侧栏，即可在WPS首页进入查看。
　　

极简技术：健康码、行程码异常可自动识别！收集核对更轻松

采集交流 • 优采云发表了文章 • 0 个评论 • 159 次浏览 • 2022-05-08 13:00 • 来自相关话题

　　极简技术：健康码、行程码异常可自动识别！收集核对更轻松
　　节后返工返校，为做好疫情防控工作，行政、老师们都会忙于收集健康码、行程卡等信息，但截图整理麻烦，核对排查也很费时。
　　WPS表单上线了健康码识别、行程卡识别功能，可自动识别上传的截图，将红绿黄码、行程是否带星等关键信息提取到表格，帮助大家高效完成收集。
　　01自动识别图片信息，核查更高效截图信息自动填充
　　以老师的收集工作为例，每次收集学生及同住人的健康码、行程卡截图，需逐一把图片下载保存，还要把本人信息及截图对应起来整理到表格中便于后续统计，工作量非常大。
　　如果使用表单进行收集，学生家长在填写页面上传健康码截图，就能提取出如码色、日期、核酸检测时间等关键信息并完成填写。
　　
　　网络不佳情况下，识别时间可能会稍慢
　　同样，上传行程卡也可以识别是否途径中高风险地区（带星），还可以提取途径的全部城市，方便后续的排查。
　　
　　网络不佳情况下，识别时间可能会稍慢收集结果自动统计
　　批量收集的结果是否有黄码、行程带星等异常情况，在统计页面会高亮显示，收集者的名字与上传的健康码图片、截图信息一一对应，筛查时一眼便知。
　　
　　入口：重新进入表单-数据统计&分析页面
　　如果想要快速找出收集人员是否途经某个中高风险地区、或检查是否持24小时核酸。我们可以在数据汇总表中，选择用【WPS打开】，回到我们能熟悉的WPS表格界面，使用「筛选」、「查找」等功能来进行深度处理。
　　
　　入口：重新进入表单-右上角「查看数据汇总表」-WPS打开02使用教程用模板，快速创建收集表单
　　打开电脑版WPS，点击左上角【新建】，在新建表单页面，按需选择表单模板快速进行创建。
　　
　　手机用户可直接点击下方，使用模板快速创建收集表：
　　在「健康码识别」、「行程卡识别」题目中还可以设置「选择识别信息」，选择想要提取的信息。比如上传截图的日期、是否有24/48小时核酸、接种疫苗次数等等。如需同时收集与同住人的健康码截图，还可以灵活设置多张上传张数。
　　
　　健康码识别支持的地区，以产品最新上线为准。
　　倘若每天都需要进行健康信息的收集，我们可以把表单设置为定期收集，无需每天重新点击发布。
　　
　　想要随时查看表单统计进度，可以在电脑版WPS应用的【分享协作】中，找到「统计表单」点击星标星，将它添加到WPS首页左边侧栏，即可在WPS首页进入查看。
　　查看全部

　　极简技术：健康码、行程码异常可自动识别！收集核对更轻松
　　节后返工返校，为做好疫情防控工作，行政、老师们都会忙于收集健康码、行程卡等信息，但截图整理麻烦，核对排查也很费时。
　　WPS表单上线了健康码识别、行程卡识别功能，可自动识别上传的截图，将红绿黄码、行程是否带星等关键信息提取到表格，帮助大家高效完成收集。
　　01自动识别图片信息，核查更高效截图信息自动填充
　　以老师的收集工作为例，每次收集学生及同住人的健康码、行程卡截图，需逐一把图片下载保存，还要把本人信息及截图对应起来整理到表格中便于后续统计，工作量非常大。
　　如果使用表单进行收集，学生家长在填写页面上传健康码截图，就能提取出如码色、日期、核酸检测时间等关键信息并完成填写。
　　

　　网络不佳情况下，识别时间可能会稍慢
　　同样，上传行程卡也可以识别是否途径中高风险地区（带星），还可以提取途径的全部城市，方便后续的排查。
　　

　　网络不佳情况下，识别时间可能会稍慢收集结果自动统计
　　批量收集的结果是否有黄码、行程带星等异常情况，在统计页面会高亮显示，收集者的名字与上传的健康码图片、截图信息一一对应，筛查时一眼便知。
　　

　　入口：重新进入表单-数据统计&分析页面
　　如果想要快速找出收集人员是否途经某个中高风险地区、或检查是否持24小时核酸。我们可以在数据汇总表中，选择用【WPS打开】，回到我们能熟悉的WPS表格界面，使用「筛选」、「查找」等功能来进行深度处理。
　　

　　入口：重新进入表单-右上角「查看数据汇总表」-WPS打开02使用教程用模板，快速创建收集表单
　　打开电脑版WPS，点击左上角【新建】，在新建表单页面，按需选择表单模板快速进行创建。
　　

　　手机用户可直接点击下方，使用模板快速创建收集表：
　　在「健康码识别」、「行程卡识别」题目中还可以设置「选择识别信息」，选择想要提取的信息。比如上传截图的日期、是否有24/48小时核酸、接种疫苗次数等等。如需同时收集与同住人的健康码截图，还可以灵活设置多张上传张数。
　　

　　健康码识别支持的地区，以产品最新上线为准。
　　倘若每天都需要进行健康信息的收集，我们可以把表单设置为定期收集，无需每天重新点击发布。
　　

　　想要随时查看表单统计进度，可以在电脑版WPS应用的【分享协作】中，找到「统计表单」点击星标星，将它添加到WPS首页左边侧栏，即可在WPS首页进入查看。
　　

健康码、行程码异常可自动识别！收集核对更轻松

采集交流 • 优采云发表了文章 • 0 个评论 • 433 次浏览 • 2022-05-08 12:20 • 来自相关话题

　　健康码、行程码异常可自动识别！收集核对更轻松
　　
　　节后返工返校，为做好疫情防控工作，行政、老师们都会忙于收集健康码、行程卡等信息，但截图整理麻烦，核对排查也很费时。
　　WPS表单上线了健康码识别、行程卡识别功能，可自动识别上传的截图，将红绿黄码、行程是否带星等关键信息提取到表格，帮助大家高效完成收集。
　　01自动识别图片信息，核查更高效截图信息自动填充
　　以老师的收集工作为例，每次收集学生及同住人的健康码、行程卡截图，需逐一把图片下载保存，还要把本人信息及截图对应起来整理到表格中便于后续统计，工作量非常大。
　　如果使用表单进行收集，学生家长在填写页面上传健康码截图，就能提取出如码色、日期、核酸检测时间等关键信息并完成填写。
　　
　　网络不佳情况下，识别时间可能会稍慢
　　同样，上传行程卡也可以识别是否途经中高风险地区（带星），还可以提取途经的全部城市，方便后续的排查。
　　
　　网络不佳情况下，识别时间可能会稍慢收集结果自动统计
　　批量收集的结果是否有黄码、行程带星等异常情况，在统计页面会高亮显示，收集者的名字与上传的健康码图片、截图信息一一对应，筛查时一眼便知。
　　
　　入口：重新进入表单-数据统计&分析页面
　　如果想要快速找出收集人员是否途径某个中高风险地区、或检查是否持24小时核酸。我们可以在数据汇总表中，选择用【WPS打开】，回到我们能熟悉的WPS表格界面，使用「筛选」、「查找」等功能来进行深度处理。
　　
　　入口：重新进入表单-右上角「查看数据汇总表」-WPS打开02使用教程用模板，快速创建收集表单
　　打开电脑版WPS，点击左上角【新建】，在新建表单页面，按需选择表单模板快速进行创建。
　　
　　手机用户可直接点击下方，使用模板快速创建收集表：
　　在「健康码识别」、「行程卡识别」题目中还可以设置「选择识别信息」，选择想要提取的信息。比如上传截图的日期、是否有24/48小时核酸、接种疫苗次数等等。如需同时收集与同住人的健康码截图，还可以灵活设置多张上传张数。
　　
　　健康码识别支持的地区，以产品最新上线为准。
　　倘若每天都需要进行健康信息的收集，我们可以把表单设置为定期收集，无需每天重新点击发布。
　　
　　想要随时查看表单统计进度，可以在电脑版WPS应用的【分享协作】中，找到「统计表单」点击星标星，将它添加到WPS首页左边侧栏，即可在WPS首页进入查看。
　　查看全部

　　健康码、行程码异常可自动识别！收集核对更轻松
　　

　　节后返工返校，为做好疫情防控工作，行政、老师们都会忙于收集健康码、行程卡等信息，但截图整理麻烦，核对排查也很费时。
　　WPS表单上线了健康码识别、行程卡识别功能，可自动识别上传的截图，将红绿黄码、行程是否带星等关键信息提取到表格，帮助大家高效完成收集。
　　01自动识别图片信息，核查更高效截图信息自动填充
　　以老师的收集工作为例，每次收集学生及同住人的健康码、行程卡截图，需逐一把图片下载保存，还要把本人信息及截图对应起来整理到表格中便于后续统计，工作量非常大。
　　如果使用表单进行收集，学生家长在填写页面上传健康码截图，就能提取出如码色、日期、核酸检测时间等关键信息并完成填写。
　　

　　网络不佳情况下，识别时间可能会稍慢
　　同样，上传行程卡也可以识别是否途经中高风险地区（带星），还可以提取途经的全部城市，方便后续的排查。
　　

　　网络不佳情况下，识别时间可能会稍慢收集结果自动统计
　　批量收集的结果是否有黄码、行程带星等异常情况，在统计页面会高亮显示，收集者的名字与上传的健康码图片、截图信息一一对应，筛查时一眼便知。
　　

　　入口：重新进入表单-数据统计&分析页面
　　如果想要快速找出收集人员是否途径某个中高风险地区、或检查是否持24小时核酸。我们可以在数据汇总表中，选择用【WPS打开】，回到我们能熟悉的WPS表格界面，使用「筛选」、「查找」等功能来进行深度处理。
　　

　　入口：重新进入表单-右上角「查看数据汇总表」-WPS打开02使用教程用模板，快速创建收集表单
　　打开电脑版WPS，点击左上角【新建】，在新建表单页面，按需选择表单模板快速进行创建。
　　

　　手机用户可直接点击下方，使用模板快速创建收集表：
　　在「健康码识别」、「行程卡识别」题目中还可以设置「选择识别信息」，选择想要提取的信息。比如上传截图的日期、是否有24/48小时核酸、接种疫苗次数等等。如需同时收集与同住人的健康码截图，还可以灵活设置多张上传张数。
　　

　　健康码识别支持的地区，以产品最新上线为准。
　　倘若每天都需要进行健康信息的收集，我们可以把表单设置为定期收集，无需每天重新点击发布。
　　

　　想要随时查看表单统计进度，可以在电脑版WPS应用的【分享协作】中，找到「统计表单」点击星标星，将它添加到WPS首页左边侧栏，即可在WPS首页进入查看。
　　

教你如何用WPMatico自动化采集订阅公众号内容

采集交流 • 优采云发表了文章 • 0 个评论 • 162 次浏览 • 2022-05-08 12:01 • 来自相关话题

　　教你如何用WPMatico自动化采集订阅公众号内容
　　
　　你可以根据自己的喜好需求订阅各大平台的RSS源到Inreader阅读器里，聚合供自己随时随地被动阅读，而不需要大费周章逐个翻阅到各大平台之间。
　　2，什么是烧录RSS？
　　前面我们讲了什么是RSS，如何获取到RSS。问题来了，如果你要订阅的内容源默认没有RSS服务，订阅不了怎么办？
　　对，这个时候就要自己烧录RSS了。就是说，我们自己把没有RSS的内容源变成RSS源，就叫烧录。
　　烧录RSS有很多方法：
　　Huginn：一个用于构建在线执行自动化任务的系统，它可以监控网页变化、聚合第三方应用并且根据设定的触发条件执行自动化操作。具体的教程请看《如何免费定制个人全自动化的“最勤劳员工”？》
　　WPeMatico：它就是本文要演示的强大RSS自动化采集WP插件.其内置的WPeMatico Make me Feed Good可以很轻松的烧录RSS。
　　找人定制：尤其是烧录公众号这种难度偏高的RSS源，可能需要一定的操作门槛，类似于今天看啥这样的平台可以购买RSS订阅服务，价格不算贵，最主要不用操心烧录和维护繁琐的RSS源，专业的事情交个专业的人做。
　　通过上面介绍，各位应该对RSS有所了解，那么我们可以进入主题：
　　如何用WPMatico自动化采集微信公众号内容到网站？
　　目前越来越多的采集插件是通过RSS源采集聚合，优点非常明显，市面上很多网站默认都支持RSS订阅服务，你不需要任何编程基础，复制RSS链接就可以采集聚合想要的内容。如果目标平台没有RSS才需要烧录，下面我们以微信公众号为例演示：
　　第一步：烧录微信公众号的RSS源
　　我们知道微信公众号的文章是存在于APP上的，并没有Web网站，目前只有搜狗上可以直接在PC直接阅读微信订阅号的内容，但是没有RSS源，那么就需要我们自己烧录RSS源，具体自己烧录RSS和外包定制RSS源的方案我在上面已经讲过了。
　　第二步：在Wordpress上安装WPeMatico插件
　　Wordpress安装插件的方法一般有两种：
　　➊ 在Wordpress管理后台安装插件
　　首先登陆Wordpress管理后台，点击左侧的“插件”--->“安装插件”--->在右侧搜索框输入“WPeMatico”--->点击“安装”--->最后点击“启用”。如图所示：
　　
　　➋ 将插件上传到Wordpress插件目录
　　直接下载WPeMatico插件程序，WPeMatico原版是英文的，目前我已经将它100%汉化了，如果你需要中文版下载的，可以到Affiliate营销圈社区下载。下载后解压文件夹，然后上传到
　　Wordpress的插件目录：/wp-content/plugins/
　　
　　第三步：利用WPeMatico插件采集公众号的文章
　　前面我们已经安装好了WPeMatico插件，这里就以采集《Affiliate营销圈》的嘉宾吴总的[BlueFriday]公众号为例，先烧录了BlueFriday公众号为RSS。烧录RSS方案上文已提供，这里就不重复了
　　我们直接在Wordpress后台的WPeMatico插件菜单里，点击：--->“添加Campaign：”，如图所示：
　　
　　接着添加你烧录好的公众号RSS：
　　
　　接下来设置音频、视频、特色图片，值得称赞的是，WPeMatico可以自动和手动分类、以及自动Tags和手动指定Tags。如图所示：
　　
　　接下来设置自动定时运行任务：
　　
　　往下WPeMatico还有很多丰富功能设置，比如：自定义文章模板设置、自定义字段、内容重写替换、自定义标题、内容字数控制等等，就不一一截图了。
　　设置完成之后，选择Campaign类型：Feed Fetcher（默认），目前WPeMatico支持RSS、YouTube类型获取。
　　
　　然后点击发布，就大功告成了。最后采集结果列表如下：
　　
　　至此，使用WPeMatico自动化采集微信公众号内容的过程就完成了。
　　WPeMatico功能强大，以上是常规的设置流程，具体细节设置，需要大家自己去操作体验。查看全部

　　教你如何用WPMatico自动化采集订阅公众号内容
　　

　　你可以根据自己的喜好需求订阅各大平台的RSS源到Inreader阅读器里，聚合供自己随时随地被动阅读，而不需要大费周章逐个翻阅到各大平台之间。
　　2，什么是烧录RSS？
　　前面我们讲了什么是RSS，如何获取到RSS。问题来了，如果你要订阅的内容源默认没有RSS服务，订阅不了怎么办？
　　对，这个时候就要自己烧录RSS了。就是说，我们自己把没有RSS的内容源变成RSS源，就叫烧录。
　　烧录RSS有很多方法：
　　Huginn：一个用于构建在线执行自动化任务的系统，它可以监控网页变化、聚合第三方应用并且根据设定的触发条件执行自动化操作。具体的教程请看《如何免费定制个人全自动化的“最勤劳员工”？》
　　WPeMatico：它就是本文要演示的强大RSS自动化采集WP插件.其内置的WPeMatico Make me Feed Good可以很轻松的烧录RSS。
　　找人定制：尤其是烧录公众号这种难度偏高的RSS源，可能需要一定的操作门槛，类似于今天看啥这样的平台可以购买RSS订阅服务，价格不算贵，最主要不用操心烧录和维护繁琐的RSS源，专业的事情交个专业的人做。
　　通过上面介绍，各位应该对RSS有所了解，那么我们可以进入主题：
　　如何用WPMatico自动化采集微信公众号内容到网站？
　　目前越来越多的采集插件是通过RSS源采集聚合，优点非常明显，市面上很多网站默认都支持RSS订阅服务，你不需要任何编程基础，复制RSS链接就可以采集聚合想要的内容。如果目标平台没有RSS才需要烧录，下面我们以微信公众号为例演示：
　　第一步：烧录微信公众号的RSS源
　　我们知道微信公众号的文章是存在于APP上的，并没有Web网站，目前只有搜狗上可以直接在PC直接阅读微信订阅号的内容，但是没有RSS源，那么就需要我们自己烧录RSS源，具体自己烧录RSS和外包定制RSS源的方案我在上面已经讲过了。
　　第二步：在Wordpress上安装WPeMatico插件
　　Wordpress安装插件的方法一般有两种：
　　➊ 在Wordpress管理后台安装插件
　　首先登陆Wordpress管理后台，点击左侧的“插件”--->“安装插件”--->在右侧搜索框输入“WPeMatico”--->点击“安装”--->最后点击“启用”。如图所示：
　　

　　➋ 将插件上传到Wordpress插件目录
　　直接下载WPeMatico插件程序，WPeMatico原版是英文的，目前我已经将它100%汉化了，如果你需要中文版下载的，可以到Affiliate营销圈社区下载。下载后解压文件夹，然后上传到
　　Wordpress的插件目录：/wp-content/plugins/
　　

　　第三步：利用WPeMatico插件采集公众号的文章
　　前面我们已经安装好了WPeMatico插件，这里就以采集《Affiliate营销圈》的嘉宾吴总的[BlueFriday]公众号为例，先烧录了BlueFriday公众号为RSS。烧录RSS方案上文已提供，这里就不重复了
　　我们直接在Wordpress后台的WPeMatico插件菜单里，点击：--->“添加Campaign：”，如图所示：
　　

　　接着添加你烧录好的公众号RSS：
　　

　　接下来设置音频、视频、特色图片，值得称赞的是，WPeMatico可以自动和手动分类、以及自动Tags和手动指定Tags。如图所示：
　　

　　接下来设置自动定时运行任务：
　　

　　往下WPeMatico还有很多丰富功能设置，比如：自定义文章模板设置、自定义字段、内容重写替换、自定义标题、内容字数控制等等，就不一一截图了。
　　设置完成之后，选择Campaign类型：Feed Fetcher（默认），目前WPeMatico支持RSS、YouTube类型获取。
　　

　　然后点击发布，就大功告成了。最后采集结果列表如下：
　　

　　至此，使用WPeMatico自动化采集微信公众号内容的过程就完成了。
　　WPeMatico功能强大，以上是常规的设置流程，具体细节设置，需要大家自己去操作体验。

Emlog采集插件-无需像优采云一样写入采集规则以及发布模块

采集交流 • 优采云发表了文章 • 0 个评论 • 101 次浏览 • 2022-05-08 12:00 • 来自相关话题

　　Emlog采集插件-无需像优采云一样写入采集规则以及发布模块
　　Emlog采集插件，什么是Emlog采集插件，可以实现自动采集发布吗？不用像优采云一样写规则吗？今天给大家分享一款
　　免费的Emlog采集发布工具
　　：只需要输入关键词或输入指定域名就能实现采集，采集后自动发布到网站后台。
　　无需像优采云一样写入代码规则就能实现全自动采集发布，详细教程可参考图片。
　　
　　Emlog采集也是需要注意关键词密度是一个或多个关键词在网页上呈现的总次数与其他词的比率。相关于页面上的总词数，呈现的关键词越多，总关键词密度越大。其他词呈现的次数越多，关键词所占比例越低，关键词密度越小。
　　
　　Emlog采集关键词密度是许多搜索引擎的搜索算法之一，包括Google、Yahoo和MSN。每一个搜索引擎都有一套关于关键词密度的不同数学公式，能够让你取得更高的排名。就惩罚前允许的关键词密度水平而言，不同的搜索引擎也有不同的容忍度。
　　Emlog采集关键词是搜索者在搜索信息、产品或效劳时进入搜索引擎界面的术语。关键词是搜索引擎算法执行的数学运算中的一个要素，用来肯定数十亿网页和特定搜索之间的相关性。搜索算法以为与关键词搜索最相关的页面将依次排序。
　　
　　Emlog采集关键词能够是单个单词，也能够是包含该单词的单词。这两种办法对搜索者查找信息都很有用。普通规则是关键词越长，从搜索引擎索引返回的信息就越精确。
　　固然没有固定的关键词公式，但将关键词占网页总词数的比例控制在5%以下可能是不错的做法。太多的关键词可能会触发关键词填充过滤器。假如关键词在网页文本中呈现的次数过多，会减少读者的保存时间，降低访问者向付费用户的转化率。毕竟，Emlog采集对于任何一个商业网站来说，网页的目的是把访问者变成顾客。关于内容网站，其目的是让尽可能多的访问者阅读有用的信息。糟糕的写作会产生相反的效果。
　　关键词密度是指一个页面上运用的关键词数量与讨论页面上总单词数的比率。关键词散布是指这些关键词在网页上的位置。它能够是标题标志、链接、标题、正文或任何文本的中文。
　　
　　一些SEO优化师以为，将关键词放在页面的较高位置会使页面的搜索排名飙升。但是，并非一切地搜索引擎察看家都这么以为。普通来说，尽量依照正常的编辑作风在整个网页内容中散布关键词。Emlog采集看起来自然的内容更容易阅读，而且，像在页面上特别散布的关键词，在搜索排名中得分会更好。
　　网站频繁变动
　　比方经常修正网站架构、标题等之类的缘由，特别是新站，这个是特别要留意的中央。
　　网站后台的代码太乱
　　这个乱不光说的是格式，同时也说的是内容。
　　网站外链
　　网站发布大量的高质量外链，数量也越大，网站快照的更新速度越快，并且越有规律。假如发布低质量的链接，会影响到内容收录的问题。
　　内容比较敏感
　　搜索引擎是经过过滤人工干预过的，假如网站的内容有敏感的内容都会影响到你的网站，留意单个文章也会影响你的网站。
　　
　　JS代码溢出
　　搜索引擎对JS代码并没什么关系，假如让JS代码不经过调用直接显现在搜索引擎的眼前，那么最大的难点就是形成蜘蛛的匍匐艰难，自然就会影响到快照的更新了。
　　总结：关于
　　使用Emlog采集发布来说这一款工具相对于来说会简单很多，无需像其它采集工具那样会写入很多的规则以及代码。好了今天的Emlog采集发布教程就分享到这里了。查看全部

　　Emlog采集插件-无需像优采云一样写入采集规则以及发布模块
　　Emlog采集插件，什么是Emlog采集插件，可以实现自动采集发布吗？不用像优采云一样写规则吗？今天给大家分享一款
　　免费的Emlog采集发布工具
　　：只需要输入关键词或输入指定域名就能实现采集，采集后自动发布到网站后台。
　　无需像优采云一样写入代码规则就能实现全自动采集发布，详细教程可参考图片。
　　

　　Emlog采集也是需要注意关键词密度是一个或多个关键词在网页上呈现的总次数与其他词的比率。相关于页面上的总词数，呈现的关键词越多，总关键词密度越大。其他词呈现的次数越多，关键词所占比例越低，关键词密度越小。
　　

　　Emlog采集关键词密度是许多搜索引擎的搜索算法之一，包括Google、Yahoo和MSN。每一个搜索引擎都有一套关于关键词密度的不同数学公式，能够让你取得更高的排名。就惩罚前允许的关键词密度水平而言，不同的搜索引擎也有不同的容忍度。
　　Emlog采集关键词是搜索者在搜索信息、产品或效劳时进入搜索引擎界面的术语。关键词是搜索引擎算法执行的数学运算中的一个要素，用来肯定数十亿网页和特定搜索之间的相关性。搜索算法以为与关键词搜索最相关的页面将依次排序。
　　

　　Emlog采集关键词能够是单个单词，也能够是包含该单词的单词。这两种办法对搜索者查找信息都很有用。普通规则是关键词越长，从搜索引擎索引返回的信息就越精确。
　　固然没有固定的关键词公式，但将关键词占网页总词数的比例控制在5%以下可能是不错的做法。太多的关键词可能会触发关键词填充过滤器。假如关键词在网页文本中呈现的次数过多，会减少读者的保存时间，降低访问者向付费用户的转化率。毕竟，Emlog采集对于任何一个商业网站来说，网页的目的是把访问者变成顾客。关于内容网站，其目的是让尽可能多的访问者阅读有用的信息。糟糕的写作会产生相反的效果。
　　关键词密度是指一个页面上运用的关键词数量与讨论页面上总单词数的比率。关键词散布是指这些关键词在网页上的位置。它能够是标题标志、链接、标题、正文或任何文本的中文。
　　

　　一些SEO优化师以为，将关键词放在页面的较高位置会使页面的搜索排名飙升。但是，并非一切地搜索引擎察看家都这么以为。普通来说，尽量依照正常的编辑作风在整个网页内容中散布关键词。Emlog采集看起来自然的内容更容易阅读，而且，像在页面上特别散布的关键词，在搜索排名中得分会更好。
　　网站频繁变动
　　比方经常修正网站架构、标题等之类的缘由，特别是新站，这个是特别要留意的中央。
　　网站后台的代码太乱
　　这个乱不光说的是格式，同时也说的是内容。
　　网站外链
　　网站发布大量的高质量外链，数量也越大，网站快照的更新速度越快，并且越有规律。假如发布低质量的链接，会影响到内容收录的问题。
　　内容比较敏感
　　搜索引擎是经过过滤人工干预过的，假如网站的内容有敏感的内容都会影响到你的网站，留意单个文章也会影响你的网站。
　　

　　JS代码溢出
　　搜索引擎对JS代码并没什么关系，假如让JS代码不经过调用直接显现在搜索引擎的眼前，那么最大的难点就是形成蜘蛛的匍匐艰难，自然就会影响到快照的更新了。
　　总结：关于
　　使用Emlog采集发布来说这一款工具相对于来说会简单很多，无需像其它采集工具那样会写入很多的规则以及代码。好了今天的Emlog采集发布教程就分享到这里了。

filebeat采集容器日志时根据kubernetes元数据限定采集源的问题

采集交流 • 优采云发表了文章 • 0 个评论 • 134 次浏览 • 2022-05-08 10:50 • 来自相关话题

　　filebeat采集容器日志时根据kubernetes元数据限定采集源的问题
　　在使用filebeat采集部署在使用腾讯云TKE容器集群上的日志时，默认情况下会把default、kube-system等自动创建的命名空间下的日志都采集上来，但是这些命名空间下的日志一般都不是我们需要的，怎么过滤掉对这些命名空间下的容器运行日志？比较直观的想法是在filebeat的yml配置中定义好processors，使用drop_event processor对采集上来的不需要的日志进行丢弃，这种方法虽然能够实现日志的过滤，但是filebeat还是会对不需要采集的容器日志进行监听和采集，一定程度上降低了filebeat的效率，所以有没有好的方法能够从源头就不采集不需要的日志呢？
　　1. 使用filebeat 7.x版本采集容器日志
　　对于容器日志的采集，filebeat有专门的inupt类型：docker和container两种，早期的6.x版本的filebeat只有docker input类型，对于使用docker作为运行时组件的kubernetes集群，比较友好；在7.2版本的filebeat又重新开发了container类型的input类型，无论是docker组件还是containerd组件，都可以比较好的支持。因此从7.2版本开始，docker input就被废弃了，官方推荐使用container input。
　　在使用filebeat 7.x版本采集容器日志时，推荐采用container input，并且使用autodiscover实现容器的自动发现，也就是在有新的容器运行时，filebeat会自动去采集新建的容器日志，而不需要再去修改filebeat.yml来实现对新部署的容器日志的采集。而正是使用autodiscover功能，使得限定采集源成为了可能，因为在autodiscover模式下，filebeat在启动时就会去调用kubernetes API来获取当前集群下所有的namespace、pod、container等元数据的信息，然后根据这些元数据再去指定的目录采集对应的日志。
　　下面给出一个可用的限定采集源的filebeat.yml：
　　filebeat.autodiscover: providers: - type: kubernetes hints.enabled: true templates: - condition: and: - or: - equals: kubernetes.namespace: testa - equals: kubernetes.namespace: testb - equals: kubernetes.container.name: nginx kubernetes.labels: k8s-app: nginx config: - type: container paths: - /var/log/containers/${data.kubernetes.pod.name}_${data.kubernetes.namespace}_${data.kubernetes.container.name}-*.logoutput.elasticsearch: hosts: ['x.x.x.x:9200'] username: "xxx" password: "xxx"
　　在该配置中，用于限定采集源的配置就是condition模块下的部分，用于限定只采集testa 或者 testb命名空间下的nginx容器的日志。可以根据kubernetes元数据来限定采集源，可用的元数据有以下这些：
　　
　　上述配置中，condition可以根据需求定义更复杂的限定条件，可以参考官方文档中的Conditions进行填写。
　　另外需要注意的是，上述配置中的config模块下的paths路径，需要也通过占位符对日志文件的名称进行匹配，否则就会出现采集上来的日志内容与kubernetes元数据不一致的问题。比如/var/log/containers目录下有各个pod的日志，日志文件名的命名规则为{pod_name}\_{namespace}\_{container\_name}-{container\_id}.log：
　　nginx-6c5ff7b97b-6t5k4_default_nginx-eeecb30c81564668b1858c186099ab525431b435ed1b8fa3b25704cbbbca6a2d.log
　　那么 paths就需要通过$符进行规则匹配：
　　${data.kubernetes.pod.name}_${data.kubernetes.namespace}_${data.kubernetes.container.name}-*.log
　　2. 使用filebeat 6.x版本采集容器日志
　　6.x版本的filebeat，只有docker input，对于docker运行时组件比较友好，而对于containerd运行时组件，不太友好，没有较好的方式限定采集源，只能全量采集所有容器的日志。
　　2.1 采集docker组件部署的kubernetes集群中的容器日志
　　配置文件如下：
　　filebeat.autodiscover: providers: - type: kubernetes templates: - condition: and: - equals: kubernetes.labels: k8s-app: nginx config: - type: docker combine_partial: true containers: ids: - ${data.kubernetes.container.id}output.elasticsearch: hosts: ['http://x.x.x.x:9200'] username: "xxxx" password: "xxx"
　　其中的condition条件用于限定只采集标签为k8s-app: nginx的容器的日志。
　　2.2 采集containerd组件部署的kubernetes集群中的容器日志
　　配置文件如下：
　　filebeat.autodiscover: providers: - type: kubernetes hints.enabled: true templates: - condition: and: - equals: kubernetes.labels: k8s-app: nginx config: - type: docker combine_partial: true symlinks: true containers: path: "/var/log/containers" ids: - ""output.elasticsearch: hosts: ['http://x.x.x.x:9200'] username: "xxx" password: "xxxx"
　　上述配置与2.1中配置的区别是，需要显式的指定container.path为/var/log/containers, 因为containerd组件下，容器日志在该目录下，并且为软链接，需要指定symlinks: true，否则就无法采集。另外，container.ids需要指定为空字符串，不必限定容器的id的匹配规则，该配置项对docker组件部署的容器有效，因为docker组件下，容器日志默认在/var/lib/docker/containers目录下，且日志文件名采用容器id命名。
　　上述配置的问题就是condition条件不会生效，会全量采集所有的命名空间下的容器日志，目前没有找到较好的解决办法来限定采集源，但是可以通过定义drop_event processor来丢弃掉不需要采集的日志。实际使用中，还是建议直接使用7.2及以上版本的filebeat来采集使用containerd组件部署的kubernetes集群中的容器日志。查看全部

　　filebeat采集容器日志时根据kubernetes元数据限定采集源的问题
　　在使用filebeat采集部署在使用腾讯云TKE容器集群上的日志时，默认情况下会把default、kube-system等自动创建的命名空间下的日志都采集上来，但是这些命名空间下的日志一般都不是我们需要的，怎么过滤掉对这些命名空间下的容器运行日志？比较直观的想法是在filebeat的yml配置中定义好processors，使用drop_event processor对采集上来的不需要的日志进行丢弃，这种方法虽然能够实现日志的过滤，但是filebeat还是会对不需要采集的容器日志进行监听和采集，一定程度上降低了filebeat的效率，所以有没有好的方法能够从源头就不采集不需要的日志呢？
　　1. 使用filebeat 7.x版本采集容器日志
　　对于容器日志的采集，filebeat有专门的inupt类型：docker和container两种，早期的6.x版本的filebeat只有docker input类型，对于使用docker作为运行时组件的kubernetes集群，比较友好；在7.2版本的filebeat又重新开发了container类型的input类型，无论是docker组件还是containerd组件，都可以比较好的支持。因此从7.2版本开始，docker input就被废弃了，官方推荐使用container input。
　　在使用filebeat 7.x版本采集容器日志时，推荐采用container input，并且使用autodiscover实现容器的自动发现，也就是在有新的容器运行时，filebeat会自动去采集新建的容器日志，而不需要再去修改filebeat.yml来实现对新部署的容器日志的采集。而正是使用autodiscover功能，使得限定采集源成为了可能，因为在autodiscover模式下，filebeat在启动时就会去调用kubernetes API来获取当前集群下所有的namespace、pod、container等元数据的信息，然后根据这些元数据再去指定的目录采集对应的日志。
　　下面给出一个可用的限定采集源的filebeat.yml：
　　filebeat.autodiscover: providers: - type: kubernetes hints.enabled: true templates: - condition: and: - or: - equals: kubernetes.namespace: testa - equals: kubernetes.namespace: testb - equals: kubernetes.container.name: nginx kubernetes.labels: k8s-app: nginx config: - type: container paths: - /var/log/containers/${data.kubernetes.pod.name}_${data.kubernetes.namespace}_${data.kubernetes.container.name}-*.logoutput.elasticsearch: hosts: ['x.x.x.x:9200'] username: "xxx" password: "xxx"
　　在该配置中，用于限定采集源的配置就是condition模块下的部分，用于限定只采集testa 或者 testb命名空间下的nginx容器的日志。可以根据kubernetes元数据来限定采集源，可用的元数据有以下这些：
　　

　　上述配置中，condition可以根据需求定义更复杂的限定条件，可以参考官方文档中的Conditions进行填写。
　　另外需要注意的是，上述配置中的config模块下的paths路径，需要也通过占位符对日志文件的名称进行匹配，否则就会出现采集上来的日志内容与kubernetes元数据不一致的问题。比如/var/log/containers目录下有各个pod的日志，日志文件名的命名规则为{pod_name}\_{namespace}\_{container\_name}-{container\_id}.log：
　　nginx-6c5ff7b97b-6t5k4_default_nginx-eeecb30c81564668b1858c186099ab525431b435ed1b8fa3b25704cbbbca6a2d.log
　　那么 paths就需要通过$符进行规则匹配：
　　${data.kubernetes.pod.name}_${data.kubernetes.namespace}_${data.kubernetes.container.name}-*.log
　　2. 使用filebeat 6.x版本采集容器日志
　　6.x版本的filebeat，只有docker input，对于docker运行时组件比较友好，而对于containerd运行时组件，不太友好，没有较好的方式限定采集源，只能全量采集所有容器的日志。
　　2.1 采集docker组件部署的kubernetes集群中的容器日志
　　配置文件如下：
　　filebeat.autodiscover: providers: - type: kubernetes templates: - condition: and: - equals: kubernetes.labels: k8s-app: nginx config: - type: docker combine_partial: true containers: ids: - ${data.kubernetes.container.id}output.elasticsearch: hosts: ['http://x.x.x.x:9200'] username: "xxxx" password: "xxx"
　　其中的condition条件用于限定只采集标签为k8s-app: nginx的容器的日志。
　　2.2 采集containerd组件部署的kubernetes集群中的容器日志
　　配置文件如下：
　　filebeat.autodiscover: providers: - type: kubernetes hints.enabled: true templates: - condition: and: - equals: kubernetes.labels: k8s-app: nginx config: - type: docker combine_partial: true symlinks: true containers: path: "/var/log/containers" ids: - ""output.elasticsearch: hosts: ['http://x.x.x.x:9200'] username: "xxx" password: "xxxx"
　　上述配置与2.1中配置的区别是，需要显式的指定container.path为/var/log/containers, 因为containerd组件下，容器日志在该目录下，并且为软链接，需要指定symlinks: true，否则就无法采集。另外，container.ids需要指定为空字符串，不必限定容器的id的匹配规则，该配置项对docker组件部署的容器有效，因为docker组件下，容器日志默认在/var/lib/docker/containers目录下，且日志文件名采用容器id命名。
　　上述配置的问题就是condition条件不会生效，会全量采集所有的命名空间下的容器日志，目前没有找到较好的解决办法来限定采集源，但是可以通过定义drop_event processor来丢弃掉不需要采集的日志。实际使用中，还是建议直接使用7.2及以上版本的filebeat来采集使用containerd组件部署的kubernetes集群中的容器日志。

什么网站可以用网站采集云采集平台采集内容转换成excel表格

采集交流 • 优采云发表了文章 • 0 个评论 • 111 次浏览 • 2022-05-04 08:00 • 来自相关话题

　　什么网站可以用网站采集云采集平台采集内容转换成excel表格
　　自动采集网站内容做爬虫效率低下，不仅不方便管理还存在被封、降权的风险，特意寻找云采集平台为您的网站解决这些痛点，采集网站内容一键转换成excel表格。网站采集云采集平台有哪些地方可以采集内容？免注册、注册即可享受全网所有站点内容一键采集；无需登录账号；各个平台同步采集，无需切换站点切换网站；无需购买会员，无需租用服务器；采集速度更快，平均采集时间达1.5s内/页/条；采集数据丰富，网站内容任你采集。
　　什么网站可以用网站采集云采集平台采集内容？知乎、天涯、百度贴吧、猫扑、西祠胡同、豆瓣、色情网站、新闻网站、a站、b站、360图片、谷歌图片、网易新闻、天涯社区、uc新闻客户端、qq音乐、爱奇艺等；以及一些设计相关的网站，如ps、ai、ae等。采集速度是什么样的？采集速度快，网站内容保存更完整，采集文件量更少。
　　采集速度是什么样的？采集速度快，采集效率高。低延迟，最高支持30个网站同时采集，批量采集、任务共享、无限扩展、多网站采集同时开启。采集需要额外购买服务器和带宽吗？不需要。您无需额外购买服务器和带宽，云采集平台为您提供云的存储空间，采集速度更快更快更快更快。更多网站采集请登录我们官网采集中心———>xxxxahr0cdovl3dlaxhpbi5xcs5jb20vci9qlht8go7rwhjwuruhrxzy2thottnkw==(二维码自动识别)。查看全部

　　什么网站可以用网站采集云采集平台采集内容转换成excel表格
　　自动采集网站内容做爬虫效率低下，不仅不方便管理还存在被封、降权的风险，特意寻找云采集平台为您的网站解决这些痛点，采集网站内容一键转换成excel表格。网站采集云采集平台有哪些地方可以采集内容？免注册、注册即可享受全网所有站点内容一键采集；无需登录账号；各个平台同步采集，无需切换站点切换网站；无需购买会员，无需租用服务器；采集速度更快，平均采集时间达1.5s内/页/条；采集数据丰富，网站内容任你采集。
　　什么网站可以用网站采集云采集平台采集内容？知乎、天涯、百度贴吧、猫扑、西祠胡同、豆瓣、色情网站、新闻网站、a站、b站、360图片、谷歌图片、网易新闻、天涯社区、uc新闻客户端、qq音乐、爱奇艺等；以及一些设计相关的网站，如ps、ai、ae等。采集速度是什么样的？采集速度快，网站内容保存更完整，采集文件量更少。
　　采集速度是什么样的？采集速度快，采集效率高。低延迟，最高支持30个网站同时采集，批量采集、任务共享、无限扩展、多网站采集同时开启。采集需要额外购买服务器和带宽吗？不需要。您无需额外购买服务器和带宽，云采集平台为您提供云的存储空间，采集速度更快更快更快更快。更多网站采集请登录我们官网采集中心———>xxxxahr0cdovl3dlaxhpbi5xcs5jb20vci9qlht8go7rwhjwuruhrxzy2thottnkw==(二维码自动识别)。

自动采集网站内容

话题描述

相关话题

最佳回复者

1 人关注该话题