采集内容插入词库(词库1.1-1.4如下拓展工具的分类及应用)
优采云 发布时间: 2021-09-03 02:25采集内容插入词库(词库1.1-1.4如下拓展工具的分类及应用)
一、Thesaurus 组织
1 选择词库竞争者->准备阶段:选择基本词根和相关长尾词
1.1 在专业的seo分类网站上找;到导航站批量查找;如果实在没有资源,可以手动添加。目标是尝试覆盖行业中的所有网站。
1.2 在我们自己的爬虫数据库中找到行业根词
1.3 在网站行业竞争对手地图中查找行业根词
1.4 在1.4 拥有的资源站点中找到的搜索流量搜索词(百度统计、GA统计等统计工具)
1.5 如果有资源,请花钱买个专业整合公司的industry关键词database
1.1 Comment 这个时候就是我们在拼资源的时候,网上就有这样的网站,比如,
1.2 Comment 如果你已经提前有网站,请从你站点的维度去寻找,底部一定有词根词汇
推荐:
处理器:助理
相关技能:优采云或相关采集tools
耗时估计:1-2天
大多数情况下,我们不是1.5的土豪,我们花10000块买整合数据,那么1.1-1.4处理如下
2 再展开词-> 把1中比较完整的词取出来展开,力争覆盖整个行业关键词Database
2.1 对1.1中的站点进行分类,选择与您要做的站点具有相同属性的站点
2.1.1 采集 可以使用这些站点下的关键词库:爱站关键词挖矿工具(非付费导出数量有限,幅度较小,并且噪音少),5118数据库(可以使用优采云采集,使用两次爬取的逻辑,采集可以达到一个非常大的词,但是噪音太多了,100以外的很多无用词);
2.2 将1.2、1.3、1.4、2.1中的词放入关键词扩展工具中进行扩展
2.2.1 词根扩展量可以达到6K左右;长尾的展开量可以在600左右,请自适应调整
2.3 将所有单词整理好,先去除重复(包括两步,重复和某些特定单词;建议步骤)
2.1 Comment 以游戏网站为例,分为:网络游戏;页面游戏;手机游戏;小游戏;综合等,找出你想做的网站的属性,并记录下来。
2.1 对综合性站点进行标注,例如使用爱站或5118查找属性与您相同的站点。如果想做页面游览,看看有没有等待站点,快速查找提取
2.1.1 评论。如果您需要资源购买付费版,可以在很大程度上节省时间。不要想着免费;
2.1.1 注解5118数据库可以用优采云批量抓取,如果量级大,需要时间,请估计; 采集方法,先通配采集每个域名/子域/下翻页数,然后在关键词下批量写规则采集/baidu/rank/,这是因为排名页数每个域名都不一样
2.2注解爱站扩展长尾词的能力比较好,短词(即行业根词)可以用爱站跑;中短字长(判断标准,excel function=len(*) 4-9左右)可以用战神工具跑;中长字(=len(*) 9-18左右)也可以用战神工具跑;长字(=len(*) 18-29左右)感觉应该删除删除,不需要运行
因为去重的重复量太大,有几千万级,所以必须机器和人工同时过滤处理
3 处理关键词
3.1 通过机器处理噪声进行初始过滤;重复数据删除
3.1.1 直接匹配删除,如:#、$、http、-、..、.com、.xml等,根据自己的行业特点过滤,包括直接删除
3.1.2 替换,主要是转义和空格,如:",&
3.1.3 所有号码将根据行业情况进行删除处理
3.1.4 上面剩下的词库去重
3.2 机器初步筛选-提取精准词
3.1.1 然后处理下一个词根,对词根中的噪声进行处理,比如()中的内容等,有助于机器提取的准确性。
3.1.2 使用行业词库和词根匹配所有词,整理文档,打包。这部分是准确的词。
3.3 人力去除脏话
3.3.1 软件工具:notepad++; office excel 2010及以上版本(WPS不可用); 关键词自动分类工具
3.3.2 步
3.3.2.1 用notepad++打开文档,将所有单词复制到分类工具中
3.3.2.2 点击分类工具中的开始查询
3.3.2.3 稍等,等到右边弹出最终结果(过程可能会持续5-15分钟,不要注意没反应),期间可以同步做其他事情
3.3.2.4 将分词中的结果复制到notepad++中,然后复制到xls表中(点击结果,ctrl+a,因为没有明显的标记,等待全部转蓝色,期间可能有几次没反应)
3.3.2.5 在 xls 表中,#fonts 以列分隔
3.3.2.6 行插入四列,根词,一级,二级,三级
3.3.2.7 选择四列并插入数据透视表
3.3.2.8 在B列进行数字识别,直接删除的为1(无关),待确定的为2(游戏词和无关词之间),可以的一个是 3
3.3.2.9 处理后在E2列输入函数公式=VLOOKUP(A2,Sheet4!A:B,2,0),下拉到最后等待待处理
3.3.2.10 选择E2列,过滤,去掉1,保留2和3的结果
3.3.2.11 保存文档,一份完成
(此部分有待编辑,留有优化空间)
二、 采集Bottom文章 -> 使用采集tools 去采集bottom文章根据2中的话。
3.1 使用付费工具,优采云软件,采集非百度源(360、搜狗,微信,bing,谷歌等都可以用,谷歌需要翻墙)
3.2 文章筛选效率优化
3.2.1 规则:收录主词根(以网页游戏为例,文章收录“页游”或“网页游戏”);湾与游戏相关; C。标题限制 D.大小限制(多多少K可以直接去掉); e.文章内容下限250字; F。加上人工筛选; G。竞争产品词的机器替换和某些词的去除;总体筛选剩余 18% 左右
3.3 采集源 优化:寻找非百度源,文章质量命中率更高的,如果同样情况,可以看爬取质量或爬取时效
3.3.1 先采集攻略,防止采集新闻分配策略资源,增加后期调整成本
三、网站优化