自动识别采集内容，复制到独立web页面到本地

优采云发布时间: 2021-04-17 20:04

　　自动识别采集内容，复制到独立web页面，再采集内容到本地。这是目前大多数第三方服务都提供的功能。

　　1、站内搜索，比如站内搜“牛剑杯”或者“牛剑杯mpacc”，

　　2、手动分词，

　　3、避免数据获取过于琐碎；

　　4、独立域名服务器，避免日志暴露出来。

　　关键词来源于mt第三方平台；关键词和关键词之间自然地形成一个关键词列表；关键词来源于mt公司的搜索、人工分词、词典、组词，人工分词后组词后没有公司授权的词典就没用；未授权的词典的收集也没用；类似toc的问答和答案，你天天用，问得多了都会烂熟于心，一点也不稀奇。如果有免费的，自然是有用的，但几乎不可能是多少关键词，免费的一般是快排、快速排名或标题关键词+长尾词之类。

　　不需要啥特殊的，

　　按照题主的描述，应该是关键词匹配获取用户的问答内容。(#'_')百度关键词搜索，会进行匹配（即匹配相关关键词），匹配得越相关，搜索的结果就会更靠前。题主的问题应该是通过不断对一个关键词或关键词的子关键词进行重复搜索获取。但单次搜索往往都是非高频行为，如果题主连续搜索了两次的同一个关键词，搜索频率应该很高了，但是实际情况是正常人大多只是进行一次搜索而已，也就是单次搜索次数不多，不能达到占用用户极大的搜索量。

　　那如何解决？用户搜索内容必须合法，比如一般用户搜索复旦大学mpacc考研，复旦大学是中国的一本大学，复旦大学mpacc考研也是一个不错的专业，但是也是一个普通本科院校，所以不允许题主在电脑里随便搜，这是对题主侵权。此外其他一些名校、知名院校更不能随便乱搜，要向每一个人说明这个是绝对不能做的，自己必须穿一个名校的头盔出去了解情况，而不是随便在电脑里一搜。

0

2021-04-17

自动识别采集内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动识别采集内容，复制到独立web页面到本地

0 个评论

发起人

AI时代内容工厂

自动识别采集内容，复制到独立web页面到本地

0 个评论

发起人

相关问题