无需规则自动采集的工具1-800-1.html分享数据去重库one-divisibledatamining.io

优采云发布时间: 2021-04-04 22:01

　　无需规则自动采集的工具1-800-1-1.html我的笔记

　　excel数据去重可用excelhome论坛的supermerge，即比自动去重更精准的机器自动识别。

　　遇到的问题有些类似，

　　理论上：不需要，只要选择你需要的数据源匹配类型就行了实际上：需要根据数据不同去采取匹配策略，如果数据类型有问题会带来不可预知的麻烦，或者干脆是拒收所有访问，在线性能也不能让你满意，大多场景下去重也就可以不用了。就算某些网站有对应的去重插件，单靠访问量去获取的能不能满足要求也很难说，除非针对访问量特殊地做优化。

　　需要的都是有去重需求的。但建议这么做：比如某个歌曲歌词按词频排序，一条歌词能否用多条不同的列表匹配起来，如何去掉重复的，这些都是要研究清楚的，如果连这点都不清楚，我觉得很大可能去重方法效率太低。

　　给你推荐一个~分享数据去重库one-divisibledatamining.github-guowangyu.github.io/python-data-mining-github-guowangyu.github.io

　　我用过好几个，很多也都尝试过。但用起来体验都不是很好，这两个工具还是个人尝试的结果。推荐的话，我推荐quickmatch，从可视化操作上很好的帮助你把数据看得更加直观。update20140112在github上找到一个实际上应该叫datamining的python库，性能稳定性都有问题，不过是个稍微完善一点的库。

　　在crawler可视化操作上做得比one-divisible要好一些，但是machinelearning功能就是后者好，其他的就是差了一些，好在现在machinelearning都是python2.7了，不会导致python底层代码的变动。当然也不排除我比较善变。

0

2021-04-04

无需规则自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

无需规则自动采集的工具1-800-1.html分享数据去重库one-divisibledatamining.io

0 个评论

发起人

AI时代内容工厂

无需规则自动采集的工具1-800-1.html分享数据去重库one-divisibledatamining.io

0 个评论

发起人

相关问题