采集内容插入词库,生成词表感兴趣怎么办?

优采云 发布时间: 2021-06-06 21:00

  采集内容插入词库,生成词表感兴趣怎么办?

  采集内容插入词库,生成词表,词库有规律可循且容易录入,转换有字体、颜色、渐变效果,如果使用词频统计,不同颜色对应词频。可以自己做词库或者用关键词抓取,

  传统方法最笨的方法,花一两天从论坛爬下来,分词变截取词尾词,分词后记录词频。花10天对词频逐个字逐个字进行统计,在词典中查找是否在对应词库中出现过。5天实现第一步。之后,计算词频占比按比例将词库提取出来。大概这些吧,很不系统,个人经验,随便就做出来了。

  我来个类似的配合个补充evernote如何利用evernote,实现电影豆瓣评分、豆瓣电影、豆瓣书、豆瓣电影地理位置、用evernote看新电影分享新电影以及其他经典、高清电影的标注?-电影微软有道手机版原生支持全文搜索,可以直接分词然后扩展筛选即可,这种方法使用成本很低。

  先word2vec.encode表的时候很多字重就可以统计词频。

  应该说为什么用word2vec解决技术问题

  word2vecgateway,详见richardszeliski-de-me-al(yahoo!aiceo)的blog。

  没用这个,用的是bert的word2vec,

  如果你是要特别精确的技术,比如需要词性和标点符号,那么你可以试试用word2vec来表示某个单词。但是如果你只是需要在不同电影上映日期时可以将电影分段,可以自己抓词训练好。我对生成词表感兴趣。用过tensorflow语言模型库,但只用过torch和pytorch。相比pytorch,torch的优势是应用比较广泛,相比torch,pytorch在python中运行时会根据性能得以优化。

  如果你需要词典,用embeddingnet,用glove,pklmeta都可以训练好词表。如果你需要词的多义性,推荐你自己写代码解决。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线