抓取网页新闻(存储到存储池(word2vec),如何识别文本中不容易识别的字?)
优采云 发布时间: 2021-09-15 20:07抓取网页新闻(存储到存储池(word2vec),如何识别文本中不容易识别的字?)
抓取网页新闻,全部留下,存储到存储池(word2vec),构建mlp模型当文本的语义复杂程度超过了一定水平时,使用二分类,将复杂信息抽取到相应输入,
与其问这个问题,
看到过这个问题,还是贴过来吧internetrecognition,fromscratch,教给我们诸如“词袋”等一些思路来识别一些文本中不容易识别的字,很有趣的一个提问,和周董一起回答吧,哈哈~下面说一下准备过程,或者按照这个顺序来:1,收集文本和网页本身,这个依赖于自己想在生活中分析什么。不过大概是先要熟悉内容内容源,比如,最早的搜狐内容源是否是文档等。
2,爬虫爬取,理论是保持最低程度最好不要重复爬取。因为保存在word2vec中,会有很多你自己规则会显示错误的字词,一定要确认是否显示错误。并且一些比较突出的字词一定要拿过来做不可变性处理。3,转为word2vec(搜狐本身有公开接口)你可以自己封装一下,用一个有效的词向量代替即可,网上有很多是用one-hot词向量方法,可以跑一下没什么问题。
当然,代码用的spacy必须解决目前容量大小的问题,用vcforward的话,一般只能跑到c++里。4,textmodel这就看你自己如何构建语义表示了,可以到网上找到很多博客和相关资料,下面我的代码参考如下。libword-model用的是wordnews的2000w句子词向量,但是可以根据自己的需要加入一些定制需求,比如你需要把邮件显示文字长度等信息。
这里可以看到我特别弄了一个词向量。同时去掉了名字,可以有效去除一些歧义,看看下图。注:封装好的text也可以直接把句子拼成自己需要的形式,这个需要根据网页的特性来选择封装的形式。做到前面的三步,你就可以用自己准备好的代码,拼接成一个word2vec的模型了。更多内容,欢迎关注ai有道微信公众号,有的放矢。