解决方案:可采集文章评论区内容的生成评论数据库,写个爬虫程序分析下呗
优采云 发布时间: 2022-09-23 13:05解决方案:可采集文章评论区内容的生成评论数据库,写个爬虫程序分析下呗
可采集文章评论区内容的生成评论数据库,
写个爬虫程序分析下呗,然后存好,可以用api提取,也可以用用xml包。觉得麻烦还可以用geotagin这个库,
我用的是python-underaged,爬取的话可以用api,自己手动写爬虫也可以。
评论数据一般都是针对某些用户发布的,实现起来还是比较麻烦的。如果自己写爬虫爬取的话,可以采用xml包来存储文章内容,
可以根据评论数量生成向量数据库。
生成fullpage:xml2fullpage.xml2xml2node_page=2geotagin_fullpagefullpage.py_fullpage.pyxml2node_page=2geotagin_fullpage
python可以处理生成评论数据库这个问题
有一个库叫base,可以完成评论爬虫数据库。不过这需要自己写爬虫。有些评论太多可能连书都爬不过来,爬虫这东西要看运气。如果发送链接是针对一个用户就一台电脑就可以的话,就不用用爬虫了,单机就行。我做爬虫时,
先考虑下如何满足评论的公共属性(评论人/书籍)如评论是否在同一个图书馆(电子书还是纸质书)。若不是,自己写爬虫程序收集数据。若评论全部在同一个图书馆的话,