解决方案:可采集文章评论区内容的生成评论数据库,写个爬虫程序分析下呗

优采云 发布时间: 2022-09-23 13:05

  解决方案:可采集文章评论区内容的生成评论数据库,写个爬虫程序分析下呗

  可采集文章评论区内容的生成评论数据库,

  写个爬虫程序分析下呗,然后存好,可以用api提取,也可以用用xml包。觉得麻烦还可以用geotagin这个库,

  

  我用的是python-underaged,爬取的话可以用api,自己手动写爬虫也可以。

  评论数据一般都是针对某些用户发布的,实现起来还是比较麻烦的。如果自己写爬虫爬取的话,可以采用xml包来存储文章内容,

  可以根据评论数量生成向量数据库。

  

  生成fullpage:xml2fullpage.xml2xml2node_page=2geotagin_fullpagefullpage.py_fullpage.pyxml2node_page=2geotagin_fullpage

  python可以处理生成评论数据库这个问题

  有一个库叫base,可以完成评论爬虫数据库。不过这需要自己写爬虫。有些评论太多可能连书都爬不过来,爬虫这东西要看运气。如果发送链接是针对一个用户就一台电脑就可以的话,就不用用爬虫了,单机就行。我做爬虫时,

  先考虑下如何满足评论的公共属性(评论人/书籍)如评论是否在同一个图书馆(电子书还是纸质书)。若不是,自己写爬虫程序收集数据。若评论全部在同一个图书馆的话,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线