网页flash文本抓取器(注意:我之前没有在这里问过一个问题,我仍然不确定如何使它清晰易读)

优采云 发布时间: 2021-11-29 16:01

  网页flash文本抓取器(注意:我之前没有在这里问过一个问题,我仍然不确定如何使它清晰易读)

  注意:我之前没有在这里问过一个问题,我仍然不确定如何使它清晰易读,所以让我知道任何混淆或使其更具可读性的提示

  我正在尝试从 2004/06 到 2004/09 Internet Archive(一个奇怪的,不再存在的社交网络,针对另类音乐的粉丝,创建于 2000 年左右,使其成为其中之一一) 下载用户信息互联网上最古老的基于*敏*感*词*的社交网络)使用 r,* 尤其是 rcrawler 包。

  到目前为止,我已经能够使用包来获取数据框中的用户名和*敏*感*词*链接,并使用 xpath 来识别我想要的元素,但不知何故它不适用于*敏*感*词*的位置或兴趣部分,两者都只是文本而不是 html 中的其他元素。对于我所说的网站/数据的想法,这是我发短信给我的xpath的页面::///03/profile/html/boys/2.html

  我一直在使用 rcrawler 的 ContentScraper 函数来测试我的 xpath 表达式,它从您需要抓取的站点的特定页面中提取与指定 xpath 匹配的元素集。这是我的函数表达式,用于识别站点上的用户名和链接,指定我正在使用的特定页面,并返回一个向量:

  测试回溯表

  这是一个糟糕的地方,我正在测试“位置”,最后返回一个空向量

  测试路返回位置

  另一件坏事,这个在“兴趣”下寻找文本:

  测试路径返回

  当我尝试在 Chrome Inspect 中搜索它们时,我在这里使用的 xpath 表达式似乎选择了正确的元素,但程序似乎没有读取它们。我还尝试为每个字段只选择一个元素,但它仍然产生一个空向量。我知道这个工具可以读取这个网页中的文本——我测试了另一段随机的文本——但不知何故,当我运行这个测试时我什么也没得到。

  我的 xpath 表达式有问题吗?我应该使用不同的工具来做到这一点吗?

  感谢您的耐心等待!

  *这是一个数字人文项目。我希望用一些nlp来分析语言,特别是关于gender和sex的,在网站上与一些nlp分析最流行乐队的歌词进行对话。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线