网页flash文本抓取器(注意:我之前没有在这里问过一个问题，我仍然不确定如何使它清晰易读)

优采云发布时间: 2021-11-29 16:01

　　网页flash文本抓取器(注意:我之前没有在这里问过一个问题，我仍然不确定如何使它清晰易读)

　　注意：我之前没有在这里问过一个问题，我仍然不确定如何使它清晰易读，所以让我知道任何混淆或使其更具可读性的提示

　　我正在尝试从 2004/06 到 2004/09 Internet Archive（一个奇怪的，不再存在的社交网络，针对另类音乐的粉丝，创建于 2000 年左右，使其成为其中之一一) 下载用户信息互联网上最古老的基于*敏*感*词*的社交网络）使用 r,* 尤其是 rcrawler 包。

　　到目前为止，我已经能够使用包来获取数据框中的用户名和*敏*感*词*链接，并使用 xpath 来识别我想要的元素，但不知何故它不适用于*敏*感*词*的位置或兴趣部分，两者都只是文本而不是 html 中的其他元素。对于我所说的网站/数据的想法，这是我发短信给我的xpath的页面：:///03/profile/html/boys/2.html

　　我一直在使用 rcrawler 的 ContentScraper 函数来测试我的 xpath 表达式，它从您需要抓取的站点的特定页面中提取与指定 xpath 匹配的元素集。这是我的函数表达式，用于识别站点上的用户名和链接，指定我正在使用的特定页面，并返回一个向量：

　　测试回溯表

　　这是一个糟糕的地方，我正在测试“位置”，最后返回一个空向量

　　测试路返回位置

　　另一件坏事，这个在“兴趣”下寻找文本：

　　测试路径返回

　　当我尝试在 Chrome Inspect 中搜索它们时，我在这里使用的 xpath 表达式似乎选择了正确的元素，但程序似乎没有读取它们。我还尝试为每个字段只选择一个元素，但它仍然产生一个空向量。我知道这个工具可以读取这个网页中的文本——我测试了另一段随机的文本——但不知何故，当我运行这个测试时我什么也没得到。

　　我的 xpath 表达式有问题吗？我应该使用不同的工具来做到这一点吗？

　　感谢您的耐心等待！

　　*这是一个数字人文项目。我希望用一些nlp来分析语言，特别是关于gender和sex的，在网站上与一些nlp分析最流行乐队的歌词进行对话。

0

2021-11-29

网页flash文本抓取器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页flash文本抓取器(注意:我之前没有在这里问过一个问题，我仍然不确定如何使它清晰易读)

0 个评论

发起人

AI时代内容工厂

网页flash文本抓取器(注意:我之前没有在这里问过一个问题，我仍然不确定如何使它清晰易读)

0 个评论

发起人

相关问题