网页数据抓取软件(厌倦了Octoparsebug和错误吗?尝试斯帕拉皮,使用优惠券代码“亚博欧冠买球投注teoalida10”)
优采云 发布时间: 2021-10-28 09:05网页数据抓取软件(厌倦了Octoparsebug和错误吗?尝试斯帕拉皮,使用优惠券代码“亚博欧冠买球投注teoalida10”)
厌倦了 Octoparse 的错误和错误?尝试 Sparapi 并使用优惠券代码“teoalida10”获得 10% 的折扣。
我喜欢研究和编辑数据库中的数据。从小我就手工创建了很多数据库,比如汽车模型和生产年份的数据库,通过浏览每个汽车模型的维基百科并将其写入我的数据库。互联网上没有等效的原创数据库!
我没有编程经验。我不知道刮擦的可能性。2015 年 8 月,我在 Google 上搜索了一些与刮擦相关的内容,并找到了 Import.io。它改变了我的生活,一个易于使用的自己动手做的工具,它允许我使用其他 网站 抓取数据来快速创建一个新的数据库供我个人研究,而手动复制数据需要很多小时(请注意,复制其他网站可能会给您带来法律问题,尤其是如果您将数据用于商业目的,例如创建您自己的网站)。
io 是一个无限制的免费软件,由雇佣员工代表他们清理的人提供支持。我输入了一个url列表,以每秒1页的速度批量抓取,但是随着时间的推移速度会变慢,所以最好批量运行,最多需要5-10个小时。
2016 年 4 月,Import.io 进行了重大更新,删除了新注册的桌面应用程序,并引入了云提取。免费计划每月限制为 10,000 次查询,付费计划起价为每月 249 美元。50000 次查询。他们通过电子邮件向我保证,在 2016 年 3 月之前注册的用户仍然可以不受限制地免费使用他们的软件。
然而,2016年8月底,他们给我发邮件说我超出了免费计划的限制,在过去30天内有超过90,000个查询,他们给了我两个选择:他们还说,有很多像我这样的“僵尸账户”。如果我不回复,他们将暂停我的帐户。我回答了,但他们没有回答。我继续用很多查询丢弃网站,因为待办事项列表中有项目。9 月 10 日,他们又给我发了一封电子邮件,说我的帐户超出了免费套餐限制。不在服务中。
当桌面应用程序帐户被暂停时,我仍然可以使用他们的云提取,但每月限制为 10,000 次查询。每月12号的查询次数会被重置,但是过了这个日期我就无法登录了,很可能是因为他们也暂停了我的云账户。我尝试注册一个新帐户,但意识到从 9 月 14 日或 15 日开始,他们每月只限制 500 次免费查询。
就这样,我意识到危险在于如何基于第三方服务不惜任何代价替换第三方服务。我通过为各种客户提供网页抓取服务已经能够赚到一些钱,但不足以覆盖249美元/50.000美元的查询计划,我的客户要求我携带10多个0.@ 网站 >000 页。
我在 Stackoverflow 上发布了我的故事,有人回答我并给了我一个列表,其中收录 10 多个自己动手做的抓取工具。我不知道 import.io 有这么多的选择。我开始测试每一个工具,都比import.io难用,包括Octoparse,有些要花钱,但没有一个比import.io贵,但我需要我决定多付钱关注 Octoparse 并学习如何使用它,因为它是一个免费软件。
经过几天的学习,八点分析让我通过抓取网站创建一个新的数据库,需要用户点击一个按钮或输入文本。这在Import.io 中是不可能的,但我也使用Import。io 完成了一个 Octoparse 无法完成的项目。
八大龙的好东西
八达通的坏处
2015 年,在发现 import.io 后不久,我还遇到了一位来自巴基斯坦的学生程序员。我付了他 3 倍的费用,让他用 Visual Basic 为 网站 创建一个自定义爬虫应用程序,这对于 import.io 来说太复杂了。2016年9月,听了我关于import.io账号被封的故事后,他萌生了在自己的电脑上做一个万能爬虫软件的想法。他有空闲时间,并梦想有一天他能将用户从 Import.io 带走。经过一个月和周末几十个小时的编码,同学做了一个“简单的网络爬虫”,可以像Import.io一样:输入URL,批量提取匹配XPath的输入列表,以每秒1到10个页面速度变化比octopars快,但缺少分页、无限滚动、点击按钮、输入文字等功能。
SimpleWebScraper 处于测试阶段,暂时无法购买。我是他唯一的用户。我正在为此付费,但他计划在未来将其商业化。
目前我正在使用 Octa 和一个简单的网络爬虫,它们通常是同一个项目。octoparse 通过列表和搜索页面、按钮和分页获取产品的 URL,然后将 URL 输入到一个简单的网络爬虫中提取产品详细信息。
新闻:工作人员锁定了我的帐户!
我在 2017 年 3 月写了这篇 文章,当时 Octoparse 为我们提供了一个为期一个月的免费专业计划,供审查他们软件甚至批评它的人使用。他们说我的文章没有问题,我有资格参加专业计划。我还告诉他们我使用 Octoparse 来赚钱。如果我有一个大项目并且需要比免费计划更多的权力,我可以付费购买专业计划,但目前我不经常使用Octoparse,也没有任何直接的项目,所以请保留我的报价为未来使用。他们说,任何时候我想开始为期一个月的免费专业计划,请联系他们。
2017 年 5 月,我的一个客户给我施加压力,让我刮轮胎 网站 加载更多按钮,简单的网络刮板无法处理它,我尝试构建一个提取器,但没有设法点击加载更多,我要求帮助 Octoparse 用户*敏*感*词*,另一个用户制作了一个 .otd 文件并单击了加载更多按钮并提取了产品名称列表,但是当我尝试编辑 XPath 以提取产品 URL 而不是产品名称时,我做了一个很大的他妈的错误导致提取每一行的第一项,我说在用户*敏*感*词*,他们的软件安装了一个bug,无法做我的项目,问他们如何解决这个问题,第二天我发现了我的用户被踢出*敏*感*词*,我再次尝试加入,但他们没有任何解释就禁止了我。
几天后,我的 Octoparse 账户(未来)也被锁定了。我很快创建了一个新帐户(Teoalida),因为我需要通过重新抓取网站来更新我的一个数据库,并且我使用Octoparse每两个月一次愉快地与Octoparse做生意。
两周后,来自澳大利亚的两个客户在一周内联系了我,询问我是否已经或可以为他们的国家创建一个汽车数据库。这是一个潜在的未来项目,如果我发现有兴趣的客户,我打算这样做。澳洲车网站具有防刮功能,可防止简单的网页爬虫,30秒抓取一个页面,60%的页面丢失。Octoparse 以每页 12 秒的速度惊人地工作。网站 上有 92,000 辆汽车,创建数据库需要 300 小时,这意味着让计算机每天运行 15 小时,持续 20 天。在这种时候,一个月免费的专业计划会很方便。我又给他们发了一封邮件,要我把这个文章的奖励写在我的网站上,但他们不理我。
查看聊天:
你好??环视四周!如果你有任何问题,请告诉我们。
是的