解决方案:怎么样大批量的采集B2B的产品图片和信息?
优采云 发布时间: 2020-10-05 09:10大量的采集B2B产品图片和信息如何?
最简单的方法是使用采集工具。我以前尝试过许多工具,但发现许多采集工具无法在采集中显示图片,而且它们不是免费的。后来,我终于找到了一个名为gooseeker的工具。您可以同时获取图片和文本,但是该密钥是免费的。该工具分为两部分,一个MS计数器负责采集规则,另一个DS计数器负责采集数据。
我不知道您想要产品目录页面还是产品详细信息页面的图形和文本?产品的目录页面非常简单。使用此工具的MS可以在页面上执行采集规则,该规则将要捕获的信息和图像URL映射到排序框,并为图像URL设置下载图像,因为目录页面有很多页,每个页面都有多个产品信息,还设置了样本副本和自动翻页。最后,您需要使用采集的DS计数器来获取所有图片和文字。此外,如果您要采用新的URL,则只需通过DS将URL添加到规则中。无需再制定任何规则,您可以分批采集数千条规则。数十万个网址的数据。
产品详细信息页面并不困难,方法与上述类似,只是您无需翻页。要特别注意控制采集的速度和周期。尽管此工具可能非常有效,但是您希望如果继续进行批处理采集,请不要太快,否则电子商务网站很快就会检测到异常,并且验证窗口通常会弹出,并且您甚至无法访问该网页。
更复杂的方法是为B2B 网站编写Python采集器,以搜寻指定的网页和图形,但是每个B2B 网站都有复杂的结构。如果使用此方法,则需要连续调试和测试,只需采集一个网站计划,编程,调试,运行优化等需要一个月的时间。如果更改网站,则将花费很长时间是时候更改程序了。因此,如果您想批量采集,您可以自己做。既费时又累。