nodejs抓取动态网页(本发明基于Web动态信息抓取技术的详情页面自动生成方法)

优采云 发布时间: 2021-09-20 03:07

  nodejs抓取动态网页(本发明基于Web动态信息抓取技术的详情页面自动生成方法)

  本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法

  背景技术:

  目前,国内主流爬虫直接使用HTTP协议下载指定URL的静态HTML内容,并对内容进行分析和提取。该方法已广泛应用于搜索引擎、舆情监控、垂直门户网站等领域

  但在电子商务领域,考虑到安全性、加载速度、页面静态等因素,商品页面中网站的价格、商品规格、图形细节等大部分都是通过JS和Ajax加载的动态HTML内容。这使得传统的网络爬虫系统无法有效地自动获取商品信息

  随着互联网的发展,中国大量线下零售企业开始建设自己的电商平台,如广百百货的广百汇、广州友谊商城的线上商城等,实现线上线下商品的一体化销售。然而,传统零售企业要想在网上销售大量商品,需要记录每种商品的详细商品图形信息,工作量非常巨大。例如,在冰箱、洗衣机、彩电和空调四大类中,有8000至10000种常用型号。如果一个人按照5人的输入团队,每小时输入4台PC产品+4台移动产品的图形详细信息,则需要3-4个月,效率低下

  技术实现要素:

  本发明所要解决的技术问题是提供一种基于Web动态信息捕获技术的高效细节页面自动生成方法

  为了解决上述问题,本发明采用以下技术方案:

  本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法,包括以下步骤:

  1)抓取程序模块并启动浏览器

  2)模仿人的操作打开商品详情页面

  3)抓取页面中的信息并下载相关图片

  4)手动审查

  优选地,抓取程序模块由selenium测试工具和爬虫程序构建

  优选地,该步骤的特定步骤1)包括:

  1.1)在捕获程序模块中输入商品和目标商场的基本信息

  1.2)grab程序模块基于selenium测试工具的功能模拟人工操作并启动浏览器

  1.3)登录购物中心

  1.4)通过步骤1.1)中的预设关键字搜索目标网站以找到相应的商品

  优选地,该步骤的特定步骤2)包括:

  2.2)打开产品详细信息页面

  2.3)等待浏览器加载静态和动态内容

  优选地,该步骤的特定步骤3)包括:

  3.1)基于爬虫的功能,它可以自动捕获页面中的商品价格、规格参数和商品详细信息,并下载相关图片

  3.2)转换捕获的图形信息的格式

  如果在步骤1.4)中找不到相应的商品,最好返回步骤1.1)重新输入商品和目标商场的基本信息

  本发明的有益效果是,通过在浏览器中模仿人们的鼠标点击、键盘输入等操作,并监控操作后浏览器内容的变化,结合网络爬虫捕获的信息功能,完全模拟了真实用户在浏览器中的浏览操作。因此,捕获的信息与真实用户看到的图形信息完全一致。与传统的网络爬虫产品相比,它具有兼容性好、速度快、数据捕获准确等特点

  具体实施例

  本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法,包括以下步骤:

  1)抓取程序模块并启动浏览器

  2)模仿人的操作打开商品详情页面

  3)抓取页面中的信息并下载相关图片

  4)mall经理检查捕获的商品信息,快速修改有问题的内容,并在通过审核后将信息应用到自己的商城

  本发明的有益效果是,通过在浏览器中模仿人们的鼠标点击、键盘输入等操作,并监控操作后浏览器内容的变化,结合网络爬虫捕获的信息功能,完全模拟了真实用户在浏览器中的浏览操作。因此,捕获的信息与真实用户看到的图形信息完全一致。与传统的网络爬虫产品相比,它具有兼容性好、速度快、数据捕获准确等特点

  例2

  本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法,包括以下步骤:

  1.在捕获程序模块中输入商品和目标商城的基本信息;抓取程序模块基于selenium测试工具的功能,模拟人工操作,启动浏览器,登录商场;通过预设关键字在目标网站中搜索,找到对应的商品。如果找不到对应的商品,则重新输入商品和目标商场的基本信息

  2)打开产品详细信息页面,等待浏览器加载静态和动态内容

  3)基于爬虫程序的功能,可以自动捕获页面中的商品价格、规格参数和商品详情,并下载相关图片;然后将捕获的图形信息转换为我们商场的商品数据格式

  4)mall经理检查捕获的商品信息,快速修改有问题的内容,并在通过审核后将信息应用到自己的商城

  抓取程序模块由selenium测试工具和爬虫程序构建,实现了基于selenium技术和web爬虫技术的信息自动抓取程序。它可以控制浏览器的行为,模拟人们在浏览器中启动鼠标点击、键盘输入等操作,并监控操作后浏览器内容的变化,模拟商城会员操作:打开浏览器->登录目标商城->查找目标商品->打开商品详情页面->等待浏览器加载静态和动态内容,然后提取商品名称、价格、图形详情等内容。该操作完全模拟真实用户在浏览器中的浏览操作,因此,捕获的信息与真实用户看到的图形信息完全一致

  本发明的有益效果是:利用selenium技术和网络爬虫技术,通过在浏览器中模仿人们的鼠标点击、键盘输入等操作,并监控操作后浏览器内容的变化,结合网络爬虫捕获的信息功能,浏览器中真实用户的浏览操作是完全模拟的,因此,捕获的信息与真实用户看到的图形信息完全一致。与传统的网络爬虫产品相比,它具有兼容性好、速度快、数据捕获准确等特点

  以上仅为本发明的具体实施例,但本发明的保护范围不限于此。未经创造性劳动的变更或者更换,属于本发明的保护范围

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线