nodejs抓取动态网页(本发明基于Web动态信息抓取技术的详情页面自动生成方法)

优采云发布时间: 2021-09-20 03:07

　　本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法

　　背景技术：

　　目前，国内主流爬虫直接使用HTTP协议下载指定URL的静态HTML内容，并对内容进行分析和提取。该方法已广泛应用于搜索引擎、舆情监控、垂直门户网站等领域

　　但在电子商务领域，考虑到安全性、加载速度、页面静态等因素，商品页面中网站的价格、商品规格、图形细节等大部分都是通过JS和Ajax加载的动态HTML内容。这使得传统的网络爬虫系统无法有效地自动获取商品信息

　　随着互联网的发展，中国大量线下零售企业开始建设自己的电商平台，如广百百货的广百汇、广州友谊商城的线上商城等，实现线上线下商品的一体化销售。然而，传统零售企业要想在网上销售大量商品，需要记录每种商品的详细商品图形信息，工作量非常巨大。例如，在冰箱、洗衣机、彩电和空调四大类中，有8000至10000种常用型号。如果一个人按照5人的输入团队，每小时输入4台PC产品+4台移动产品的图形详细信息，则需要3-4个月，效率低下

　　技术实现要素：

　　本发明所要解决的技术问题是提供一种基于Web动态信息捕获技术的高效细节页面自动生成方法

　　为了解决上述问题，本发明采用以下技术方案：

　　本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法，包括以下步骤：

　　1)抓取程序模块并启动浏览器

　　2)模仿人的操作打开商品详情页面

　　3）抓取页面中的信息并下载相关图片

　　4）手动审查

　　优选地，抓取程序模块由selenium测试工具和爬虫程序构建

　　优选地，该步骤的特定步骤1）包括：

　　1.1）在捕获程序模块中输入商品和目标商场的基本信息

　　1.2）grab程序模块基于selenium测试工具的功能模拟人工操作并启动浏览器

　　1.3）登录购物中心

　　1.4）通过步骤1.1）中的预设关键字搜索目标网站以找到相应的商品

　　优选地，该步骤的特定步骤2）包括：

　　2.2）打开产品详细信息页面

　　2.3）等待浏览器加载静态和动态内容

　　优选地，该步骤的特定步骤3）包括：

　　3.1）基于爬虫的功能，它可以自动捕获页面中的商品价格、规格参数和商品详细信息，并下载相关图片

　　3.2）转换捕获的图形信息的格式

　　如果在步骤1.4）中找不到相应的商品，最好返回步骤1.1）重新输入商品和目标商场的基本信息

　　本发明的有益效果是，通过在浏览器中模仿人们的鼠标点击、键盘输入等操作，并监控操作后浏览器内容的变化，结合网络爬虫捕获的信息功能，完全模拟了真实用户在浏览器中的浏览操作。因此，捕获的信息与真实用户看到的图形信息完全一致。与传统的网络爬虫产品相比，它具有兼容性好、速度快、数据捕获准确等特点

　　具体实施例

　　本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法，包括以下步骤：

　　1)抓取程序模块并启动浏览器

　　2)模仿人的操作打开商品详情页面

　　3）抓取页面中的信息并下载相关图片

　　4）mall经理检查捕获的商品信息，快速修改有问题的内容，并在通过审核后将信息应用到自己的商城

　　本发明的有益效果是，通过在浏览器中模仿人们的鼠标点击、键盘输入等操作，并监控操作后浏览器内容的变化，结合网络爬虫捕获的信息功能，完全模拟了真实用户在浏览器中的浏览操作。因此，捕获的信息与真实用户看到的图形信息完全一致。与传统的网络爬虫产品相比，它具有兼容性好、速度快、数据捕获准确等特点

　　例2

　　本发明涉及一种基于Web动态信息捕获技术的细节页面自动生成方法，包括以下步骤：

　　1.在捕获程序模块中输入商品和目标商城的基本信息；抓取程序模块基于selenium测试工具的功能，模拟人工操作，启动浏览器，登录商场；通过预设关键字在目标网站中搜索，找到对应的商品。如果找不到对应的商品，则重新输入商品和目标商场的基本信息

　　2)打开产品详细信息页面，等待浏览器加载静态和动态内容

　　3）基于爬虫程序的功能，可以自动捕获页面中的商品价格、规格参数和商品详情，并下载相关图片；然后将捕获的图形信息转换为我们商场的商品数据格式

　　4）mall经理检查捕获的商品信息，快速修改有问题的内容，并在通过审核后将信息应用到自己的商城

　　抓取程序模块由selenium测试工具和爬虫程序构建，实现了基于selenium技术和web爬虫技术的信息自动抓取程序。它可以控制浏览器的行为，模拟人们在浏览器中启动鼠标点击、键盘输入等操作，并监控操作后浏览器内容的变化，模拟商城会员操作：打开浏览器->登录目标商城->查找目标商品->打开商品详情页面->等待浏览器加载静态和动态内容，然后提取商品名称、价格、图形详情等内容。该操作完全模拟真实用户在浏览器中的浏览操作，因此，捕获的信息与真实用户看到的图形信息完全一致

　　本发明的有益效果是：利用selenium技术和网络爬虫技术，通过在浏览器中模仿人们的鼠标点击、键盘输入等操作，并监控操作后浏览器内容的变化，结合网络爬虫捕获的信息功能，浏览器中真实用户的浏览操作是完全模拟的，因此，捕获的信息与真实用户看到的图形信息完全一致。与传统的网络爬虫产品相比，它具有兼容性好、速度快、数据捕获准确等特点

　　以上仅为本发明的具体实施例，但本发明的保护范围不限于此。未经创造性劳动的变更或者更换，属于本发明的保护范围

0

2021-09-20

nodejs抓取动态网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

nodejs抓取动态网页(本发明基于Web动态信息抓取技术的详情页面自动生成方法)

0 个评论

发起人