逸才网站数据采集系统v1.72

优采云 发布时间: 2020-08-07 19:39

  亿彩网站数据采集系统是一款功能全面,准确,稳定且易于使用的网络信息采集软件. 它可以轻松地获取所需的Web内容(包括文本,图像,文件,HTML源代码等). 采集的数据可以直接导出到EXCEL,也可以根据您定义的模板(例如网页文件,TXT文件等)以任何格式保存为文件. 还可以将其保存到数据库中,发送到网站服务器,并在采集时实时保存到文件中.

  易才网站数据采集系统软件的功能和特点:

  1. 图形化采集任务定义界面. 您只需要在软件中嵌入的浏览器中单击要采集的网页的内容即可配置采集任务,而无需像其他类似软件的源代码一样面对复杂的网页来查找采集规则. 可以说是所见即所得的采集任务配置界面.

  2. 创新的内容定位方法,定位更加准确,稳定. 类似的软件基本上是根据网页源代码中的开头和结尾标签来定位内容的. 这样,用户必须自己面对网页制作. 人员只需要面对HTML代码,并花费更多的额外学习时间来掌握软件的使用. 同时,只要稍微改变网页的内容(简单地改变文本的颜色),定位标记就很有可能变得无效并导致采集失败. 经过艰苦的技术研究,我们实现了一种全新的定位方法: 结构定位和相对标志定位. 众所周知,网站的风格基本上是固定的,相似网页内容的布局基本上是相同的. 这是结构定位可行的地方. 当然,基本相同并不等于100%相同,但是我们已经克服了技术难题并消除了这些障碍. 我们的定位方法的优点是: 1.用户可以通过鼠标点击配置采集任务,并实现所见即所得的采集任务配置界面; 2.网页内容的更改(例如文本的增加或减少,更改,文本颜色,字体更改等)不会影响集合的准确性.

  3. 支持任务嵌套,可以采集无限的页面内容. 只需在当前任务页面中选择要采集的较低级别页面的链接即可创建嵌套任务,采集较低级别页面的内容,并且嵌套级别数不受限制. 我们全新的内容定位方法和图形采集任务配置界面为您带来了便利.

  4. 可以同时采集任何内容除了最基本的文本,图片和文件外,还可以采集特定HTML标签的源代码和属性值.

  5. 强大的自动信息重新处理功能,您可以在配置任务时指定对采集到的内容进行任何替换和过滤.

  6. 采集的内容可以自动排序

  7. 支持将采集的结果保存到EXCEL和任何格式的文件中. 支持自定义文件模板.

  8. 支持实时保存到数据库. 支持ACCESS,SQLSERVER,MYSQL数据库(后续版本还将支持更多类型的数据库).

  9. 支持实时上传到Web服务器. 支持POST和GET方法,自定义上传参数,并模拟手动提交

  10. 支持实时保存到任何格式的文件. 支持自定义模板,按记录保存并将多条记录保存到一个文件中,并支持大纲和明细保存(所有记录的某些内容被保存到大纲文件中,然后将每条记录分别保存到一个文件中.

  11. 支持多种灵活的任务调度方法,实现无人值守采集

  12. 支持多任务,支持任务导入和导出

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线