采集网站内容(网站内容管理系统（xPointCMS）网页采集操作手册错误戒者产品运行丌正常)

优采云发布时间: 2021-12-28 23:15

　　网站内容管理系统（xPointCMS）网站采集

操作手册网站内容管理系统（xPointCMS）网站采集

操作手册关于本文档 xPointCMS是基于J2EE技术和AJAX技术的企业级网站内容管理软件旨在帮助劣质用户解决日益复杂和不重要的Web内容的创建、维护、发布和应用。本文档简单介绍了通过xPointCMS快速采集

其他网站内容的方法和步骤。读者本文档的读者是 xPointCMS 的用户。用户应具备以下基础知识：熟悉Microsoft Internet Explorer或Mozilla Firefox的使用；熟悉Windows或Linux/Unix操作系统；熟悉基本的HTML知识和相关的HTML页面*敏*感*词*法。用户反馈感谢您使用我们的产品。如果您发现本文档有错误或产品运行不正常，或者您对本文档有任何意见或建议，请不要及时与我们联系。您的意见将是我们进行修改的重要依据。网站内容管理系统（xPointCMS）网页采集

操作手册1.xPointCMS中的网页采集

xPointCMS网页采集

是一款简单易用、功能强大的基于模板的内容采集

和提取工具，支持文章列表分页自动采集

和分页采集和URL重定向后的内容自动采集，内容编码的自动识别，

　　采集完成后，xPointCMS会根据匹配块中的规则提取文章的标题、内容等信息，并自动添加到指定的内容中，供编辑进一步使用。网站内容管理系统（xPointCMS）网页采集

操作手册2.填写基本采集

设置，点击“采集

不分发”菜单下的“从网页采集

”子菜单，点击“新建”按钮添加一个新的采集

任务。如下图所示：其中：当采集

类别为文档采集

时，采集

程序会直接将网页转换成xPointCMS中的文档。如果是自定义集合，则只采集

数据，不进行转换。总是开发一个程序来阅读它。采集

返回的文本并进行处理。自定义集合仅用于xPointCMS的二次开发。采集

的最大内容页数表示此任务最多可以采集

多少篇文章内容页。最大采集

列表页数表示此任务最多可以采集

多少个文章列表页。采集线程数表示同时采集的线程数。值越大，采集速度越快，占用带宽越多。一般1个线程就够了，最多不超过30个。超时等待时间是指如果目标网页所在的服务器忙，采集程序等待的秒数。默认为 30 秒，一般不应超过 120。

　　发布日期格式表示网页内容提示的发布日期格式。它与 JAVA 日期格式不一致。Y代表年，M代表月，d代表日，h代表小时，m代表分钟，s代表秒。发布日期将用于对采集

的文档进行排序，发布日期晚的将排在第一位。如果在采集

选项中勾选“下载远程图片”，采集

程序会自动将内容中的图片下载到xPointCMS服务器，并替换内容中的图片地址。如果采集

选项中的“删除内容中的链接”被选中，采集

程序会自动将内容中的所有超链接转换为纯文本。此栏采集

，表示采集

到的文档存放在哪一栏。如果xPointCMS所在的服务器无法直接访问互联网或目标网页必须通过特殊代理访问，则必须始终勾选“使用代理服务器”选项并填写代理服务器的地址、端口、用户名和密码。网站内容管理系统(xPointCMS) 网页采集

操作手册 3. 填写网址填写完基本设置后，就可以开始填写网址规则了。以网易新闻为例，您可以按照以下步骤操作： 1）@ >填写起始网址，填写网易新闻列表页面的网址，如下图：填写下一级网址和观察列表页面中的新闻链接，

　　采集

到所有符合条件的网址后，再从采集

到的网址中提取出所有链接网址，并将通配符与第三级的网址进行比较……直到最后一个网址。有时需要过滤掉一部分网址，必须经常勾选“过滤网址”选项，填写过滤网址通配符。这些规则类似于常见的 URL 通配符。采集