采集网站内容(网站内容管理系统(xPointCMS)网页采集操作手册错误戒者产品运行丌正常)
优采云 发布时间: 2021-12-28 23:15采集网站内容(网站内容管理系统(xPointCMS)网页采集操作手册错误戒者产品运行丌正常)
网站内容管理系统(xPointCMS)网站采集
操作手册 网站内容管理系统(xPointCMS)网站采集
操作手册 网站内容管理系统(xPointCMS)网站采集
操作手册 关于本文档 xPointCMS是基于J2EE技术和AJAX技术的企业级网站内容管理软件旨在帮助劣质用户解决日益复杂和不重要的Web内容的创建、维护、发布和应用。本文档简单介绍了通过xPointCMS快速采集
其他网站内容的方法和步骤。读者 本文档的读者是 xPointCMS 的用户。用户应具备以下基础知识: 熟悉Microsoft Internet Explorer或Mozilla Firefox的使用;熟悉Windows或Linux/Unix操作系统;熟悉基本的HTML知识和相关的HTML页面*敏*感*词*法。用户反馈 感谢您使用我们的产品。如果您发现本文档有错误或产品运行不正常,或者您对本文档有任何意见或建议,请不要及时与我们联系。您的意见将是我们进行修改的重要依据。网站内容管理系统(xPointCMS)网页采集
操作手册1.xPointCMS中的网页采集
xPointCMS网页采集
是一款简单易用、功能强大的基于模板的内容采集
和提取工具,支持文章列表分页自动采集
和分页采集和URL重定向后的内容自动采集,内容编码的自动识别,
采集完成后,xPointCMS会根据匹配块中的规则提取文章的标题、内容等信息,并自动添加到指定的内容中,供编辑进一步使用。网站内容管理系统(xPointCMS)网页采集
操作手册2.填写基本采集
设置,点击“采集
不分发”菜单下的“从网页采集
”子菜单,点击“新建”按钮添加一个新的采集
任务。如下图所示: 其中:当采集
类别为文档采集
时,采集
程序会直接将网页转换成xPointCMS中的文档。如果是自定义集合,则只采集
数据,不进行转换。总是开发一个程序来阅读它。采集
返回的文本并进行处理。自定义集合仅用于xPointCMS的二次开发。采集
的最大内容页数表示此任务最多可以采集
多少篇文章内容页。最大采集
列表页数表示此任务最多可以采集
多少个文章列表页。采集线程数表示同时采集的线程数。值越大,采集速度越快,占用带宽越多。一般1个线程就够了,最多不超过30个。超时等待时间是指如果目标网页所在的服务器忙,采集程序等待的秒数。默认为 30 秒,一般不应超过 120。
发布日期格式表示网页内容提示的发布日期格式。它与 JAVA 日期格式不一致。Y代表年,M代表月,d代表日,h代表小时,m代表分钟,s代表秒。发布日期将用于对采集
的文档进行排序,发布日期晚的将排在第一位。如果在采集
选项中勾选“下载远程图片”,采集
程序会自动将内容中的图片下载到xPointCMS服务器,并替换内容中的图片地址。如果采集
选项中的“删除内容中的链接”被选中,采集
程序会自动将内容中的所有超链接转换为纯文本。此栏采集
,表示采集
到的文档存放在哪一栏。如果xPointCMS所在的服务器无法直接访问互联网或目标网页必须通过特殊代理访问,则必须始终勾选“使用代理服务器”选项并填写代理服务器的地址、端口、用户名和密码。网站内容管理系统(xPointCMS) 网页采集
操作手册 3. 填写网址 填写完基本设置后,就可以开始填写网址规则了。以网易新闻为例,您可以按照以下步骤操作: 1)@ >填写起始网址,填写网易新闻列表页面的网址,如下图: 填写下一级网址和观察列表页面中的新闻链接,
采集
到所有符合条件的网址后,再从采集
到的网址中提取出所有链接网址,并将通配符与第三级的网址进行比较……直到最后一个网址。有时需要过滤掉一部分网址,必须经常勾选“过滤网址”选项,填写过滤网址通配符。这些规则类似于常见的 URL 通配符。采集
程序会将 URL 与过滤后的 URL 通配符进行比较,如果发现与通配符之一匹配,则将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。将所有链接的URL从URL采集
的HTML中再次提取,通配符与第三级的URL进行比较......直到最后一个URL。有时需要过滤掉一部分网址,必须经常勾选“过滤网址”选项,填写过滤网址通配符。这些规则类似于常见的 URL 通配符。采集
程序会将 URL 与过滤后的 URL 通配符进行比较,如果发现与通配符之一匹配,则将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。将所有链接的URL从URL采集
的HTML中再次提取,通配符与第三级的URL进行比较......直到最后一个URL。有时需要过滤掉一部分网址,必须经常勾选“过滤网址”选项,填写过滤网址通配符。这些规则类似于常见的 URL 通配符。采集
程序会将 URL 与过滤后的 URL 通配符进行比较,如果发现与通配符之一匹配,则将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。有时需要过滤掉一部分网址,必须经常勾选“过滤网址”选项,填写过滤网址通配符。这些规则类似于常见的 URL 通配符。采集
程序会将 URL 与过滤后的 URL 通配符进行比较,如果发现与通配符之一匹配,则将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。有时需要过滤掉一部分网址,必须经常勾选“过滤网址”选项,填写过滤网址通配符。这些规则类似于常见的 URL 通配符。采集
程序会将 URL 与过滤后的 URL 通配符进行比较,如果发现与通配符之一匹配,则将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。如果它找到与通配符之一的匹配项,它将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。如果它找到与通配符之一的匹配项,它将忽略非集合。网站内容管理系统(xPointCMS)网页采集
操作手册4. 填写内容匹配块 填写完基本信息后,开始填写内容匹配块。
首先打开一个文章内容页面,如下图: 我们看到发布日期的格式是yyyy-MM-ddHH:mm:ss。如果此格式与我们之前填写的发布日期格式不一致,我们必须始终使用此格式填写“基本信息”选项卡的“发布日期格式”。然后查看网页源代码,找到收录
标题、发布日期和内容的部分,如下图: 网站内容管理系统(xPointCMS)网页采集
操作手册 复制收录
标题和内容的HTML文本对于常见的文本编辑器,将标题替换为 ${A:Title},将内容替换为 ${A:Content},将发布日期替换为 ${A:PublishDate}。替换后的字符串如下图所示: 接下来,打开另一个文章内容页面,检查页面源代码,将标题、内容、发布日期替换为相关字符串,然后与上一个进行比较,找出所有不一致的地方(有多余的空行和前后空格数)行区别不一样,不一定要处理),并替换成${A},替换后的结果如下图: 网站内容管理系统(xPointCMS)网页采集
操作手册这里${A} 和前面填写的URL 通配符含义相同,表示允许任何字符。${A:TItle} 后面的部分表示字段名称,采集程序会将此名称与数据库中的文章表字段进行匹配。然后和前面的比较,找出所有不一致的地方(有多余的空行和行前后的空格数不一样,不一定要处理),并用$替换{A},替换后的结果如下图所示: 网站内容管理系统(xPointCMS)网页采集
操作手册 这里${A}和前面的URL填写 通配符含义相同,表示任意字符被允许。${A:TItle} 后面的部分表示字段名称,采集程序会将此名称与数据库中的文章表字段进行匹配。然后和前面的比较,找出所有不一致的地方(有多余的空行和行前后的空格数不一样,不一定要处理),并用$替换{A},替换后的结果如下图所示: 网站内容管理系统(xPointCMS)网页采集
操作手册 这里${A}和前面的URL填写 通配符含义相同,表示任意字符被允许。${A:TItle} 后面的部分表示字段名称,采集程序会将此名称与数据库中的文章表字段进行匹配。不一定要处理),替换成${A},替换后的结果如下图: URL 前面的通配符含义相同,表示允许任何字符。${A:TItle} 后面的部分表示字段名称,采集程序会将此名称与数据库中的文章表字段进行匹配。不一定要处理),替换成${A},替换后的结果如下图: URL 前面的通配符含义相同,表示允许任何字符。${A:TItle} 后面的部分表示字段名称,采集程序会将此名称与数据库中的文章表字段进行匹配。
例如,我们可以添加一个 ${A:Author} 匹配符号,匹配的值将成为文章作者字段的值。网站内容管理系统(xPointCMS) 网页采集
操作手册 5. 无法填写内容过滤块 有时可能会在内容中插入一些不属于文章正文部分的广告,请始终将其替换为字符串,所以总是填写内容过滤块。如果您不总是想过滤任何文本,则不必总是填写此选项。内容过滤块规则的填写与内容匹配块的填写相同。符合内容过滤块规则的文本将被替换为空字符串。允许填充多个过滤块,可以通过“添加新的过滤块” 一般是因为我们在填写内容匹配块的时候没有考虑到一些情况(通常有一些网址无法提取,除非我们特别熟悉目标网站的文章详情页的规则),此时我们总是要回去修改我们的内容匹配块。一般步骤是:1)
请注意,此时您并不总是需要再次执行任务,因为已经从服务器采集
了网页。如果您再次执行该任务,它会再次尝试下载网页。重新处理的结果如下图所示: 网页内容管理系统(xPointCMS)网页采集
操作手册说明该栏目下的所有文章都已转换,没有出现错误。有时可能总是需要多次重复此步骤以提高匹配块的兼容性。在一些特殊情况下,每个文章内容页面的结构有很大不同,可能总是需要建立多个采集
任务,将同一URL下的所有文章转移到指定的列。相似地,在某些情况下可能不考虑过滤块,导致过滤不完整,必须以类似于内容匹配块的方式对其进行修改。网站内容管理系统(xPointCMS)网页采集
操作手册8. 采集
效果 经过以上步骤后,目标网站的文章数据会出现在指定栏目下,如图: 如果勾选“下载流程” ” “图片”,图片会自动下载并添加到图片库,如下图: 网站内容管理系统(xPointCMS)网页采集
操作手册 如果目标页面文章中有页面,它会自动分为一篇文章,如下图所示:原创网页网站内容管理系统(xPointCMS)网页采集
操作手册,采集
后自动合并内容。同时我们也可以看到,采集
到的内容不再有网易上的广告。