演练进行数据发布操作 - 网络矿工采集器
优采云 发布时间: 2020-08-26 23:31演练进行数据发布操作 - 网络矿工采集器
演练进行数据发布操作注意:为了更好的讲解发布配置,本文采用了手工发布数据的方法,如果进行手动发布, 请将配置好的发布规则导出到采集任务中即可本文讲解配置发布规则发布到数据库、网站 及借助发布模版进行数据发布。 启动网路矿工soukeynetget.exe 点击菜单项“工具”-“发布工具”,启动数据加工发布工具,如下图 利用发布模版发布数据借助发布模版发布数据是最简单的方法,用户只须要配置基本的信息就可以了,网络矿 工外置了常用的cms 发布模版,用户只需选择适宜自己的模版使用即可。 使用发布模版发布数据,可实现系统手动登入、文件上传、分类对应、内容发布等手动 化操作,非常便捷。 以discuz!x2.5 打开数据加工发布工具,选择须要发布的数据,并选中“调用发布模版发布数据”,系统会手动将发布模版配置的信息显示下来,然后将须要发布的数据与模版的参数进行关联,并 数据发布网站的用户名、密码和网站地址,如下: 当前上传图片的目录是我们手工输入,您假若采用了网路矿工手动下载图片,系统会自 动输出目录地址,只须要进行对应即可。 至此,发布配置的信息就早已完成,点击“保存发布模版信息”将当前配置的规则保存 起来,保存后,可在配置采集任务时导出此发布规则,实现数据采集发布的自动化操作。
点击“开始”按钮,即可开始进行数据发布。发布后可通过discuz 查看已发布的数据信 息,如下图: 系统上传图片后,会依据发布模版指定的规则对图片与文章进行关联替换,自动将图片 插入到文章中,用户无需干预。 高手演习中,我们会详尽讲解发布模版的制做。 发布到数据库网路矿工可以对三种数据源的数据进行加工处理并进行数据发布: 可以联接到Access、MSSqlserver、MySql数据库,获取任意数据表数据; 网络矿工雷达监控获取的数据;选择任意数据源时,只须要双击数据源的节点即可,选择网路矿工采集的数据,即可马 上进行数据加载,如果选择数据数据源,系统会提示进行数据库联接信息的配置,我们以 MSSqlServer 为例,双击“MSSqlserver 数据库”节点,打开数据库联接配置窗体 服务器填写数据库服务器地址,当前选择了windows 身份验证,根据实际情况选择验证 方式,数据库服务器地址和验证信息填写正确后,点击数据库的下拉列表,系统会手动联接 数据库,并呈现当前所联接数据服务的所有数据库信息,选择数据库信息后,同样,点击数 据表下拉列表,系统会手动呈现所选数据库下的所有数据表,选择一个数据表后,系统会自 动写出查询当前表的所有数据的sql 语句,意味着提取这个表的所有数据,用户也可以依据 实际情况对sql 语句进行更改,譬如:增加查询条件,只获取一部分数据进行操作。
配置完成后,确定,即可加载指定的数据信息 数据加载后,就可进行数据的基本编辑操作。 用户可直接点击一个单元格进行数据更改,类似 Excel 的操作方法,同时用户也可使用 网络矿工提供的数据编辑功能,网络矿工提供了以下数据编辑操作:增加新列、删除列、删 除行、删除重复行、增加前缀、增加后缀、自动编号、替换、输入固定值、截取字符、去除 网页符号、清空数据等多种编辑操作,同时用户还可新增行数据,或删掉一些无用的数据, 对于数据的编辑,系统提供了十分方便的操作,满足用户日常对数据维护的要求。 当数据发生更改时,系统提示进行保存,即保存按键显示为可用。如果是加载的网路矿 工采集的数据,保存数据则还是保存在原有文件中,如果是加载的数据库数据,保存数据系 统都会提示保存到新的文件中,并非保存到原数据表,这样做的目的是为了可以保存一份原 始数据的备份。 当对数据完成编辑操作后,可以将数据发布到新的数据表、或发布到网站。 点击菜单“数据发布”打开数据发布界面, 数据发布可以有两种选项:数据库和网站, 数据库支持access、mysql 和mssqlserver,暂不支持oracle,网站发布就是通过http 的形式 将数据手动递交到网站。
数据发布:数据发布操作配置并不复杂,首先须要选择发布的数据量类型,然后点击“设 置”按钮,打开数据库配置窗口,进行数据库联接的设置,操作与上面所讲的联接数据库操 作相同,配置好后可以选择相应的数据库,并选择数据表。 非常重要:数据表可以选择已有的数据表,也可由用户填写一个不存在的数据表由系 统完善并插入数据。对于一个不存在的表,系统会依照当前加载的数据结构进行构建,所 以不会出现数据表数组与数据列不匹配的情况,但假如用户选择了一个早已存在的表,就 非常有可能出现表数组与数据项不匹配的情况,当用户选择了一个早已存在的表,系统还 是会手动填写sql 语句,但有可能会出现不匹配,因为系统并不知道数据项该怎么对应数据 表数组,所以须要用户手工更改。譬如:我们采集了一个文章的数据(包括标题、发布时 间、正文),但选择的表数组是编号、标题、发布时间、来源、正文,这样就出现了不匹配 的情况,用户一定要对sql 语句进行调整,否则将会插入失败。 当发布规则配置好以后,点击“开始”按钮就可以进行数据发布操作了。注意:如果数 据源选择的是网路矿工采集的数据,则发布成功以后,系统也会手动删掉网路矿工采集的数 据信息。
发布数据到网站重点讲解一下发布数据到网站的操作,会有一些技术内容,尽量简单一些。网络矿工的 web 发布须要了解一些基本的技术内容,因为 web 发布本身须要获取配置的信息并不是太 容易的找到。 首先我们先了解一下原理,我们在访问一个网站时,地址都是 http 打头,http 是一个 传输合同,在符合这个合同的条件下,我们的浏览器和网站之间进行文本通信。既然是通信, 就可以上传或下载,下载就是浏览网页,上传就是递交数据。通常情况下递交数据基本会采 POST方式进行,对于 POST 的理解,我们可以简单的觉得是浏览器将网页用户输入的数 据打包,向服务器进行上传,且可以上传的数据量较大。在网页中,组织那些用户输入的数 据可以理解为是一个表单,就好象我们的一张报表,用户填写完成交付领导一样。 数据发布到网站,实际就是模拟这些恳求,将数据建立成post 形式的http 请求,逐一 将数据发布到网站。在具体配置之前,我们须要了解,要完整配置一个可以发布数据到网站 的发布规则,需要有几部份信息构成: POST数据,就是我们所说的表单数据; 是否成功?对于软件而言,url恳求发出,系统不报错,就是正确的,但对于递交 数据而言,有了错误,通常会返回错误的说明,而不是报错,所以,系统要辨识这 种错误信息,才能正确判别数据发布是否成功; 很多峰会为了避免灌水,会控制发贴时间的间隔,所以,要成批发布数据,还须要控制发布的间隔,防止峰会屏蔽掉信息。
我们还是以discuz 为例,只不过换成了discuz!nt 来进行数据发布操作: 首先我们用网路矿工的 Mini 浏览器进行一次真实的数据发布,利用网络浏览器对递交 的数据进行查看,并对递交的数据进行参数替换,从而完成数据发布的配置。 我们先做一个简单的信息发布,然后递交,查看post 数据和cookie 信息,如下: 通过 Mini 浏览器,我们可以看见当我们发布一条数据时,浏览器向网站提交的数据内 容,而我们发布数据,就是根据这样的格式进行数据发布即可,只是须要将其中的内容替换 成参数,以实现成批数据的发布。确定退出后,我们可以将POST 数据填筑到采集任务中, 通过点击“插入参数”按钮进行更改; 参数部份是系统按照用户配置的采集数据规则手动生成,替换须要递交数据的内容即 可,如下: 还有两个重要信息须要进行设置,Cookie 和编码。 Cookie 的设置相对比较简单,我们可以点击“获取Cookie”按钮,打开Mini 浏览器, 在浏览器中实际登陆到须要发布数据的网站,此时Mini 浏览器会手动记录下登录的Cookie, 点击确定,即可将Cookie 添加进来。 容易出现问题的地方来了,网络矿工 Mini 浏览器有一个问题,就是有时会出现获取 Cookie 不完整的情况,出现此情况时,请通过网路矿工嗅探器来获取 Cookie。
Cookie 设置 完成后,可以设置编码。 注意:这里的编码并不是网页的编码,而是指POST 提交数据的编码,叫法有些别扭, 编码的查看可以通过浏览器进行,这里又要屁话两句了,建议使用 Firefox,点击右键“查 看页面信息” 箭头所指就是具体的编码了,当然您也可通过查看网页源码,来查看 Content-Type 中编码 的设置。 当以上信息配置完成后,我们可以测试发布一些数据,看是否可以成功?如果正常的话, 发布就成功了,现在我们说不正常的情况。发布失败。如何查看发布失败返回的信息,或者 说怎样配置发布成功标记,来辨识发布已然成功。 当启动数据发布后,可在日志输出框内,点击滑鼠右键,选择“查看 web 发布返回数 据”即可打开一个窗口,对 web 发布后返回的数据进行查看,这是一个浏览器,可将返回 的数据进行展示,从而使用户确认发布是否真正成功。 这是一个浏览器,会将 web 发布后返回的数据在浏览器中显示,用户可通过查看源码 设置一个发布成功后的成功标志,并输入到发布规则配置中,让系统进行判别发布是否成功。 一次发布成功并不表示数据就会成功,譬如还是我们所讲的事例,当连续发布时,由于 网站设置了回帖的间隔时间,会导致发布失败,如下图: 通过查看 web 发布返回的数据,我们可以获取到发布中的错误信息,并依照错误信息 对发布规则进行调整,设置发布规则的间隔时间为15 秒,重新发布即可。
实际对于web 发布而言,难度并不是很大,主要的问题是web 发布操作对于浏览器而 言是在后台操作的,而且发布过程中好多的信息也是不透明的,至少对用户而言是不透明, 而这种信息又必须是要设置的,所以就引起了发布配置的难度。 通过前面所讲,我们也是借助了工具才将发布规则所需的信息配置完成,并通过多次的 测试才可以确保发布无误。多联系,逐步能够把握熟练。