如何把旧网站的数据迁移到新网站上来?
优采云 发布时间: 2021-06-22 03:21如何把旧网站的数据迁移到新网站上来?
MD5 值:0FA0463417A72D84375C4B5D2FC49465
上传插件方法一
直接通过后台的【本地后台上传插件】直接上传和解压下载的ZIP包。
优点:操作方便!
缺点:部分主机解压失败
方法二
下载插件后,在本地解压,通过FTP上传文件夹到plugins目录。
优点:安装比较流畅。
缺点:可能需要你有一点网络建设知识和一点编程经验
安装插件
上传成功后,插件会出现在【插件未安装】列表中,请点击安装
安装后会显示【已安装列表】。目前,该插件不可用。请点击状态,它会变成[绿色],表示插件安装成功
参数调整
在安装过程中,由于某些原因,您没有配置参数,您可以在这里配置
快速列管理
系统支持自定义插件的一些配置信息为:左侧菜单/全局区域/内容区域,这是一个大区域,方便维护人员快速进入
内容介绍
在建网站的过程中,我们会遇到无数次这样的问题:如何将旧的网站的数据迁移到新的网站。数据迁移一直是产品迭代更新中最难的部分。官方从实际出发,写入对应的数据采集plug-in,只要一个简单的页面logo,就可以快速将数据迁移到新平台!也方便开发者填写数据(不要大量填写:test test, Demo, Demo)
新修订
字段规则参考
导入导出规则数据
特别说明
这个插件的定位从一开始就很明确。用于网站平台迁移,功能简单,性能一般。如果你的网站数据量很大,需要采集,建议你使用优采云采集器
请合理使用,请勿非法使用!
采集tutorial
采集principle
程序通过curl远程获取网页数据(HTML),然后通过常规方式获取并过滤其需要的内容信息(如一些文字信息、图片信息、文件信息等)。为简化操作,本系统使用通配符:(*)表示任意值,其他正则表达式未深入测试。
这里再次声明,这个job的功能很脆弱,只适合网站moving。不支持流行的异步数据获取,不支持JSON分析!
本节目全部列表+content采集principle:
通过[采集range]的左边删除此代码块之前的所有数据(也称为起始标识符,或起始字符串)!通过[采集range]的右侧删除此代码块之后的所有数据(也称为结束标识符,或结束字符串),只保留这两个代码块之间的数据!
列表中:对于剩余的代码,通过常规规则获取URL信息(列表中只有采集URL,没有采集其他)
采集content的原理和list一样,因为content由多个字段组成,每个字段的规则基本都是这样!
删除代码块之前+之后的代码
删除一些额外的代码
替换一些代码(简单的文本替换)
对获取的内容进行格式化:1)文字、2)HTML、3)text 到时间戳、4)整数格式、5)浮点格式、6)取前80个字,用于摘要,7)拍照,基本上就是这样
项目维护
点击右上角各项目的【添加采集项目】或【编辑】,进入采集项目维护界面。
标题:(易于管理)
URL:其作用是补全相对地址,所以需要填写:域名/目录/或域名/目录/,或直接填写:域名/或域名/,方便地址补全(此操作需要用户自己测试,主要用于图片文件的获取)
发布目标:发布信息保存在哪个项目中(系统会根据指定的项目创建采集字段),注意分类的选择!
List URL:通常是我们所说的列表页面,有分页的页面,像新闻一般是:标题+摘要+图片+链接(例如URL:这是一个列表页面),每行一个列表。如果列表过多,请选择旁边的【网址*敏*感*词*】快速生成常规页面
采集Scope:在网页中设置一块采集
项目副本
我们一直强调这个插件主要是针对搬家服务的,自然也有自己的一些特点,比如当前项目复制功能,可以实现同一项目类型不同类别的快速定位!
现场管理
项目创建后,系统会自动将所有需要采集的内容字段写入到字段管理中。这些管理相当于优采云的[Content采集Rules]中的标签列表。我们需要采集 字段被规则处理!处理原理和上面提到的采集原理完全一样!
这里我画了一张优采云采集器content rules采集的图和对比图(当然我们的程序功能比较弱)
A、B、C、D的功能基本上和优采云一一对应!
采集测试
写好规则后,我们需要对数据进行测试验证,确保采集的数据是我们想要的
请点击【测试】,在打开的标签页中输入要测试的网址!注意,列表采集test请点击[采集List],内容采集test请点击[采集内容]
采集并发布
以上准备工作完成后,我们就可以开始采集数据了!
采集的顺序是:
1、【采URL】,首先通过列表采集获取我们想要采集的内容页网址
2、【采内容】,URL采集完成后,请点击获取内容,进入内容采集,直接采集end
3、[已发布内容],发布前请随机查看内容,点击内容,随机抽查采集的内容是否符合要求。确保数据一致,我们再次点击发布
网站迁移条件
1、关闭反采集功能
2、可以手动修改旧版网站模板信息(或内容)(用来修改我们需要的URL和内容信息)
3、仅限开发者
网站migration
给老站页面采集的列表添加一个唯一标签,这样采集时就不会出现太多垃圾数据和丢失数据。主要说明如下
看到上面的源代码图片,我们通常在后台设置这样的标签:
但是在实际过程中,一个页面的重复标签太多,所以我们修改了源代码页面(网上大部分程序源代码对应的页面都是模板),我们添加了开始标识到模板代码和结束标识符
这样我们就可以在[采集Scope]中进行如下设置
所以我们的采集定位是准确的!
同样的原则适用于采集content 字段。这个方法甚至可以用于采集完整时间(因为页面一般只呈现年月日,但是我们的数据盘点是年月日时分秒,甚至时间戳格式,我们可以自己重新定义标签和内容,然后执行采集!
请注意,此方法需要开发人员!普通用户谨慎使用
特别提醒
1、list 或者详情页采集Ajax 是异步加载的,当前系统弱采集(比如点击),也就是说大部分现代特效网站基本可以排除,没有数据可用
2、请使用右键查看源码或者按CTRL+U获取源码格式,不要通过F12或者check模式获取代码(如下图)
所以,再说一次,这个工具只用于网站移家!因为刚才遇到的问题,如果有世代修改权限,这些都不是问题!
效果截图