如何把旧网站的数据迁移到新网站上来?

优采云 发布时间: 2021-06-22 03:21

  如何把旧网站的数据迁移到新网站上来?

  MD5 值:0FA0463417A72D84375C4B5D2FC49465

  上传插件方法一

  直接通过后台的【本地后台上传插件】直接上传和解压下载的ZIP包。

  优点:操作方便!

  缺点:部分主机解压失败

  方法二

  下载插件后,在本地解压,通过FTP上传文件夹到plugins目录。

  优点:安装比较流畅。

  缺点:可能需要你有一点网络建设知识和一点编程经验

  安装插件

  上传成功后,插件会出现在【插件未安装】列表中,请点击安装

  

  安装后会显示【已安装列表】。目前,该插件不可用。请点击状态,它会变成[绿色],表示插件安装成功

  

  参数调整

  在安装过程中,由于某些原因,您没有配置参数,您可以在这里配置

  

  快速列管理

  系统支持自定义插件的一些配置信息为:左侧菜单/全局区域/内容区域,这是一个大区域,方便维护人员快速进入

  

  

  内容介绍

  在建网站的过程中,我们会遇到无数次这样的问题:如何将旧的网站的数据迁移到新的网站。数据迁移一直是产品迭代更新中最难的部分。官方从实际出发,写入对应的数据采集plug-in,只要一个简单的页面logo,就可以快速将数据迁移到新平台!也方便开发者填写数据(不要大量填写:test test, Demo, Demo)

  新修订

  字段规则参考

  导入导出规则数据

  特别说明

  这个插件的定位从一开始就很明确。用于网站平台迁移,功能简单,性能一般。如果你的网站数据量很大,需要采集,建议你使用优采云采集器

  请合理使用,请勿非法使用!

  采集tutorial

  采集principle

  程序通过curl远程获取网页数据(HTML),然后通过常规方式获取并过滤其需要的内容信息(如一些文字信息、图片信息、文件信息等)。为简化操作,本系统使用通配符:(*)表示任意值,其他正则表达式未深入测试。

  这里再次声明,这个job的功能很脆弱,只适合网站moving。不支持流行的异步数据获取,不支持JSON分析!

  本节目全部列表+content采集principle:

  通过[采集range]的左边删除此代码块之前的所有数据(也称为起始标识符,或起始字符串)!通过[采集range]的右侧删除此代码块之后的所有数据(也称为结束标识符,或结束字符串),只保留这两个代码块之间的数据!

  列表中:对于剩余的代码,通过常规规则获取URL信息(列表中只有采集URL,没有采集其他)

  采集content的原理和list一样,因为content由多个字段组成,每个字段的规则基本都是这样!

  删除代码块之前+之后的代码

  删除一些额外的代码

  替换一些代码(简单的文本替换)

  对获取的内容进行格式化:1)文字、2)HTML、3)text 到时间戳、4)整数格式、5)浮点格式、6)取前80个字,用于摘要,7)拍照,基本上就是这样

  

  项目维护

  点击右上角各项目的【添加采集项目】或【编辑】,进入采集项目维护界面。

  标题:(易于管理)

  URL:其作用是补全相对地址,所以需要填写:域名/目录/或域名/目录/,或直接填写:域名/或域名/,方便地址补全(此操作需要用户自己测试,主要用于图片文件的获取)

  发布目标:发布信息保存在哪个项目中(系统会根据指定的项目创建采集字段),注意分类的选择!

  List URL:通常是我们所说的列表页面,有分页的页面,像新闻一般是:标题+摘要+图片+链接(例如URL:这是一个列表页面),每行一个列表。如果列表过多,请选择旁边的【网址*敏*感*词*】快速生成常规页面

  采集Scope:在网页中设置一块采集

  

  项目副本

  我们一直强调这个插件主要是针对搬家服务的,自然也有自己的一些特点,比如当前项目复制功能,可以实现同一项目类型不同类别的快速定位!

  

  现场管理

  项目创建后,系统会自动将所有需要采集的内容字段写入到字段管理中。这些管理相当于优采云的[Content采集Rules]中的标签列表。我们需要采集 字段被规则处理!处理原理和上面提到的采集原理完全一样!

  这里我画了一张优采云采集器content rules采集的图和对比图(当然我们的程序功能比较弱)

  

  A、B、C、D的功能基本上和优采云一一对应!

  采集测试

  写好规则后,我们需要对数据进行测试验证,确保采集的数据是我们想要的

  请点击【测试】,在打开的标签页中输入要测试的网址!注意,列表采集test请点击[采集List],内容采集test请点击[采集内容]

  

  

  采集并发布

  以上准备工作完成后,我们就可以开始采集数据了!

  采集的顺序是:

  1、【采URL】,首先通过列表采集获取我们想要采集的内容页网址

  2、【采内容】,URL采集完成后,请点击获取内容,进入内容采集,直接采集end

  3、[已发布内容],发布前请随机查看内容,点击内容,随机抽查采集的内容是否符合要求。确保数据一致,我们再次点击发布

  

  网站迁移条件

  1、关闭反采集功能

  2、可以手动修改旧版网站模板信息(或内容)(用来修改我们需要的URL和内容信息)

  3、仅限开发者

  网站migration

  给老站页面采集的列表添加一个唯一标签,这样采集时就不会出现太多垃圾数据和丢失数据。主要说明如下

  

  看到上面的源代码图片,我们通常在后台设置这样的标签:

  

  但是在实际过程中,一个页面的重复标签太多,所以我们修改了源代码页面(网上大部分程序源代码对应的页面都是模板),我们添加了开始标识到模板代码和结束标识符

  这样我们就可以在[采集Scope]中进行如下设置

  

  所以我们的采集定位是准确的!

  同样的原则适用于采集content 字段。这个方法甚至可以用于采集完整时间(因为页面一般只呈现年月日,但是我们的数据盘点是年月日时分秒,甚至时间戳格式,我们可以自己重新定义标签和内容,然后执行采集!

  请注意,此方法需要开发人员!普通用户谨慎使用

  特别提醒

  1、list 或者详情页采集Ajax 是异步加载的,当前系统弱采集(比如点击),也就是说大部分现代特效网站基本可以排除,没有数据可用

  2、请使用右键查看源码或者按CTRL+U获取源码格式,不要通过F12或者check模式获取代码(如下图)

  

  所以,再说一次,这个工具只用于网站移家!因为刚才遇到的问题,如果有世代修改权限,这些都不是问题!

  效果截图

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线