话题：采集内容管理平台 - 自动文章采集器-优采云官网

采集内容管理平台

全部内容
精华
推荐
我的收藏
关于话题

采集内容管理平台(传漾在传漾广告营销生态链中工作原理和流程分析依据)

采集交流 • 优采云发表了文章 • 0 个评论 • 117 次浏览 • 2022-02-24 22:13 • 来自相关话题

　　采集内容管理平台(传漾在传漾广告营销生态链中工作原理和流程分析依据)
　　DMP数据管理平台（DMP）——在DMP的广告营销生态链中，SameData处于数据管理平台的DMP环节，用于为整个竞价模式提供实时的购买受众数据。在RTB领域，相比于需求侧平台DSP和供应侧平台SSP，DMP也发挥着重要作用。因为没有DMP，所以无法实时判断目标受众和单个受众的价格，更谈不上实时竞价。SameData 利用了一个巨大的数据库。通过川阳的ABP受众购买平台（DSP平台），可以在广告执行前后，以非常直观、直观的形式，通过各个维度向广告主和代理商展示广告的全过程。
　　具体来说，SameData 在广告营销生态链中的工作原理和流程如下：交换平台或媒体的印象产生后，平台或媒体通过标准协议向 DSP 平台发送请求，通常携带的信息包括媒体名称。、媒体分类、页面URL、页面上下文关键词、媒体设定的最低价格，以及最重要的信息——用户cookies。DSP通过查找预先建立的用户映射库，将用户转化为DSP平台可以识别的用户，然后综合计算从交易平台或媒体接收到的所有信息，筛选出合适的广告和最高出价为广告，然后放广告ID，素材地址、跳转地址、大小、类型等回传给平台和媒体。中标成功后，平台会将中标信息发送给DSP平台。实时竞价中观众购买涉及的整个环境数据需要底层DMP提供。
　　因此，由 SameData 驱动的 DMP 将不再只关注实时竞价广告的点击优化，而更多地基于提供企业受众细分，进一步实现展示广告的精准定位和网站优化。搜索定位和多次重复定位、受众研究和数据挖掘 DMP 细分受众（消费者）并为这些细分受众购买或出售广告印象。数据管理平台将提供更合理、科学的算法和分析依据，帮助客户和媒体高管判断什么样的受众是优质的，什么样的广告平台有更多这样的优质广告受众群体，从而得到结果营销推广的效率更高，效果更好。查看全部

采集内容管理平台(现代小说网站必选的网站内容框架内容管理系统推荐理由)

采集交流 • 优采云发表了文章 • 0 个评论 • 136 次浏览 • 2022-02-24 18:08 • 来自相关话题

　　采集内容管理平台(现代小说网站必选的网站内容框架内容管理系统推荐理由)
　　推荐理由：雨小说cms是现代小说网站必选的网站内容框架管理软件，可以很好地为用户提供快速建站和网站@采集方法，用户可以有效添加网站框架内容包括书架、评论、搜索、最近阅读的内容等。新版本更新修复了wap模板和背景分类的问题，数据结构也类似之后相应的优化，可以很好的找回联盟密码。运行环境需要通用服务器，欢迎有需要的用户下载使用。
　　野雨小说cms简介：
　　狂语小说内容管理系统（以下简称KYXScms）的最大特点是灵活、方便、人性化的设计和简单易用。有大量小说网站的行业，批量采集目标网站数据或使用数据联盟自动采集获取大量数据。内置标签模板，即使是不懂代码的前端开发者也能快速创作出精美小说网站。
　　安装注意事项：
　　KYXScms是基于ThinkPHP5.1+MYSQL开发的，可以运行在最常见的服务器上。
　　如windows服务器、IIS+PHP+MYSQL、
　　Linux服务器，Apache/Nginx+PHP+MYSQL
　　强烈建议使用 Linux 服务器以获得更大的性能优势
　　软件方面，PHP需要5.6版本以上，5.6版本以下无法运行。
　　硬件方面，一般配置虚拟主机就可以正常运行系统，如果有服务器就更好了。
　　安装步骤：
　　1.解压文件并上传到对应目录等
　　2.网站必须配置伪静态才能正常安装使用（第一次访问首页会自动进入安装页面，或者手动输入域名.com/install）
　　3.同意使用协议进入下一步检查目录权限
　　4.测试通过后，填写常规数据库配置项，填写正确，安装成功。安装成功后会自动进入后台页面域名.com/admin，填写安装时输入的后台管理员和密码登录
　　软件特点：
　　1.网站采集可以采集任何小说网站的功能
　　2.数据联盟，即使没有设置采集的功能，也可以获得大量新奇数据
　　3、前端模板自适应（PC、手机、平板自动适配）
　　4、搜索关联
　　5、书架功能查看全部

采集内容管理平台(免费api接口做一个简单的介绍：哪些内容可采集)

采集交流 • 优采云发表了文章 • 0 个评论 • 102 次浏览 • 2022-02-20 14:05 • 来自相关话题

　　采集内容管理平台(免费api接口做一个简单的介绍：哪些内容可采集)
　　采集内容管理平台是做什么的，参考百度百科：内容管理平台，简单的说，就是帮助企业进行内容的管理的，一般可分为内容采集和内容管理，以及内容的分发和呈现，这些内容平台通过前端的采集系统和审核系统对文章的数据进行加工处理，形成采集结果数据，给予后端的存储、分发和呈现方面的更为详细的指导。下面会以免费api接口做一个简单的介绍：哪些内容可采集？。
　　1、文本采集：对文本进行采集的技术主要是html5sequenceextension。其主要特点是简单快捷易用，成本低廉，速度快，数据准确。
　　2、图片采集：通过图片的分享来进行文字的采集。比如在微信、qq等私人空间可以发送图片链接（带有广告信息的还需要进行审核），将图片分享到微信、qq等平台，微信等平台打开图片链接获取文字之后，按规则输入内容，然后生成文本。
　　3、视频采集：通过自动生成的flv视频链接，对视频中的文字进行采集，现在视频网站都有视频标题搜索功能，这个技术也可以用于搜索引擎爬虫。
　　4、音频采集：音频采集现在很多人都需要抓取音频资源，无论是网络音频还是现实中的语音。
　　5、视频录制：音频的采集比较简单，采集主要是将音频进行采集，然后匹配数据库，生成数据库的文本信息。
　　6、音频格式转换：音频格式的转换主要分为音频格式转换的编码格式和传输协议等，现在主要是4.0gpt格式和utf-8编码，数据格式包括.mp3，.flac，.m4v等。
　　哪些内容可放采集结果？
　　1、文字：有时候一篇文章中需要大量的文字链接，需要对每一段文字进行采集，编码方式自定义，utf-8即可。
　　2、音频：将音频数据采集，编码方式自定义，utf-8即可。
　　3、图片：通过采集文章的链接，利用http的url重定向（或直接rewrite）获取。
　　4、视频：通过采集链接，传输到后端，传输协议自定义，utf-8即可。
　　哪些内容可提取内容？
　　1、文本提取：用url对文本进行抓取，对内容进行匹配，提取出关键词，点击内容即可。
　　2、图片提取：a、对图片进行采集，编码方式自定义，utf-8即可。b、对图片进行抓取，编码方式自定义，utf-8即可。c、对图片进行抓取，编码方式自定义，utf-8即可。
　　3、文件名提取：提取文件名中的关键词。
　　提取关键词的方法有：
　　1、从word中提取；
　　2、从excel中提取。
　　4、一句话提取：通过提取文字和关键词，匹配excel或者是文件名中的关键词。
　　提取文字方法有：
　　5、关键词密度提取：要提取某关键词时，分析该关键词的关注人数，然后统计该关键词的人数，查看全部

　　采集内容管理平台(免费api接口做一个简单的介绍：哪些内容可采集)
　　采集内容管理平台是做什么的，参考百度百科：内容管理平台，简单的说，就是帮助企业进行内容的管理的，一般可分为内容采集和内容管理，以及内容的分发和呈现，这些内容平台通过前端的采集系统和审核系统对文章的数据进行加工处理，形成采集结果数据，给予后端的存储、分发和呈现方面的更为详细的指导。下面会以免费api接口做一个简单的介绍：哪些内容可采集？。
　　1、文本采集：对文本进行采集的技术主要是html5sequenceextension。其主要特点是简单快捷易用，成本低廉，速度快，数据准确。
　　2、图片采集：通过图片的分享来进行文字的采集。比如在微信、qq等私人空间可以发送图片链接（带有广告信息的还需要进行审核），将图片分享到微信、qq等平台，微信等平台打开图片链接获取文字之后，按规则输入内容，然后生成文本。
　　3、视频采集：通过自动生成的flv视频链接，对视频中的文字进行采集，现在视频网站都有视频标题搜索功能，这个技术也可以用于搜索引擎爬虫。
　　4、音频采集：音频采集现在很多人都需要抓取音频资源，无论是网络音频还是现实中的语音。
　　5、视频录制：音频的采集比较简单，采集主要是将音频进行采集，然后匹配数据库，生成数据库的文本信息。
　　6、音频格式转换：音频格式的转换主要分为音频格式转换的编码格式和传输协议等，现在主要是4.0gpt格式和utf-8编码，数据格式包括.mp3，.flac，.m4v等。
　　哪些内容可放采集结果？
　　1、文字：有时候一篇文章中需要大量的文字链接，需要对每一段文字进行采集，编码方式自定义，utf-8即可。
　　2、音频：将音频数据采集，编码方式自定义，utf-8即可。
　　3、图片：通过采集文章的链接，利用http的url重定向（或直接rewrite）获取。
　　4、视频：通过采集链接，传输到后端，传输协议自定义，utf-8即可。
　　哪些内容可提取内容？
　　1、文本提取：用url对文本进行抓取，对内容进行匹配，提取出关键词，点击内容即可。
　　2、图片提取：a、对图片进行采集，编码方式自定义，utf-8即可。b、对图片进行抓取，编码方式自定义，utf-8即可。c、对图片进行抓取，编码方式自定义，utf-8即可。
　　3、文件名提取：提取文件名中的关键词。
　　提取关键词的方法有：
　　1、从word中提取；
　　2、从excel中提取。
　　4、一句话提取：通过提取文字和关键词，匹配excel或者是文件名中的关键词。
　　提取文字方法有：
　　5、关键词密度提取：要提取某关键词时，分析该关键词的关注人数，然后统计该关键词的人数，

采集内容管理平台(KesionCMS下,KesionCMSV6版本的CMS界有了更多的创新与突破)

采集交流 • 优采云发表了文章 • 0 个评论 • 129 次浏览 • 2022-02-18 07:10 • 来自相关话题

　　采集内容管理平台(KesionCMS下,KesionCMSV6版本的CMS界有了更多的创新与突破)
　　KesioncmsKesion内容管理系统是一个功能强大且应用广泛的ASP管理系统。由科讯cms开发，具有强大、稳定、安全、灵活、易用等优点。采用人性化的管理功能，扩展性强，负载能力好，模板调用灵活，可为用户提供强大的管理服务功能。
　　
　　[基本介绍] Kesioncms作为国内最先进的ASP管理系统，自诞生以来已经通过了5年的运行考验。它一直受到广大用户的青睐，以其自身的优势，稳定性、安全性、灵活性、易用性等诸多优势。在广大用户的大力支持下，Kesioncms V6版在cms的世界里有了更多的创新和突破。它不负众望，追求卓越。这是一套专业开放的网站管理系统，通过她让建站更简单，你再也不用为建站发愁了，凯信cms人性化的操作模式，强大的后台管理功能，非常便捷的管理模式，可根据您的需要进行定制。定义风格的万能标签，让非专业人士也能专业，专业管理网站为您节省时间，提高工作效率；系统没有任何文件加密，完全开源的程序具有无限的扩展性和可扩展性，灵活的系统二次开发结构可以快速集成第三方软件，系统彻底解决企业用户的后顾之忧-友好的管理界面、操作方式和丰富的功能特点。
　　我们相信“简单就是美”，因此，科讯的开发者在开发过程中始终充分考虑用户的使用习惯，尽量降低用户的使用门槛，让用户可以专注于内容维护本身，无需投入过多时间学习如何使用系统，注意细节。
　　作为中国最大的网站管理系统软件和服务提供商，我们的开发团队拥有丰富的Web应用设计经验，尤其是在管理系统产品及相关领域。经过长期的创新发展，我们掌握了一整套从算法、数据结构到产品安全的领先技术。这使得凯胜cms在易用性、稳定性、承载能力、安全保障等方面处于国内外同类产品的领先地位。
　　[软件特点] ☆。系统采用模块化开发，100%开源，扩展性更强，二次开发更方便。
　　系统模型管理，可以暂时屏蔽不需要的功能模型，需要时再打开。
　　☆、支持无限列，可绑定二级域名，加载速度更快
　　可以分批添加色谱柱以提高效率并节省时间。可以通过一键对列进行排序来改变列的生成顺序
　　☆。系统支持3种生成方式，全站生成HTML静态和动态ASP和伪静态
<p>整个系统可以生成静态HTML，有效的提高了系统的性能，不仅减轻了服务器的负载，提高了收录的搜索率，还提高了网站查看全部

　　[基本介绍] Kesioncms作为国内最先进的ASP管理系统，自诞生以来已经通过了5年的运行考验。它一直受到广大用户的青睐，以其自身的优势，稳定性、安全性、灵活性、易用性等诸多优势。在广大用户的大力支持下，Kesioncms V6版在cms的世界里有了更多的创新和突破。它不负众望，追求卓越。这是一套专业开放的网站管理系统，通过她让建站更简单，你再也不用为建站发愁了，凯信cms人性化的操作模式，强大的后台管理功能，非常便捷的管理模式，可根据您的需要进行定制。定义风格的万能标签，让非专业人士也能专业，专业管理网站为您节省时间，提高工作效率；系统没有任何文件加密，完全开源的程序具有无限的扩展性和可扩展性，灵活的系统二次开发结构可以快速集成第三方软件，系统彻底解决企业用户的后顾之忧-友好的管理界面、操作方式和丰富的功能特点。
　　我们相信“简单就是美”，因此，科讯的开发者在开发过程中始终充分考虑用户的使用习惯，尽量降低用户的使用门槛，让用户可以专注于内容维护本身，无需投入过多时间学习如何使用系统，注意细节。
　　作为中国最大的网站管理系统软件和服务提供商，我们的开发团队拥有丰富的Web应用设计经验，尤其是在管理系统产品及相关领域。经过长期的创新发展，我们掌握了一整套从算法、数据结构到产品安全的领先技术。这使得凯胜cms在易用性、稳定性、承载能力、安全保障等方面处于国内外同类产品的领先地位。
　　[软件特点] ☆。系统采用模块化开发，100%开源，扩展性更强，二次开发更方便。
　　系统模型管理，可以暂时屏蔽不需要的功能模型，需要时再打开。
　　☆、支持无限列，可绑定二级域名，加载速度更快
　　可以分批添加色谱柱以提高效率并节省时间。可以通过一键对列进行排序来改变列的生成顺序
　　☆。系统支持3种生成方式，全站生成HTML静态和动态ASP和伪静态
<p>整个系统可以生成静态HTML，有效的提高了系统的性能，不仅减轻了服务器的负载，提高了收录的搜索率，还提高了网站

采集内容管理平台(资深房产经纪人如何解决中介方利益相关的问题？)

采集交流 • 优采云发表了文章 • 0 个评论 • 108 次浏览 • 2022-02-16 15:05 • 来自相关话题

　　采集内容管理平台(资深房产经纪人如何解决中介方利益相关的问题？)
　　采集内容管理平台
　　你一直问中介方利益相关的问题吗？我觉得你们不谈价格，谈谈服务模式是比较合理的。另外，我觉得中介应该有责任告诉客户，资金冻结的依据、怎么解冻、解冻后再往外推钱该怎么办？如果发生纠纷，怎么解决，
　　目前正在从事国内房产中介服务行业，我简单的阐述我的认识和理解。作为一个经纪人你就需要明确，你将要卖房的房产优缺点以及价格要求，并且需要用合适的方式去解决。作为一个资深的房产经纪人，还应该有一个基本价值观，就是说不是你想给中介多少钱，中介就需要给你多少钱，或者，你直接找中介的房源，中介会给你安排多少钱的房源。他要考虑合理的推荐的房源以及适当的对接房东，毕竟卖房的才是大爷。
　　资金池问题
　　目前进入市场的中介全是信息混乱的，如果你的房子有价格和信息优势，可以相互结对子找别的中介做朋友，资金池应该是规避不了的，不过你说的找个安全可靠的，太多人做了，最终估计就是数量就过滤了，换一家就是了，对你来说，找到一个有合适资金安全的平台，
　　房产中介应该有合理的成本结构，依我来看，任何推荐、融资都会有一定的风险，就像新加坡globallendingpartners披露的手续费是个极为大的坑，大部分中介会主动选择把费用降低到每次交易0.5%-1%，个别甚至不到每月5%.如果某中介真诚推荐，最多能给你这么少费用，但是如果这中介收高于其他顾问的费用，我个人认为他是能力问题或者以后怎么做做好本职工作的问题。查看全部

　　采集内容管理平台(资深房产经纪人如何解决中介方利益相关的问题？)
　　采集内容管理平台
　　你一直问中介方利益相关的问题吗？我觉得你们不谈价格，谈谈服务模式是比较合理的。另外，我觉得中介应该有责任告诉客户，资金冻结的依据、怎么解冻、解冻后再往外推钱该怎么办？如果发生纠纷，怎么解决，
　　目前正在从事国内房产中介服务行业，我简单的阐述我的认识和理解。作为一个经纪人你就需要明确，你将要卖房的房产优缺点以及价格要求，并且需要用合适的方式去解决。作为一个资深的房产经纪人，还应该有一个基本价值观，就是说不是你想给中介多少钱，中介就需要给你多少钱，或者，你直接找中介的房源，中介会给你安排多少钱的房源。他要考虑合理的推荐的房源以及适当的对接房东，毕竟卖房的才是大爷。
　　资金池问题
　　目前进入市场的中介全是信息混乱的，如果你的房子有价格和信息优势，可以相互结对子找别的中介做朋友，资金池应该是规避不了的，不过你说的找个安全可靠的，太多人做了，最终估计就是数量就过滤了，换一家就是了，对你来说，找到一个有合适资金安全的平台，
　　房产中介应该有合理的成本结构，依我来看，任何推荐、融资都会有一定的风险，就像新加坡globallendingpartners披露的手续费是个极为大的坑，大部分中介会主动选择把费用降低到每次交易0.5%-1%，个别甚至不到每月5%.如果某中介真诚推荐，最多能给你这么少费用，但是如果这中介收高于其他顾问的费用，我个人认为他是能力问题或者以后怎么做做好本职工作的问题。

采集内容管理平台(公开网站信息收集整理资料后按照规定的格式将文字录入系统)

采集交流 • 优采云发表了文章 • 0 个评论 • 150 次浏览 • 2022-02-16 05:04 • 来自相关话题

　　采集内容管理平台(公开网站信息收集整理资料后按照规定的格式将文字录入系统)
　　信息模板.doc(133.5 K)
　　我们公司需要做一个“数据采集管理系统”。就是从一些公开的网站信息中采集、整理数据，然后按照规定的格式将文本输入到系统中，以便系统进行事后统计、分析、整理和分类。
　　一、系统的组成结构为：WEB浏览器客户端，由表示层、业务层、数据层等组成的中间层，以及数据库服务器。
　　二、系统的功能有：
　　1、系统管理
　　包括系统运行前必须设置的基本信息和系统用户账号的统一管理。基础信息是整个系统的基本元数据，是系统完整运行的前提。用户账号与人员信息相关联，人员信息是所有使用系统的人员的身份识别信息，用户对系统的访问由账号管理控制。
　　具体内容包括：组织管理、员工管理、权限管理、操作账号管理、操作日志管理
　　2、数据采集管理
　　管理数据分类设置，组织输入数据并提供基本查询功能。
　　3、数据查询管理
　　根据数据的各个关键字段，查询复杂的组合条件。
　　4、数据统计管理
　　按条件统计采集数据的相关指标。
　　三、要求：
　　1、系统基于INTERNET标准协议，可在广域网条件下工作。
　　2、系统采用企业级应用服务器平台，可实现多服务器负载均衡、多数据库连接等扩展，保证数据处理能力的扩展。
　　3、系统采用完整的BS结构，维护工作全部在服务器端进行，没有客户端调试、维护等工作。大大减轻系统管理员的工作量。
　　4、系统各项操作功能风格一致，形象直观，简单易懂，一般用户使用方便。
　　5、当数据被输入、修改或删除时，系统会自动检查和处理相关数据，并提示用户提供相关信息，以保证数据的完整性和一致性。
　　6、系统架构应该能够保证数据库的安全，避免信息被不当删除。
　　具体信息模板见附件。
　　亲爱的同学们，如果您有兴趣并且能够完成这项工作，您可以给我报价（在网站上短我）。有经验者优先。谢谢！查看全部

采集内容管理平台(dsp内容管理平台怎么做？采集数据服务商怎么操作)

采集交流 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2022-02-15 19:05 • 来自相关话题

　　采集内容管理平台(dsp内容管理平台怎么做？采集数据服务商怎么操作)
　　采集内容管理平台包括两部分：采集数据服务商（如百度，esp等）与采集人员。我知道怎么操作，但以我已有的专业知识，我猜测您说的这种采集平台，应该只能采集公开免费的资源，因为采集这些外链，或内容管理平台就是做社交化推广（也是做网站推广），如果采集的是正式或灰色内容，
　　你可以学学麦客在线，采集进来的内容操作都是用麦客在线的，
　　麦客是常用工具中的一种，采集的时候需要针对内容有所选择，仅需要采集发表过的内容即可。
　　采集引擎可能知道采集哪个页面，
　　百度、搜狗、360、谷歌就算了。看看本地的dsp内容管理平台吧。不过最近回答这类问题比较多，更推荐自己用的内容管理平台-中搜内容管理平台不仅可以采集也可以实现文章自动分类整理、文章的更新计划，实现电子邮件的自动发送，用户群的自动定位，过程管理等多重功能。
　　百度蜘蛛挖了半天就得到一个页面，
　　现在的采集平台的数据抓取部分有备份的，你得想办法切掉源代码。
　　采集时可能会留下某些链接，不存在绝对的安全可靠，这个还是看采集平台的策略。我目前知道的有麦客、鸟采。
　　原来市面上有三个内容采集工具，采集效率，技术成熟度都不是很好，很容易爬很多页面，这也是三个内容抓取工具的用户群的原因。鸟采自动采集，免费版就能采到99%的网站，价格也不贵，但平均下来每天要50元钱，好像不能登录/发送邮件。eoson全自动采集，可以采到99%以上的网站，贵一点但能上网站首页，便宜又操作简单。
　　百度云内容采集，可以说是良心中的良心，免费，无广告，一键登录/发送邮件就好。很多网站的内容都能很方便的采集到。查看全部

　　采集内容管理平台(dsp内容管理平台怎么做？采集数据服务商怎么操作)
　　采集内容管理平台包括两部分：采集数据服务商（如百度，esp等）与采集人员。我知道怎么操作，但以我已有的专业知识，我猜测您说的这种采集平台，应该只能采集公开免费的资源，因为采集这些外链，或内容管理平台就是做社交化推广（也是做网站推广），如果采集的是正式或灰色内容，
　　你可以学学麦客在线，采集进来的内容操作都是用麦客在线的，
　　麦客是常用工具中的一种，采集的时候需要针对内容有所选择，仅需要采集发表过的内容即可。
　　采集引擎可能知道采集哪个页面，
　　百度、搜狗、360、谷歌就算了。看看本地的dsp内容管理平台吧。不过最近回答这类问题比较多，更推荐自己用的内容管理平台-中搜内容管理平台不仅可以采集也可以实现文章自动分类整理、文章的更新计划，实现电子邮件的自动发送，用户群的自动定位，过程管理等多重功能。
　　百度蜘蛛挖了半天就得到一个页面，
　　现在的采集平台的数据抓取部分有备份的，你得想办法切掉源代码。
　　采集时可能会留下某些链接，不存在绝对的安全可靠，这个还是看采集平台的策略。我目前知道的有麦客、鸟采。
　　原来市面上有三个内容采集工具，采集效率，技术成熟度都不是很好，很容易爬很多页面，这也是三个内容抓取工具的用户群的原因。鸟采自动采集，免费版就能采到99%的网站，价格也不贵，但平均下来每天要50元钱，好像不能登录/发送邮件。eoson全自动采集，可以采到99%以上的网站，贵一点但能上网站首页，便宜又操作简单。
　　百度云内容采集，可以说是良心中的良心，免费，无广告，一键登录/发送邮件就好。很多网站的内容都能很方便的采集到。

采集内容管理平台(高等职业院校人才培养工作状态数据采集与管理平台V2.16a001操作指南)

采集交流 • 优采云发表了文章 • 0 个评论 • 147 次浏览 • 2022-02-13 02:16 • 来自相关话题

　　采集内容管理平台(高等职业院校人才培养工作状态数据采集与管理平台V2.16a001操作指南)
　　高职人才培养工作状态资料采集及管理平台V2.16a001操作指南一、总体流程2二、初始设置21.管理员登录。22.系统设置 33.导入初始数据。3(1）选择导入方式。4(2）读入文件。5(3）导入数据。5(4）查看数据。6(5）生成数据中心.64、权限设置.7三、用户登录8四、网络布局9五、系统设置（由状态数据负责人操作）101.@ >权限设置.102.工作分配.10(1）设置审核人/采集人员.11(2）添加负责人11(3）设置权限. 12 (4）批量设置采集人员/审阅者。13(5）发布工作通知。143.工作统计。154.状态设置.155.重置密码.166.查看操作日志.16< @7、数据源匹配检测178、指标与数据项关联检测179.数据上报1810、工作统计2011、数据备份2211.1、备份平台数据库2211.2、导出标准版本22六、日常管理231、添加数据242、编辑数据263、审核数据27 4.单表导入28一、总体流程二、初始化设置管理员登录-系统设置-导入初始化数据-权限设置-设置状态数据管理员登录负责人。打开登录页面登录，输入9999，初始密码为1。右上角有修改密码按钮，可以先修改密码！登录系统设置后。
　　单击主页上的系统设置。导入初始数据。有四种导入初始数据。首先是导入2015标准版。主要针对首次使用网络版的高校，从诊改网站下载15年标准版数据并导入。本次导入只能导入15年的静态数据，其他每年都变的数据不会导入。二是导入2016标准版。主要针对已经在使用标准版采集的学校，这种导入方式可以导入2016标准版中的所有数据。三是提取数据。主要针对已经在使用CRP系统的高校，无需人工采集提取各个系统的数据。第四，复制数据。主要针对去年用过网络版的机构，去年的数据库还在同一台服务器上。抄数据其实就是抄2015年网络版的数据和2015年的工作分布，只是表有很大的变化，比如四类教师的教学情况。（只能复制审核通过的数据）如果2015网络版数据库中没有服务器，请根据学校情况选择第一个或第二个选项导入数据。由于导入方式相同，这里以导入2015标准版为例。选择导入方法。点击导入2015标准版，因为是第一次导入，所以只有清除数据的选项。单击完成进入下一步。读入文件。选择要导入的文件，然后单击上传进入下一步。导入数据。单击导入数据按钮以导入数据。
　　检查数据。单击检查数据以检查数据格式。如果数据有错误，请点击下载错误信息，然后根据错误信息打开标准版，找到错误的单元格，进行修改。修改后需要重新读取文件才能导入数据。生成数据中心。点击 Generate Data 中的按钮，完成数据导入。4、权限设置。权限设置主要针对学校领导和一些需要特殊权限的老师。其他采集或被审核教师的权限在作业中设置。管理员设置状态数据所有者。点击添加按钮，依次勾选权限，点击保存完成添加（以后权限设置，采集设置的操作在登录页面输入正确的卡号和密码后，点击“登录”按钮进入状态数据采集管理平台（网络版）。四、网络版布局当用户进入状态时data采集平台（在线版）“状态数据目录”界面。网络版平台的版面设计参考“标准版”的版面方式，分为菜单区和工作内容区，以减少用户的不适感。
　　工作分配是对整个数据采集工作的合理安排。分为两个阶段：数据源表采集及其数据表采集，必须先完成源表的数据采集才能进入下一阶段。（比如7.1.1个专业表不采集好，那么后面会涉及到专业表，可能会出现无法选择专业的情况。）设置审稿人/采集人。点击管理页面工作表记录行“数据表负责人”栏的“设置”按钮，打开分配新工作负责人管理窗口（2）添加负责人点击“添加人员负责” 按钮打开分配新负责人的管理窗口。可以从“部门”下拉框中选择部门查找要分配的用户，也可以直接在“部门”下拉框中输入要分配的用户的姓名/卡号在“姓名/卡号”输入框找到它，然后勾选用户记录，点击“添加”按钮选择用户，然后点击“保存”按钮完成分配。如果单击“删除负责人”按钮，当前负责人权限将被删除。同理，采集表数据负责人的分配方法参考上述说明，只需点击“数据表采集人”栏的“设置”按钮进行设置即可。
　　操作步骤与设置reviewer 相同。（4）批量设置采集人员/审批人。点击批量设置按钮，依次选择人员和负责人资料表，点击保存完成设置。批量删除功能，操作步骤为类似。（5）发布工作通知。所有工作表都分配好工作计划后，输入“工作要求”和“完成时间”，点击“发布工作通知”按钮，完成发布工作工作通知。发布后，采集人登录系统时会自动弹出工作任务提示。注意：“采集其他数据表工作”和“< @采集数据源表的工作”类似。< @3.工作统计。发布工作后，您可以在此处查看采集工作的进度。4.状态设置。该功能可以设置用户是否允许采集或更改数据。（1）管理员点击首页“菜单区”的“系统设置”栏，点击左侧菜单“一、系统设置”下的“状态设置”选项，打开状态设置管理页面。
　　稍后在补充说明中说明原因，点击“保存...说明”按钮完成。9.数据上报数据上报提供给用户采集平台中的状态数据上报到教育部云数据中心。（1）管理员点击首页“菜单区”中的“系统设置”一栏，然后点击左侧菜单“四、数据点击“报告”下的“报告数据”选项打开上报状态数据管理页面，然后点击右侧页面的“数据上报”按钮，打开上报登录页面。数据上报数据上报给用户采集平台内的状态数据上报教育部云数据中心。（1）管理员点击首页“菜单区”中的“系统设置”一栏，然后点击左侧菜单“四、数据点击“报告”下的“报告数据”选项打开上报状态数据管理页面，然后点击右侧页面的“数据上报”按钮，打开上报登录页面。数据上报数据上报给用户采集平台内的状态数据上报教育部云数据中心。（1）管理员点击首页“菜单区”中的“系统设置”一栏，然后点击左侧菜单“四、数据点击“报告”下的“报告数据”选项打开上报状态数据管理页面，然后点击右侧页面的“数据上报”按钮，打开上报登录页面。
　　注意：页面打开可能需要一段时间（因为此时将生成案例研究的摘要数据），请稍候。(2）填写机构代码、密码（登录云中心的密码）和验证码，点击“登录”按钮开始进入上报数据管理页面。(3） “数据生成”将系统生成采集的状态数据作为报告数据。选择“年份”和“学校名称”后，点击“生成”按钮生成数据。（4）@ > “数据上报”是将生成的数据上报到云端的“高职数据中心”，用户可以点击“上报”按钮完成上报。注意：（1）上报时，系统不应还有 ” 系统会自动将任务变为“进行中”状态；当用户完成data采集任务后，需要进入该页面点击“操作”栏中的“完成”按钮完成任务，任务变为“完成”状态；如果用户任务到期前未完成任务，系统会自动变为“未完成”状态。
　　右上角按钮，备份平台数据库。11.2、导出标准版说明：如果需要将数据导出到标准版，必须先上报数据，然后登录“中国职业教育评估”网站，操作在《高职院校人才培养工作状况数据采集及管理平台》中。日常管理包括：（1）按“工作分配”划分，采集我负责的状态数据；（2）默认用户采集由系统自动分配的状态数据）系统（如专职教师，默认可以是2）默认用户采集@采集6.表1状态数据）。（3）数据管理员审核提交的状态数据。注意：当用户填写不在权限范围内的状态数据时，系统会自动提示告知。第一步：登录系统。使用浏览器访问平台网站。然后输入卡号和密码，点击“登录”按钮进入状态数据采集和管理平台。第 2 步：管理数据。
　　勾选要编辑的记录后，点击“编辑”按钮，打开修改管理页面。(2）更正相应内容后，点击“保存”按钮完成。注意：(1）如果用户需要删除一条记录，可以先查看该记录，然后点击“删除”按钮删除已经过采集的状态数据。（2）已经审核“通过”的记录不允许删除。3、审核数据（1）勾选需要审核的记录后，点击“审核”按钮，打开审核记录管理窗口。（2）选择“审核结果”并填写“审核备注”，然后点击“保存”按钮完成。4.单一表单导入。(< @1）点击导入按钮，进入单表导入页面。（2）点击右上角下载导入的模板，将数据填入模板，导入即可。注意：单表导入可选择清空数据导入或添加数据。模板中有很多表，但是点击从哪个表导入，只能导入该表的数据，其他表不会导入。选择清空模式导入只会清空该表。如果是担心，请备份数据并操作。模板中有很多表，但是点击从哪个表导入，只能导入该表的数据，其他表不会导入。选择清除模式导入只会清除表格。如果您担心，请备份数据并操作。模板中有很多表，但是点击从哪个表导入，只能导入该表的数据，其他表不会导入。选择清除模式导入只会清除表格。如果您担心，请备份数据并操作。查看全部

采集内容管理平台(采集内容管理平台在管理多种文件类型数据库有极大方便)

采集交流 • 优采云发表了文章 • 0 个评论 • 114 次浏览 • 2022-02-13 02:01 • 来自相关话题

　　采集内容管理平台(采集内容管理平台在管理多种文件类型数据库有极大方便)
　　采集内容管理平台在管理多种文件类型数据库有极大方便。例如在文章的编辑状态时保存为数据库；当查询操作时保存为excel、表格等形式；当系统运行时保存为csv、html、json等格式...可以轻松方便管理数据库、图片图形、多媒体文件、相册视频、邮件文档、表格文档、pdf文档、网页文档等。采集管理平台最主要的就是增加了多源数据的自动筛选，比如想抓取php源文件，那我们直接上传php文件，平台自动筛选出源文件；想抓取ruby源文件，那我们直接下载ruby源文件，平台自动筛选出ruby源文件；想抓取java源文件，那我们直接将java源文件下载下来，平台自动筛选出java源文件；再想抓取excel源文件，那我们下载excel源文件，平台自动筛选出excel源文件；下载其他网页源文件，那我们下载其他网页源文件..这样，提高了数据统计的效率。
　　采集内容管理平台是以“采集引擎”为核心，对海量数据进行采集后处理，进而实现“对重要数据实现强控制”的数据管理，实现对海量数据的采集与管理。采集内容管理平台不仅可以支持单一“采集引擎”，也可以实现多个采集引擎的通力合作。
　　目前主流的采集系统都有的缺点：不支持异地采集、只支持本地访问本地采集（尤其是地区采集，查看全部

　　采集内容管理平台(采集内容管理平台在管理多种文件类型数据库有极大方便)
　　采集内容管理平台在管理多种文件类型数据库有极大方便。例如在文章的编辑状态时保存为数据库；当查询操作时保存为excel、表格等形式；当系统运行时保存为csv、html、json等格式...可以轻松方便管理数据库、图片图形、多媒体文件、相册视频、邮件文档、表格文档、pdf文档、网页文档等。采集管理平台最主要的就是增加了多源数据的自动筛选，比如想抓取php源文件，那我们直接上传php文件，平台自动筛选出源文件；想抓取ruby源文件，那我们直接下载ruby源文件，平台自动筛选出ruby源文件；想抓取java源文件，那我们直接将java源文件下载下来，平台自动筛选出java源文件；再想抓取excel源文件，那我们下载excel源文件，平台自动筛选出excel源文件；下载其他网页源文件，那我们下载其他网页源文件..这样，提高了数据统计的效率。
　　采集内容管理平台是以“采集引擎”为核心，对海量数据进行采集后处理，进而实现“对重要数据实现强控制”的数据管理，实现对海量数据的采集与管理。采集内容管理平台不仅可以支持单一“采集引擎”，也可以实现多个采集引擎的通力合作。
　　目前主流的采集系统都有的缺点：不支持异地采集、只支持本地访问本地采集（尤其是地区采集，

采集内容管理平台(应用场景应用行业领域不限，场景集中在企业或机构)

采集交流 • 优采云发表了文章 • 0 个评论 • 79 次浏览 • 2022-02-07 17:10 • 来自相关话题

　　采集内容管理平台(应用场景应用行业领域不限，场景集中在企业或机构)
　　概述
　　集嘉通达信息资源整合平台（以下简称信息资源整合平台）是基于非结构化文档管理的大型智能内容管理系统。发布的解决方案可以同时管理文本、图片、多媒体等信息，并提供全文检索服务。它是一个内容管理、发布和增值利用的平台。是各类机构建设数字图书馆、文献信息系统、开发信息的平台。服务的理想平台。
　　功能和特点
　　集嘉通达信息资源集成平台由管理子系统、数据采集子系统、资源数据展示系统三部分组成。
　　1、管理子系统实现了添加、修改、删除、发布资源的一整套流程功能；
　　2、data采集子系统实现参与单位数据的批量采集和数据过滤功能；
　　3、资源数据展示系统实现资源统一检索、资源数据多样化展示、资源在线浏览、资源下载等，同时对资源和访问量进行分析，形成报表。
　　集嘉通达信息资源整合平台具有以下五个功能特点：
　　1、资源全覆盖，可以整合整合各种形式的信息资源，格式不限，如文字、图片、多媒体等格式的信息；
　　2、检索方便，平台上，一键检索可以找到精准的信息资源；
　　3、检索速度快，利用大数据检索技术可实现1s内数据检索；
　　4、应用方式多样，系统提供关键词搜索、全文搜索、高级搜索、跨库搜索、在线浏览、资源智能关联、热搜词推荐等功能;
　　5、灵活的资源库和资源配置，更易于扩展和维护。
　　适用对象及案例
　　适用对象一：政府机关、科研院所等机构、学校、图书馆及事业单位；
　　适用对象二：某一领域的平台型、服务型企业或机构；
　　适用对象三：其他有信息资源整合和信息资源检索需求的企事业单位。
　　应用案例：北京体育大学、北京盲文图书馆、中国船舶重工集团公司第714研究所、长春航空航天大学、西南大学。
　　应用场景
　　信息资源整合平台的应用行业不受限制，场景主要集中在企业和行业的信息整合和信息检索，包括但不限于以下场景。
　　场景一：建设学校图书馆信息资源整合平台
　　学校图书馆藏书、文献、期刊种类繁多，数量庞大，形式多样，包括电子书和实体书。同时，在平台的使用中，也有很多功能需求，一般包括增加书籍、修改书籍、删除书籍、统计书籍等；找书、借书、还书、借书统计；申请读卡、删除读卡、修改读卡；添加管理员、修改管理员信息、删除管理员等。
　　集家通达信息资源整合平台可同时管理文字、图片、多媒体等信息，提供全文检索服务。系统按照标准规范构建，具有多种检索方式。它是用于内容管理、发布和增值利用的信息资源。综合平台。
　　场景二：行业平台建设——CNKI、学信、钱途等
　　行业信息资源的整合利用变得越来越有价值。各行各业都有自己的行业信息资源整合平台，如学术文献领域的CNKI、学历证书领域的学信、设计与办公领域的千图等。行业平台整合行业资源，形成资源门户网站，从而获取客户，为客户提供统一的一、快速精准的资源搜索和下载服务。
　　价值
　　5.1 整合企事业单位内部信息，加强部门间信息交流
　　大型企事业单位，部门多，容易出现“信息孤岛”现象。部门之间的信息无法相互沟通。有多个接口采集，重复输入，重复工作，导致信息缺乏一致性。即使部门之间有共享机制，操作也可能缺乏及时性和便利性，导致部门间信息利用率低，效率低，影响业务的顺利开展。
　　集嘉信息资源整合平台可以整合各部门的数据信息，不限制数据格式，如文字、图片、多媒体等。平台提供多种检索方式，1s可实现数据检索，检索结果快速、简便、准确，提高部门工作效率。
　　5.2 企业或机构信息整合提升外部客户服务质量
　　拥有庞大客户群的企业或机构，每天可能有大量客户在自己的平台上进行信息检索服务，这对平台-系统安全要求、建设标准和规范要求、信息资源处理要求等提出了很高的要求。，信息检索和呈现的要求。
　　集嘉信息资源集成平台具有优秀的系统安全措施建设、信息资源标准规范建设（模板管理、用户分级管理等）、科学的数据处理建设、各种检索和信息展示的功能应用，如关键词搜索、全文搜索、高级搜索、跨库搜索、在线浏览、热搜词推荐等，为客户提供快速、准确、便捷的搜索体验。
　　5.3 科研、高校单位整合本领域信息，提升科研水平
　　有科研项目的企事业单位，或拥有庞大信息资源的单位或机构，如科研院所、高校等，信息使用者可以通过信息资源整合平台直接、快捷、方便地检索和提取自己的信息. 所需的信息可以大大提高效率。查看全部

采集内容管理平台(采集内容管理平台，如何接入采集功能？(一))

采集交流 • 优采云发表了文章 • 0 个评论 • 100 次浏览 • 2022-02-06 16:00 • 来自相关话题

　　采集内容管理平台(采集内容管理平台，如何接入采集功能？(一))
　　采集内容管理平台，可以根据类型收集各类数据，简单易用，操作灵活，可自定义语言和数据库管理后台等。如何接入采集功能1.加群，联系助理，注明采集内容管理平台（有专门的qq群，可加入或私聊助理）2.在公众号内编辑，内容及注意事项：2.1推荐文章，（推荐的文章内容须是公众号本身定位相关的，若某篇文章为广告软文，请勿推荐）2.2优质文章，（含自定义语言内容的文章）2.3自动发布内容，（可以使用采集工具，如：xml工具等）2.4.点击接收，输入接收地址即可发送到采集平台，无需加群。
　　2.5.登录采集后台，并设置好采集内容类型等，2.6.填写电话号码及个人身份信息后，手机验证方可使用接收功能3.关注采集微信号后（公众号、个人号均可），点击接收原文链接(需采集文章后台设置为公众号推荐)，可以自定义输入语言，并对该文章进行点击搜索，只要符合条件，即可直接搜索，不需要另外下载采集工具（搜狗或iis等）。
　　4.请用手机号注册，安卓的需要注册，请配置手机号绑定登录。接收平台自动发送到你微信号的接收地址5.请专注于采集，禁止添加诸如学习、交流、交友等功能，接收平台发送文章，一经审核，拒绝接收。接收地址：.网站采集接收更方便，但需要注册帐号，默认为网站链接。安卓的可以对接手机号，ios的可以对接手机号验证。可以跳转中文全文阅读，但全文不支持接收文字。信息安全方面，xml采集工具防止伪造是我们的主要优势。查看全部

　　采集内容管理平台(采集内容管理平台，如何接入采集功能？(一))
　　采集内容管理平台，可以根据类型收集各类数据，简单易用，操作灵活，可自定义语言和数据库管理后台等。如何接入采集功能1.加群，联系助理，注明采集内容管理平台（有专门的qq群，可加入或私聊助理）2.在公众号内编辑，内容及注意事项：2.1推荐文章，（推荐的文章内容须是公众号本身定位相关的，若某篇文章为广告软文，请勿推荐）2.2优质文章，（含自定义语言内容的文章）2.3自动发布内容，（可以使用采集工具，如：xml工具等）2.4.点击接收，输入接收地址即可发送到采集平台，无需加群。
　　2.5.登录采集后台，并设置好采集内容类型等，2.6.填写电话号码及个人身份信息后，手机验证方可使用接收功能3.关注采集微信号后（公众号、个人号均可），点击接收原文链接(需采集文章后台设置为公众号推荐)，可以自定义输入语言，并对该文章进行点击搜索，只要符合条件，即可直接搜索，不需要另外下载采集工具（搜狗或iis等）。
　　4.请用手机号注册，安卓的需要注册，请配置手机号绑定登录。接收平台自动发送到你微信号的接收地址5.请专注于采集，禁止添加诸如学习、交流、交友等功能，接收平台发送文章，一经审核，拒绝接收。接收地址：.网站采集接收更方便，但需要注册帐号，默认为网站链接。安卓的可以对接手机号，ios的可以对接手机号验证。可以跳转中文全文阅读，但全文不支持接收文字。信息安全方面，xml采集工具防止伪造是我们的主要优势。

采集内容管理平台(odoo1.5.0revision1.2版本新增功能介绍及注意事项)

采集交流 • 优采云发表了文章 • 0 个评论 • 107 次浏览 • 2022-02-06 11:01 • 来自相关话题

　　采集内容管理平台(odoo1.5.0revision1.2版本新增功能介绍及注意事项)
　　采集内容管理平台在实际项目中主要提供：采集数据，批量生成分析报表，建立数据库操作环境：windows/linux效果展示：采集本地数据：采集公众号文章的url地址需要完整源码的小伙伴，可以去公众号下载获取完整源码还有其他好玩的干货文章，
　　可以使用odoo数据库系统哦，odoo1.5.0revision1.2版本新增功能已经跟上了，对采集用户的限制也很小~准确的说，是odoo使用hadoop从mysql读取数据。使用建议可以看看1.5.0中的新功能，通过使用url链接可以快速查看和更新采集到的结果，有更丰富的查询形式。相关推荐odoo建模|odoo发布20000条数据告诉你哪些数据采集是稳妥的随时随地开启数据采集看得见，也得到！。
　　采集本地数据：你可以在你想采集的地方粘贴链接，
　　1.2版本添加了url获取功能，以上一段截图仅供参考，采集对象需要修改后才能继续使用。以下截图截至20180725处：获取完整采集数据的步骤：1.采集url和参数2.修改配置信息3.参数上传、修改4.fileformat转换配置信息5.上传图片至服务器注意：1.关于采集url：在odoo官网上下载最新版本，在firefox浏览器中打开，或手机浏览器打开。
　　2.采集页面：在provider中选择登录账号和密码，然后将页面的url传递到服务器中。特别说明：odoo1.3版本已经新增了url写入数据库功能，但是各位可能还是会提示在配置页面中显示采集出错的提示，这个时候可以尝试改变provider的url获取方式，将url导入数据库中，这样就不会显示数据库中的url了。查看全部

　　采集内容管理平台(odoo1.5.0revision1.2版本新增功能介绍及注意事项)
　　采集内容管理平台在实际项目中主要提供：采集数据，批量生成分析报表，建立数据库操作环境：windows/linux效果展示：采集本地数据：采集公众号文章的url地址需要完整源码的小伙伴，可以去公众号下载获取完整源码还有其他好玩的干货文章，
　　可以使用odoo数据库系统哦，odoo1.5.0revision1.2版本新增功能已经跟上了，对采集用户的限制也很小~准确的说，是odoo使用hadoop从mysql读取数据。使用建议可以看看1.5.0中的新功能，通过使用url链接可以快速查看和更新采集到的结果，有更丰富的查询形式。相关推荐odoo建模|odoo发布20000条数据告诉你哪些数据采集是稳妥的随时随地开启数据采集看得见，也得到！。
　　采集本地数据：你可以在你想采集的地方粘贴链接，
　　1.2版本添加了url获取功能，以上一段截图仅供参考，采集对象需要修改后才能继续使用。以下截图截至20180725处：获取完整采集数据的步骤：1.采集url和参数2.修改配置信息3.参数上传、修改4.fileformat转换配置信息5.上传图片至服务器注意：1.关于采集url：在odoo官网上下载最新版本，在firefox浏览器中打开，或手机浏览器打开。
　　2.采集页面：在provider中选择登录账号和密码，然后将页面的url传递到服务器中。特别说明：odoo1.3版本已经新增了url写入数据库功能，但是各位可能还是会提示在配置页面中显示采集出错的提示，这个时候可以尝试改变provider的url获取方式，将url导入数据库中，这样就不会显示数据库中的url了。

采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)

采集交流 • 优采云发表了文章 • 0 个评论 • 127 次浏览 • 2022-02-05 03:10 • 来自相关话题

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　
　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集
　　采集内容
　　
　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的资料，基本上需要的都可以采集；MySQL函数信息相对较少，可以采集。
　　表中的“复选标记+星号”表示非计划作业已完成，但稍后会实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　
　　下面简单介绍一下采集的原理和原理：
　　6、规则分析
　　概述
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　
　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　
　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述是“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　
　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则的定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　
　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是按时间段直接从AWR中提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　
　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle部分也形成了json格式的存储。
　　规则执行（执行计划）
　　
　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现
　　规则执行
　　
　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　
　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　
　　第一个图显示了原创的执行计划。
　　
　　第二张图是代码实现的总结。
　　
　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　
　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　
　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　
　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。主要有一些资源消耗等等。
　　8、系统管理
　　规则管理
　　
　　后来通过一些界面展示，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　
　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　
　　规则配置好后，任务发布的工作就可以在这里完成了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的计时策略仍然是以天为单位，所以不能选择今天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计类型、数据源对象的数量和语句的数量，审计的持续时间是可变的，一般在 5 分钟内。当审计工作状态为“成功”时，表示审计工作完成，可以查看或导出审计结果。
　　9、结果展示
　　对象审计结果概述
　　
　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初就有些争议。我担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　
　　这部分是对象审计的详细部分，对应每条规则的详细信息，可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　
　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　
　　这部分是执行计划的详细部分。
　　
　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。相当于一个小知识库，方便开发者优化。之后在平台二期，我们会对引擎部分做更精准的优化，并且会扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，您也可以进一步点击语句展开信息。
　　
　　
　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　
　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。以分析报告为契机，可以根据需要对开发团队进行培训，身边的案例可以更有说服力。查看全部

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　

　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集
　　采集内容
　　

　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的资料，基本上需要的都可以采集；MySQL函数信息相对较少，可以采集。
　　表中的“复选标记+星号”表示非计划作业已完成，但稍后会实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　

　　下面简单介绍一下采集的原理和原理：
　　6、规则分析
　　概述
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　

　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　

　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述是“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　

　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则的定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　

　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是按时间段直接从AWR中提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　

　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle部分也形成了json格式的存储。
　　规则执行（执行计划）
　　

　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现
　　规则执行
　　

　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　

　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　

　　第一个图显示了原创的执行计划。
　　

　　第二张图是代码实现的总结。
　　

　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　

　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　

　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　

　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。主要有一些资源消耗等等。
　　8、系统管理
　　规则管理
　　

　　后来通过一些界面展示，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　

　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　

　　规则配置好后，任务发布的工作就可以在这里完成了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的计时策略仍然是以天为单位，所以不能选择今天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计类型、数据源对象的数量和语句的数量，审计的持续时间是可变的，一般在 5 分钟内。当审计工作状态为“成功”时，表示审计工作完成，可以查看或导出审计结果。
　　9、结果展示
　　对象审计结果概述
　　

　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初就有些争议。我担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　

　　这部分是对象审计的详细部分，对应每条规则的详细信息，可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　

　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　

　　这部分是执行计划的详细部分。
　　

　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。相当于一个小知识库，方便开发者优化。之后在平台二期，我们会对引擎部分做更精准的优化，并且会扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，您也可以进一步点击语句展开信息。
　　

　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　

　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。以分析报告为契机，可以根据需要对开发团队进行培训，身边的案例可以更有说服力。

采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)

采集交流 • 优采云发表了文章 • 0 个评论 • 144 次浏览 • 2022-01-30 13:07 • 来自相关话题

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　
　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集
　　采集内容
　　
　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的资料，基本上需要的都可以采集；MySQL函数信息相对较少，可以采集。
　　表中的“复选标记+星号”表示非计划作业已完成，但稍后会实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　
　　下面简单介绍一下采集的原理和原理：
　　6、规则分析
　　概述
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　
　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　
　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　
　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则的定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　
　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是按时间段直接从AWR中提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　
　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle部分也形成了json格式的存储。
　　规则执行（执行计划）
　　
　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现
　　规则执行
　　
　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　
　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　
　　第一个图显示了原创的执行计划。
　　
　　第二张图是代码实现的总结。
　　
　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　
　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　
　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　
　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。主要有一些资源消耗等等。
　　8、系统管理
　　规则管理
　　
　　后来通过一些界面展示，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　
　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　
　　规则配置好后，任务发布的工作就可以在这里完成了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的计时策略仍然是以天为单位，所以不能选择今天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计类型、数据源对象的数量和语句的数量，审计的持续时间是可变的，一般在 5 分钟内。当审计工作状态为“成功”时，表示审计工作完成，可以查看或导出审计结果。
　　9、结果展示
　　对象审计结果概述
　　
　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初是有争议的，担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　
　　这部分是对象审计的详细部分，对应每条规则的详细信息，可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　
　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　
　　这部分是执行计划的详细部分。
　　
　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。相当于一个小知识库，方便开发者优化。之后在平台二期，我们会对引擎部分做更精准的优化，并且会扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，您也可以进一步点击语句展开信息。
　　
　　
　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　
　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。查看全部

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　

　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　

　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　

　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　

　　第一个图显示了原创的执行计划。
　　

　　第二张图是代码实现的总结。
　　

　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　

　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　

　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初是有争议的，担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　

　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　

　　这部分是执行计划的详细部分。
　　

　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。

采集内容管理平台(【干货】Oracle模块划分总结（规则解析概要）)

采集交流 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2022-01-30 13:06 • 来自相关话题

　　采集内容管理平台(【干货】Oracle模块划分总结（规则解析概要）)
　　模块划分
　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　五、数据采集
　　采集内容
　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的信息，基本上所有需要的信息都可以采集获得；MySQL 函数相对能采集获取的信息较少。
　　表中的“复选标记+星号”表示非预定作业已完成，但稍后从图书馆实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　下面简单介绍一下采集的原理和原理：
　　六、规则分析
　　概述
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，会更清楚。从分类的角度来看，大致可以分为以下几类。
　　规则定义
　　这是规则体的声明对象。我将解释每个字段的含义，您也可以对规则有一个清晰的了解。
　　规则定义（对象级别）
　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置规则很多。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是通过规则的输入参数来确认的。参数包括表记录数和表的物理大小。该规则的一般描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是直接从AWR中按时间段提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是通过使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。今天整个审计平台，除了连接pt工具的部分，使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle部分也形成了json格式的存储。
　　规则执行（执行计划）
　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　七、平台实现
　　规则执行
　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　第一个图显示了原创的执行计划。
　　第二张图是代码实现的总结。
　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。这主要是关于资源的消耗。
　　八、系统管理
　　规则管理
　　在介绍了一些界面之后，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　配置好规则后，就可以在这里完成任务发布的工作了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的时序策略还是以天为单位，所以不能选择当天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计的类型、数据源对象的数量和语句的数量，审计持续时间会有所不同，通常在 5 分钟内。当审计工作状态为“成功”时，表示审计工作已完成，可以查看或导出审计结果。
　　九、结果展示
　　对象审计结果概述
　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审查对象的质量越高。“规则总分”的引入在设计之初就有些争议。我们担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　这部分是对象审计的详细部分。对应每条规则的详细状态，您可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　将显示执行计划这一部分的概览，类似于主题的状态。也是每条规则的扣减状态。
　　执行计划审核结果详情
　　这部分是执行计划的详细部分。
　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。要约一个小的知识库，便于开发者优化。后期平台二期会做更精准的优化引擎部分，并扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，也可以进一步点击语句展开信息。
　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA 可以根据这些信息做出一些初步的优化判断。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　十、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量很大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　十一、驱动进程
　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，减轻了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统运行状况，掌握第一手资料。快速了解各个业务系统的质量并进行试点选型。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报状态。以分析报告为契机，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。查看全部

采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)

采集交流 • 优采云发表了文章 • 0 个评论 • 361 次浏览 • 2022-01-30 13:03 • 来自相关话题

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　
　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集采集内容
　　
　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的资料，基本上需要的都可以采集；MySQL函数信息相对较少，可以采集。
　　表中的“复选标记+星号”表示非计划作业已完成，但稍后会实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　
　　下面简单介绍一下采集的原理和原理：
　　6、规则解析总结说明
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　
　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　
　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　
　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则的定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　
　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是按时间段直接从AWR中提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　
　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle 部分也以 json 格式存储。
　　规则执行（执行计划）
　　
　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现规则实现
　　
　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　
　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　
　　第一个图显示了原创的执行计划。
　　
　　第二张图是代码实现的总结。
　　
　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　
　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　
　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　
　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。主要有一些资源消耗等等。
　　8、系统管理规则管理
　　
　　后来通过一些界面展示，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　
　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　
　　规则配置好后，任务发布的工作就可以在这里完成了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的计时策略仍然是以天为单位，所以不能选择今天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计类型、数据源对象的数量和语句的数量，审计的持续时间是可变的，一般在 5 分钟内。当审计工作状态为“成功”时，表示审计工作完成，可以查看或导出审计结果。
　　9、结果展示对象审核结果概览
　　
　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初是有争议的，担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　
　　这部分是对象审计的详细部分，对应每条规则的详细信息，可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　
　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　
　　这部分是执行计划的详细部分。
　　
　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。相当于一个小知识库，方便开发者优化。之后在平台二期，我们会对引擎部分做更精准的优化，并且会扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，您也可以进一步点击语句展开信息。
　　
　　
　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量很大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　
　　该平台在宜信运营以来，已为多个系统提供审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。查看全部

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　

　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集采集内容
　　

　　下面简单介绍一下采集的原理和原理：
　　6、规则解析总结说明
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　

　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　

　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　

　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle 部分也以 json 格式存储。
　　规则执行（执行计划）
　　

　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现规则实现
　　

　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　

　　第一个图显示了原创的执行计划。
　　

　　第二张图是代码实现的总结。
　　

　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　

　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　

　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　

　　这部分是执行计划的详细部分。
　　

　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量很大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　

　　该平台在宜信运营以来，已为多个系统提供审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。

采集内容管理平台(可与外阜系统实行会员通行，内置国内主流论坛或其它系统的通行模块)

采集交流 • 优采云发表了文章 • 0 个评论 • 146 次浏览 • 2022-01-30 02:19 • 来自相关话题

　　采集内容管理平台(可与外阜系统实行会员通行，内置国内主流论坛或其它系统的通行模块)
　　SXcms是一个基于平台的网站内容管理系统，默认支持SQLServer数据库，可以扩展支持Access、MySQL、Oracle等数据库。
　　类似软件
　　印记
　　软件地址
　　后台执行任务：页面生成、采集等任务在后台执行，无需打开网页等待，节省您的工作时间
　　原型模块：自由扩展列字段和参数，满足您的网站特殊定制，扩展您的个性化应用规划任务
　　它可以在固定的时间和周期内更新整个或部分列或其他任务，从而实现网站无人值守
　　基础数据：统一管理系统基础数据，自由添加，自由调用，支持配置权限，让你的网站更灵活
　　权限管理：按角色和用户组划分会员权限，对站内各栏目和功能灵活分配权限，方便多人使用
　　话题管理：支持话题管理、话题分类、支持内容推荐、关键词搜索内容和推送话题等功能
　　模板标签：OOP思想，调用简洁明了，标签形式灵活，支持动态标签，支持多层嵌套；全站支持动静态切换
　　数据采集：灵活设置各种采集规则和参数，可设计自动任务计划采集，可裁剪采集图片加水，支持采集内容< @关键词替换
　　网页防篡改：对网站生成的页面进行保护，遇到非法篡改时自动纠正，让您再也不用担心网页被挂了。
　　通行证：可以通过外服系统实现会员准入，内置国内主流论坛或其他系统准入模块，让您的会员一站通行。查看全部

采集内容管理平台( Excel模板导入支持统一的模板化配置，帮你解决 )

采集交流 • 优采云发表了文章 • 0 个评论 • 158 次浏览 • 2022-01-28 06:10 • 来自相关话题

　　采集内容管理平台(
Excel模板导入支持统一的模板化配置，帮你解决
)
　　Smartbi：统一Excel模板配置，让批量数据采集补充记录简单高效！
　　
　　Smartbi2022-01-26
　　企业的数据源多种多样，有的需要一线员工采集实时存储在Excel文件中，然后由技术人员通过批量补充记录上传到业务数据库中，供后续数据分析。
　　比如某行的业务员采集时不时填写客户的公司名称、客户代码、地区、内部交易等基本客户信息，然后依靠IT人员填写上传到业务数据库。这些采集对补充记录和补充记录的要求并不复杂，但在实际操作中可能会遇到补充记录不及时、数据不完整等问题，给相关数据采集人员带来麻烦，技术人员及其数据分析师。
　　
　　
　　
　　针对以上问题，Smartbi提供批量数据采集功能——Excel模板导入帮你解决！允许数据采集补充人员通过统一的模板配置，一键批量导入Excel文件中的数据，并补充录入数据库。既减轻了开发人员的工作量，又满足了业务人员对数据采集的需求，让批量导入Excel数据变得简单高效。
　　我们来看看这个功能是如何满足用户需求的：
　　1、模板配置
　　Excel模板导入支持统一模板化配置。技术人员首先通过可视化操作实现Excel模板与数据库表的映射关系，支持绑定列、验证规则设置、数据插入和更新选择等，并上传采集Excel模板文件进行补充数据，让业务人员可以下载并填写数据。
　　
　　2、支持绑定形式
　　Excel 导入模板支持绑定到电子表格。通过绑定表格，可以导入报表数据，可以导入固定值、系统值、参数值等，还可以实现动态数据更新导入。
　　例如，用户要下载的补充记录模板已经收录了一些填写好的数据（如公司代码、公司名称、客户代码、业务分类等），这部分现有数据可能会动态变化。如果切换不同的业务分类参数，下载的数据是不同的。实际上，用户只需要根据已有数据填写“线路类型”和“是否交易”字段的数据即可。
　　这时候我们可以在配置模板的时候选择创建一个电子表格作为Excel模板，这样在下载模板的时候就可以选择报表的参数，下载不同的数据模板。
　　
　　3、统一管理
　　管理员统一配置和管理Excel模板，并可以通过资源授权将导入模板授权给相关用户。只有有权限的用户才能进行导入操作，方便用户填写导入。
　　
　　4、一键导入
　　技术人员配置模板并授权给填充人员后，填充人员可以下载模板和采集数据。当数据采集完成后，可以点击上传，完成数据补录操作。简单的。
　　
　　导入成功或失败都有明确的提示。如果导入失败，用户可以下载异常数据，查看具体数据和导入失败的原因。
　　5、不错的扩展
　　Smartbi的Excel模板导入功能支持扩展接口，可以帮助用户通过Java类实现自定义数据处理需求或规则验证需求。
　　在实际的补录操作中，客户也可能有定制化的数据处理或规则验证需求，比如判断两个指标的值是否相等。如果指标不相等，则验证失败，如果有相关提示信息，可以通过自定义规则验证类来实现这个需求。
　　查看全部

　　采集内容管理平台(
Excel模板导入支持统一的模板化配置，帮你解决
)
　　Smartbi：统一Excel模板配置，让批量数据采集补充记录简单高效！
　　

　　Smartbi2022-01-26
　　企业的数据源多种多样，有的需要一线员工采集实时存储在Excel文件中，然后由技术人员通过批量补充记录上传到业务数据库中，供后续数据分析。
　　比如某行的业务员采集时不时填写客户的公司名称、客户代码、地区、内部交易等基本客户信息，然后依靠IT人员填写上传到业务数据库。这些采集对补充记录和补充记录的要求并不复杂，但在实际操作中可能会遇到补充记录不及时、数据不完整等问题，给相关数据采集人员带来麻烦，技术人员及其数据分析师。
　　

　　针对以上问题，Smartbi提供批量数据采集功能——Excel模板导入帮你解决！允许数据采集补充人员通过统一的模板配置，一键批量导入Excel文件中的数据，并补充录入数据库。既减轻了开发人员的工作量，又满足了业务人员对数据采集的需求，让批量导入Excel数据变得简单高效。
　　我们来看看这个功能是如何满足用户需求的：
　　1、模板配置
　　Excel模板导入支持统一模板化配置。技术人员首先通过可视化操作实现Excel模板与数据库表的映射关系，支持绑定列、验证规则设置、数据插入和更新选择等，并上传采集Excel模板文件进行补充数据，让业务人员可以下载并填写数据。
　　

　　2、支持绑定形式
　　Excel 导入模板支持绑定到电子表格。通过绑定表格，可以导入报表数据，可以导入固定值、系统值、参数值等，还可以实现动态数据更新导入。
　　例如，用户要下载的补充记录模板已经收录了一些填写好的数据（如公司代码、公司名称、客户代码、业务分类等），这部分现有数据可能会动态变化。如果切换不同的业务分类参数，下载的数据是不同的。实际上，用户只需要根据已有数据填写“线路类型”和“是否交易”字段的数据即可。
　　这时候我们可以在配置模板的时候选择创建一个电子表格作为Excel模板，这样在下载模板的时候就可以选择报表的参数，下载不同的数据模板。
　　

　　3、统一管理
　　管理员统一配置和管理Excel模板，并可以通过资源授权将导入模板授权给相关用户。只有有权限的用户才能进行导入操作，方便用户填写导入。
　　

　　4、一键导入
　　技术人员配置模板并授权给填充人员后，填充人员可以下载模板和采集数据。当数据采集完成后，可以点击上传，完成数据补录操作。简单的。
　　

　　导入成功或失败都有明确的提示。如果导入失败，用户可以下载异常数据，查看具体数据和导入失败的原因。
　　5、不错的扩展
　　Smartbi的Excel模板导入功能支持扩展接口，可以帮助用户通过Java类实现自定义数据处理需求或规则验证需求。
　　在实际的补录操作中，客户也可能有定制化的数据处理或规则验证需求，比如判断两个指标的值是否相等。如果指标不相等，则验证失败，如果有相关提示信息，可以通过自定义规则验证类来实现这个需求。
　　

采集内容管理平台(业余开发还是php+mysql+drupal+java哪个好？)

采集交流 • 优采云发表了文章 • 0 个评论 • 122 次浏览 • 2022-01-23 20:04 • 来自相关话题

　　采集内容管理平台(业余开发还是php+mysql+drupal+java哪个好？)
　　采集内容管理平台，国内领先的pc+app采集服务平台云采。这是在网络信息大爆炸，注意力捉摸不透的今天，利用互联网的云技术，结合移动端，轻松采集信息。
　　这一段时间在业余学习django，简单总结一下学习路线吧：采集主要分为图片采集、视频采集、音频采集，其中图片采集一般在pc端，也就是坐在电脑前面，通过浏览器查看采集软件的文件查看，视频采集一般在手机上，也是用浏览器采集，音频采集很麻烦，是自动循环播放音频，一般都是直接下载！至于什么样的软件，一般百度、阿里都会有相应的采集软件，例如图片采集的推荐url500、音频采集推荐多采宝app，技术好的话，你可以去学习下，都很容易上手！。
　　中国采集网。不过这个我没有用过，
　　接着楼上的话题，补充一个：中国采集网推荐原因1，国内数据质量相对较高接着讨论每日站长平台需要的功能，数据质量不容小觑。
　　业余开发还是php+mysql+java，php+mysql+redis+drupal比较适合业余开发，这样不用引入一些费力不讨好的框架和工具库；如果大公司做采集，如果觉得性价比太低，可以考虑使用restful方式，比如headless+websocket+webrtc，nginx+cdn方式，nginx+c++方式，headless+gulp，postgresql+cgi，都是最佳选择；php+mysql的采集是现在业余开发中技术性很强的采集方案，不用引入一些麻烦的包、工具库或第三方库；除了laravel以外，目前业余开发的有nutch+ci；。查看全部

　　采集内容管理平台(业余开发还是php+mysql+drupal+java哪个好？)
　　采集内容管理平台，国内领先的pc+app采集服务平台云采。这是在网络信息大爆炸，注意力捉摸不透的今天，利用互联网的云技术，结合移动端，轻松采集信息。
　　这一段时间在业余学习django，简单总结一下学习路线吧：采集主要分为图片采集、视频采集、音频采集，其中图片采集一般在pc端，也就是坐在电脑前面，通过浏览器查看采集软件的文件查看，视频采集一般在手机上，也是用浏览器采集，音频采集很麻烦，是自动循环播放音频，一般都是直接下载！至于什么样的软件，一般百度、阿里都会有相应的采集软件，例如图片采集的推荐url500、音频采集推荐多采宝app，技术好的话，你可以去学习下，都很容易上手！。
　　中国采集网。不过这个我没有用过，
　　接着楼上的话题，补充一个：中国采集网推荐原因1，国内数据质量相对较高接着讨论每日站长平台需要的功能，数据质量不容小觑。
　　业余开发还是php+mysql+java，php+mysql+redis+drupal比较适合业余开发，这样不用引入一些费力不讨好的框架和工具库；如果大公司做采集，如果觉得性价比太低，可以考虑使用restful方式，比如headless+websocket+webrtc，nginx+cdn方式，nginx+c++方式，headless+gulp，postgresql+cgi，都是最佳选择；php+mysql的采集是现在业余开发中技术性很强的采集方案，不用引入一些麻烦的包、工具库或第三方库；除了laravel以外，目前业余开发的有nutch+ci；。

采集内容管理平台(优图动态采集内容管理系统的核心是什么？怎么做？)

采集交流 • 优采云发表了文章 • 0 个评论 • 123 次浏览 • 2022-01-23 03:00 • 来自相关话题

　　采集内容管理平台(优图动态采集内容管理系统的核心是什么？怎么做？)
　　采集内容管理平台是云表格未来规划的重点，能够实现数据采集和表格聚合、流程管理、人事管理、报表分析等多方面的功能，核心业务是采集内容和数据有效性，对数据的格式和内容精准的控制是数据分析的关键。其中，数据有效性用于用户在数据规范有误时提供工具帮助用户修正和识别数据，是一种可以灵活部署的功能。市面上一些通用的内容管理产品（如京东、、百度经验）都能实现上述功能。
　　而今天要介绍的优图是优图动态采集内容管理系统，在这个系统中能够查看采集的用户历史、信息新增和删除、已采集信息、待采集数据、已搜索结果、已签名以及评论等。系统涵盖了表格和数据库，对于快速采集信息有不错的帮助，其目标用户就是为了提高工作效率，但问题是数据采集时的准确度是否保证，这将成为用户付费的因素之一。
　　优图动态采集内容管理系统的核心就是提高数据准确度，同时随着内容的增加相应的时间复杂度也会增加，所以优图在出发点上就没有考虑过牺牲准确度来提高收益。以用户“中医小吴先生”为例，根据京东手机通知信息，表格显示“中医小吴先生今天20点在某地就诊，小吴先生近期曾去该医院附近的某健康会所进行xxx治疗”，这就出现了时间无法确定的问题，也就是说一天之内，不可能有小吴先生的各种关联信息能够满足这个需求。
　　如何解决这个问题呢？优图的思路就是对信息采集后保存的数据进行统计分析，然后推送给用户。那么应该怎么做呢？是将数据全部上传到百度经验中？还是根据图片确定下来？还是利用人工智能算法，在后端对信息进行搜索呢？“中医小吴先生”能够看到京东与京东健康达成的医疗合作，我们无法得知京东经营信息，优图能够想到的就是采集京东商品的信息，因为京东在线上销售经营中可以对所有的商品进行归类，这样也就从信息数据层面解决了小吴先生无法统计分析的问题。
　　其实用户的需求可以从三个方面解决：一个是表格中过多或无效内容如何清理，一个是列表中无法有效分类，还有一个是信息数据的准确性。优图动态采集内容管理系统针对上述功能都进行了不错的优化，现阶段能够正常使用。欢迎大家关注优图动态采集内容管理系统，了解更多优图系统更多信息。查看全部

　　采集内容管理平台(优图动态采集内容管理系统的核心是什么？怎么做？)
　　采集内容管理平台是云表格未来规划的重点，能够实现数据采集和表格聚合、流程管理、人事管理、报表分析等多方面的功能，核心业务是采集内容和数据有效性，对数据的格式和内容精准的控制是数据分析的关键。其中，数据有效性用于用户在数据规范有误时提供工具帮助用户修正和识别数据，是一种可以灵活部署的功能。市面上一些通用的内容管理产品（如京东、、百度经验）都能实现上述功能。
　　而今天要介绍的优图是优图动态采集内容管理系统，在这个系统中能够查看采集的用户历史、信息新增和删除、已采集信息、待采集数据、已搜索结果、已签名以及评论等。系统涵盖了表格和数据库，对于快速采集信息有不错的帮助，其目标用户就是为了提高工作效率，但问题是数据采集时的准确度是否保证，这将成为用户付费的因素之一。
　　优图动态采集内容管理系统的核心就是提高数据准确度，同时随着内容的增加相应的时间复杂度也会增加，所以优图在出发点上就没有考虑过牺牲准确度来提高收益。以用户“中医小吴先生”为例，根据京东手机通知信息，表格显示“中医小吴先生今天20点在某地就诊，小吴先生近期曾去该医院附近的某健康会所进行xxx治疗”，这就出现了时间无法确定的问题，也就是说一天之内，不可能有小吴先生的各种关联信息能够满足这个需求。
　　如何解决这个问题呢？优图的思路就是对信息采集后保存的数据进行统计分析，然后推送给用户。那么应该怎么做呢？是将数据全部上传到百度经验中？还是根据图片确定下来？还是利用人工智能算法，在后端对信息进行搜索呢？“中医小吴先生”能够看到京东与京东健康达成的医疗合作，我们无法得知京东经营信息，优图能够想到的就是采集京东商品的信息，因为京东在线上销售经营中可以对所有的商品进行归类，这样也就从信息数据层面解决了小吴先生无法统计分析的问题。
　　其实用户的需求可以从三个方面解决：一个是表格中过多或无效内容如何清理，一个是列表中无法有效分类，还有一个是信息数据的准确性。优图动态采集内容管理系统针对上述功能都进行了不错的优化，现阶段能够正常使用。欢迎大家关注优图动态采集内容管理系统，了解更多优图系统更多信息。

采集内容管理平台(传漾在传漾广告营销生态链中工作原理和流程分析依据)

采集交流 • 优采云发表了文章 • 0 个评论 • 117 次浏览 • 2022-02-24 22:13 • 来自相关话题

采集内容管理平台(现代小说网站必选的网站内容框架内容管理系统推荐理由)

采集交流 • 优采云发表了文章 • 0 个评论 • 136 次浏览 • 2022-02-24 18:08 • 来自相关话题

采集内容管理平台(免费api接口做一个简单的介绍：哪些内容可采集)

采集交流 • 优采云发表了文章 • 0 个评论 • 102 次浏览 • 2022-02-20 14:05 • 来自相关话题

采集内容管理平台(KesionCMS下,KesionCMSV6版本的CMS界有了更多的创新与突破)

采集交流 • 优采云发表了文章 • 0 个评论 • 129 次浏览 • 2022-02-18 07:10 • 来自相关话题

采集内容管理平台(资深房产经纪人如何解决中介方利益相关的问题？)

采集交流 • 优采云发表了文章 • 0 个评论 • 108 次浏览 • 2022-02-16 15:05 • 来自相关话题

采集内容管理平台(公开网站信息收集整理资料后按照规定的格式将文字录入系统)

采集交流 • 优采云发表了文章 • 0 个评论 • 150 次浏览 • 2022-02-16 05:04 • 来自相关话题

采集内容管理平台(dsp内容管理平台怎么做？采集数据服务商怎么操作)

采集交流 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2022-02-15 19:05 • 来自相关话题

采集内容管理平台(高等职业院校人才培养工作状态数据采集与管理平台V2.16a001操作指南)

采集交流 • 优采云发表了文章 • 0 个评论 • 147 次浏览 • 2022-02-13 02:16 • 来自相关话题

采集内容管理平台(采集内容管理平台在管理多种文件类型数据库有极大方便)

采集交流 • 优采云发表了文章 • 0 个评论 • 114 次浏览 • 2022-02-13 02:01 • 来自相关话题

采集内容管理平台(应用场景应用行业领域不限，场景集中在企业或机构)

采集交流 • 优采云发表了文章 • 0 个评论 • 79 次浏览 • 2022-02-07 17:10 • 来自相关话题

采集内容管理平台(采集内容管理平台，如何接入采集功能？(一))

采集交流 • 优采云发表了文章 • 0 个评论 • 100 次浏览 • 2022-02-06 16:00 • 来自相关话题

采集内容管理平台(odoo1.5.0revision1.2版本新增功能介绍及注意事项)

采集交流 • 优采云发表了文章 • 0 个评论 • 107 次浏览 • 2022-02-06 11:01 • 来自相关话题

采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)

采集交流 • 优采云发表了文章 • 0 个评论 • 127 次浏览 • 2022-02-05 03:10 • 来自相关话题

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　

　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　

　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　

　　第一个图显示了原创的执行计划。
　　

　　第二张图是代码实现的总结。
　　

　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　

　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　

　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　

　　这部分是执行计划的详细部分。
　　

采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)

采集交流 • 优采云发表了文章 • 0 个评论 • 144 次浏览 • 2022-01-30 13:07 • 来自相关话题

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　
　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集
　　采集内容
　　
　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的资料，基本上需要的都可以采集；MySQL函数信息相对较少，可以采集。
　　表中的“复选标记+星号”表示非计划作业已完成，但稍后会实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　
　　下面简单介绍一下采集的原理和原理：
　　6、规则分析
　　概述
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　
　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　
　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　
　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则的定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　
　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是按时间段直接从AWR中提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　
　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle部分也形成了json格式的存储。
　　规则执行（执行计划）
　　
　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现
　　规则执行
　　
　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　
　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　
　　第一个图显示了原创的执行计划。
　　
　　第二张图是代码实现的总结。
　　
　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　
　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　
　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　
　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。主要有一些资源消耗等等。
　　8、系统管理
　　规则管理
　　
　　后来通过一些界面展示，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　
　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　
　　规则配置好后，任务发布的工作就可以在这里完成了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的计时策略仍然是以天为单位，所以不能选择今天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计类型、数据源对象的数量和语句的数量，审计的持续时间是可变的，一般在 5 分钟内。当审计工作状态为“成功”时，表示审计工作完成，可以查看或导出审计结果。
　　9、结果展示
　　对象审计结果概述
　　
　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初是有争议的，担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　
　　这部分是对象审计的详细部分，对应每条规则的详细信息，可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　
　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　
　　这部分是执行计划的详细部分。
　　
　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。相当于一个小知识库，方便开发者优化。之后在平台二期，我们会对引擎部分做更精准的优化，并且会扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，您也可以进一步点击语句展开信息。
　　
　　
　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　
　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。查看全部

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　

　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　

　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　

　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　

　　第一个图显示了原创的执行计划。
　　

　　第二张图是代码实现的总结。
　　

　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　

　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　

　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　

　　这部分是执行计划的详细部分。
　　

　　该平台在宜信运营以来，已经为多个系统提供了审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。

采集内容管理平台(【干货】Oracle模块划分总结（规则解析概要）)

采集交流 • 优采云发表了文章 • 0 个评论 • 112 次浏览 • 2022-01-30 13:06 • 来自相关话题

采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)

采集交流 • 优采云发表了文章 • 0 个评论 • 361 次浏览 • 2022-01-30 13:03 • 来自相关话题

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　
　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集采集内容
　　
　　我们先来看看 data采集模块。从表中可以看出，两种数据库的采集的内容是不同的。
　　Oracle提供了丰富的资料，基本上需要的都可以采集；MySQL函数信息相对较少，可以采集。
　　表中的“复选标记+星号”表示非计划作业已完成，但稍后会实时检索。下面对各部分的采集内容进行简要说明。
　　这些信息将作为后续审核的基础。
　　采集原理
　　
　　下面简单介绍一下采集的原理和原理：
　　6、规则解析总结说明
　　下面介绍整个系统的核心部分——规则解析模块。它的作用是根据定义的规则对采集的数据进行审核，过滤掉违反规则的数据。对过滤后的数据进行评分和记录，以供后续生成审计报告。同时，还会记录一些额外的信息，以辅助一些判断工作。
　　这里有一个核心概念——“规则”。后面可以看到内置规则的定义，大家会比较清楚。从分类上来看，大致可以分为以下几类。
　　规则定义
　　
　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　
　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　
　　对象规则的实现部分比较简单。除个别规则外，基本都是查询数据字典信息，然后根据规则的定义进行判断。上面的例子是一个索引的规则实现，查询数据字典信息。
　　规则定义（执行计划级别）
　　
　　第二类规则是执行计划类型的规则，也分为几类。比如访问路径类、表间关联类、类型转换类、绑定变量类等。
　　以最常见的访问路径类为例进行说明。比如最常见的规则“大表扫描”。表示在执行SQL语句时，对大表进行访问，访问路径为全表扫描的形式。该规则的输入参数包括大表的定义（物理大小或记录数）；输出部分包括表名、表大小和附加信息（包括整个执行计划、指定大表的统计信息等）。
　　这些规则所针对的数据源是从在线数据库中获取的。Oracle部分是按时间段直接从AWR中提取出来的，MySQL部分是通过explain命令查数据库得到的。
　　信息存储格式
　　
　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle 部分也以 json 格式存储。
　　规则执行（执行计划）
　　
　　左侧是 Oracle 执行计划在 MongoDB 中的存储方式。其实就是将sqlplan字典数据插入到mongo中。右边是一个规则实现的例子，是一个基于mongo的查询语句。稍后我们将看到一个详细的示例。
　　7、平台实现规则实现
　　
　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　
　　基于这种结构，如何实现规则过滤？其实是通过mongo中的find语句实现的。以下是该语句的执行步骤的详细说明。
　　规则执行（执行计划）
　　这部分是一个在 MySQL 中实现分层结果存储的例子。
　　
　　第一个图显示了原创的执行计划。
　　
　　第二张图是代码实现的总结。
　　
　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　
　　第三种规则是基于文本的规则，它是描述 SQL 语句的文本特征的规则，与数据库类型无关。在实现上，通过常规的文本匹配或程序进行处理。其主要目的是规范开发者的 SQL 编写方式，避免复杂、性能差、不规范的 SQL 编写方式。
　　规则实现（文本级别）
　　
　　本节介绍如何实现文本规则。第一个示例 bad_join 是通过常规文本匹配实现的简单规则。第二个例子，sub_query，是通过程序判断括号的嵌套来判断子查询（或多级子查询）。
　　规则定义（执行功能级别）
　　
　　最后一类规则是要素类的实现。这部分与数据库密切相关，过滤掉符合一定执行特征的语句。这些语句不一定是低效的，它们可能只是未来优化的重点，或者是一些优化收益最高的语句。主要有一些资源消耗等等。
　　8、系统管理规则管理
　　
　　后来通过一些界面展示，介绍了平台的功能。
　　第一部分是系统管理模块中的规则管理部分。在本节中，您可以完成添加自己的规则。它的核心是规则实现部分，以SQL语句、Mongo查询语句、自定义Python文件的形式定义规则实现体。自定义规则的基础是已有的爬取数据源，定义者需要熟悉已有的数据结构和含义。当前不支持自定义爬网数据源。
　　
　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　
　　规则配置好后，任务发布的工作就可以在这里完成了。
　　以上是发布规则任务的界面。选择好数据源（ip、port、schema）后，选择审计类型和审计日期。目前审计数据源的计时策略仍然是以天为单位，所以不能选择今天的日期。
　　任务发布后，您可以在任务结果查看界面观察执行状态。根据审计类型、数据源对象的数量和语句的数量，审计的持续时间是可变的，一般在 5 分钟内。当审计工作状态为“成功”时，表示审计工作完成，可以查看或导出审计结果。
　　9、结果展示对象审核结果概览
　　
　　上图是对象审计报告的示例。报告的开头是概览页面。在审计报告中集中展示各项规则和扣减；并通过饼图显示它们的比例。这使我们能够首先关注核心问题。
　　在顶部，您还可以观察到规则总分的显示。这是按照百分制将规则扣分换算得到的分数。分数越高，违规越少，审计对象的质量越高。“规则总分”的引入在设计之初是有争议的，担心有这个指标会打击开发者的积极性，不利于平台的推广和使用。这里有几点可以说明。
　　对象审核结果详细信息
　　
　　这部分是对象审计的详细部分，对应每条规则的详细信息，可以在左侧的链接中进一步查看对象信息。由于篇幅限制，这里就不展示了。
　　执行计划评审结果概览
　　
　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　
　　这部分是执行计划的详细部分。
　　
　　展开后，您可以看到每个规则违规的细分。上图是违反全表扫描规则的详细部分。
　　以上是一些通用的解决方案说明。此处描述了可能触发此类规则的情况和解决方案。相当于一个小知识库，方便开发者优化。之后在平台二期，我们会对引擎部分做更精准的优化，并且会扩充这部分。
　　下面是每条违规语句的状态，我们可以看到语句文本、执行计划、关联信息（比如这条规则的大表名）等，您也可以进一步点击语句展开信息。
　　
　　
　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量很大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　
　　该平台在宜信运营以来，已为多个系统提供审计报告，大大加快了数据库结构和SQL优化的速度，缓解了DBA的日常工作压力。在工作实施过程中，我们也探索了一套实施方法。平台开源后，如果朋友使用，可以参考实现。
　　信息采集阶段
　　数据库系统的操作，掌握第一手资料。快速了解各业务系统质量，做好试点选型工作。
　　人工分析阶段
　　关键系统，人工干预分析。针对规则审核中暴露的核心问题，“点对面”，有针对性的分析优化报告。
　　沟通训练阶段
　　主动上门与开发团队沟通汇报情况。借分析报告的机会，可以对开发团队进行必要的培训，结合身边的案例，更有说服力。查看全部

　　采集内容管理平台(Oracle模块划分总结一下（二）：数据采集、规则解析)
　　模块划分
　　

　　综上所述，平台主要由以上四个模块组成：数据采集、规则分析、系统管理、结果展示。后面会详细介绍不同模块的实现。
　　5、数据采集采集内容
　　

　　这是规则体的声明对象。我将解释每个字段的含义，以便大家对规则有一个清晰的认识。
　　规则定义（对象级别）
　　

　　我们先来看第一类规则——对象规则。这是一组针对数据库对象设置的规则。上表显示了一些示例。常见的对象，如表、分区、索引、字段、函数、存储过程、触发器、约束、序列等，都是审计对象。以表格为例，内置了很多规则。
　　例如：第一个“大表太多”。表示数据库中的大表数量超过了规则定义的阈值。这里的大表是由规则的输入参数决定的。参数包括表记录数和表的物理大小。该规则的总体描述为“数据库中超过指定大小的表数或指定记录数超过指定阈值，触发审计规则”。其他对象的规则类似。
　　规则实现（对象级别）
　　

　　这里特别说明，保存执行计划时，使用的是MongoDB等文档数据库。目的是利用其无模式特性，方便兼容不同数据库和版本的执行计划差异。都可以存储在一个集合中，后续的规则审核也是使用mongo中的查询语句来实现的。这也是一开始引入mongo的初衷，其他类型的信息后面会放到库中。现在整个审计平台，除了连接pt工具的部分使用MySQL，其余都在MongoDB中。另外，MySQL库可以直接输出json格式的执行计划，存储非常方便；Oracle 部分也以 json 格式存储。
　　规则执行（执行计划）
　　

　　这是“大表全表扫描”规则的示例。以上是Oracle中数据字典保存的执行计划，以下是Mongo中保存的。可以看出是完全抄袭的。
　　

　　第一个图显示了原创的执行计划。
　　

　　第二张图是代码实现的总结。
　　

　　第三张图片是它实际保存在库中的样子。核心部分是item_level的生成。
　　规则定义（文本级别）
　　

　　对于已定义的规则，您可以在此处完成规则修改。主要配置规则状态、阈值、扣减项。
　　任务管理
　　

　　这部分执行计划的概览显示，类似于对象的情况。也是每条规则的扣分。
　　执行计划审核结果详情
　　

　　这部分是执行计划的详细部分。
　　

　　这部分是每条 SQL 的信息，包括语句文本、执行计划、执行特征和关联的对象统计信息。DBA可以根据这些信息做一些初步的优化判断工作。
　　此外，平台还提供了导出功能。可以导出为excel文件供用户下载查看。它显示在这里。
　　10、我们遇到的坑
　　在实际开发过程中，遇到了很多问题。我们这里简单介绍两个，例如：
　　MySQL在解析json格式执行计划时暴露的问题...
　　【Session进入睡眠状态，假死】
　　解决方法：在执行会话前设置wait_timtout=3，这个时间根据实际情况调整。
　　【数据量太大，很久没有结果】
　　session处于查询状态，但是数据量很大或者因为数据库对format=json的支持不是很好，长时间解析不出来，会影响其他session。
　　解决方法：使用 pt-kill 工具终止会话。为了防止误杀，可以标记“eXplAin format=json”，然后使用pt-kill识别eXplAin关键字。
　　11、推进进程
　　

话题描述

最佳回复者

: 优采云
获得 0 次赞同, 0 次感谢

1 人关注该话题

视
频
教
程

在
线
客
服

官方客服QQ群

在
线
客
服