从网页抓取数据(记录思路如下:记录SQL中的注释(使用--进行注释))
优采云 发布时间: 2021-11-15 07:02从网页抓取数据(记录思路如下:记录SQL中的注释(使用--进行注释))
【原创需求】
公司用户手册是SGML的源代码,其中文档中有一些SQL语句,我目前想验证这些SQL是否可以复制和执行。
【对策】
使用手动复制验证,太慢了。
所以想抓取相关内容,然后直接使用工具执行,手动查看执行结果。
经分析,源码部分一般都受到标签使用的限制,所以shell要抓取的具体内容就是基于这两个标签。
录音思路如下:
1、先处理SQL中的注释(使用-类似C语言的注释#)
2、 将空格中的文本去掉进行序列处理,使用上面的标签进行切分,然后在切分后取偶数位置的值(不解释)
3、通过第二步就可以得到标签的内容了,需要对标签中的特殊字符进行处理
<p>#!/bin/bash
path='/home/ckdu/sgml_qsruan/sgml'
for file in `ls /home/qs/sgml/*.sgml`
do
cat ${file} |sed 's/−/-/g'|awk -F'--' '{print $1}'> ${file}.tmp
cat ${file}.tmp | awk '{printf("%s",$0)}' |awk -F "()|()|()|()" '{for(i=2;i/>/g'|sed 's///g'|sed 's///g'|sed 's/&&/\&/g'|sed 's/