c 抓取网页数据(记录思路如下:记录SQL中的注释(使用--进行注释))
优采云 发布时间: 2022-03-25 11:12c 抓取网页数据(记录思路如下:记录SQL中的注释(使用--进行注释))
【原需求】
该公司的用户手册是SGML的源代码。文档中有一些 SQL 语句。目前,我想验证这些SQL是否可以复制和执行。
【对策】
使用手动副本验证太慢。
所以想抓取相关内容,然后直接使用工具执行,手动查看执行结果。
经分析,源码部分一般受and标签约束,所以针对这两个标签进行shell要抓取的具体内容。
录音思路如下:
1、 先在 SQL 中处理注释(使用--for comments 类似于 C 语言中的#)
2、去掉文本空间进行序列处理,使用上面的标签进行拆分,然后在拆分后取偶数位置的值(不解释)
3、标签中的内容可以通过第二步获取,标签中的特殊字符需要处理
<p>#!/bin/bash
path='/home/ckdu/sgml_qsruan/sgml'
for file in `ls /home/qs/sgml/*.sgml`
do
cat ${file} |sed 's/−/-/g'|awk -F'--' '{print $1}'> ${file}.tmp
cat ${file}.tmp | awk '{printf("%s",$0)}' |awk -F "()|()|()|()" '{for(i=2;i/g'|sed 's///g'|sed 's///g'|sed 's/&&/\&/g'|sed 's/</