输入关键字 抓取所有网页( 2019年12月24日10:18:12作者:变异的小江江)
优采云 发布时间: 2021-11-22 13:03输入关键字 抓取所有网页(
2019年12月24日10:18:12作者:变异的小江江)
Python实现通过关键字过滤日志文件
更新时间:2019年12月24日10:18:12 作者:变异肖江江
今天分享一篇关于python中如何通过关键字过滤日志文件的文章,有很好的参考价值,希望对大家有所帮助。跟着小编一起来看看吧
最近,我变成了一只狗。五六个项目堆在一起。头疼的是,测试还是被吓到了,给我丢了几十甚至几百兆的日志文件,动辄几千万行,就算有。搜索也晕了,于是花点时间写了个小脚本过滤日志。当然,网上应该有很多这样的东西,但我还是想自己做,学习!
#!/usr/bin/python
# -*- encoding: utf-8 -*-
# version 1.0
import re
import time
'''
用于筛选日志文件,适用于python2.x版本
使用时将日志文件放于search.py工具同一目录
筛选完毕后会出现“旧文件名+当前时间”格式命名的新日志文件
'''
def getParameters():
file_name = ""
key_work = ""
while (True):
file_name = raw_input("请输入文件名:")
key_work = raw_input("请输入过滤关键字:")
if len(file_name) == 0 or len(key_work) == 0:
flag = raw_input("您输入的文件名或关键子为空,输出c重试,q退出程序:")
if flag == "q":
return
elif flag == "c":
continue
else:
break
new_file = file_name + "-" + formatTime(time.localtime())
f = open("./" + file_name, "rb")
lines = f.readlines()
if len(lines) == 0:
print("========日志文件为空========")
f.close()
return
nf = open("./" + new_file, "wb");
count = 0
for line in lines:
rs = re.search(key_work, line)
if rs:
print("[命中]--->%s" % line)
nf.write(line)
count = count + 1
f.close()
nf.close()
print("共找到%d条信息" % count)
def formatTime(timevalue):
'''
format the time numbers
'''
return time.strftime("%Y%m%d%H%M%S", timevalue)
if __name__ == '__main__':
getParameters()
注意:我直接在终端上运行了这个脚本。/xxxx.py。由于android源代码的编译,我的终端需要安装python2.7.6。估计会跑在python3上。有问题。
好的,这是我测试的比赛结果:
当然,这仅适用于单个文件!
以上python通过关键字过滤日志文件的实现是小编分享的全部内容,希望能给大家一个参考,也希望大家多多支持脚本之家。