输入关键字 抓取所有网页( 2019年12月24日10:18:12作者:变异的小江江)

优采云 发布时间: 2021-11-22 13:03

  输入关键字 抓取所有网页(

2019年12月24日10:18:12作者:变异的小江江)

  Python实现通过关键字过滤日志文件

  更新时间:2019年12月24日10:18:12 作者:变异肖江江

  今天分享一篇关于python中如何通过关键字过滤日志文件的文章,有很好的参考价值,希望对大家有所帮助。跟着小编一起来看看吧

  最近,我变成了一只狗。五六个项目堆在一起。头疼的是,测试还是被吓到了,给我丢了几十甚至几百兆的日志文件,动辄几千万行,就算有。搜索也晕了,于是花点时间写了个小脚本过滤日志。当然,网上应该有很多这样的东西,但我还是想自己做,学习!

  

#!/usr/bin/python

# -*- encoding: utf-8 -*-

# version 1.0

import re

import time

'''

用于筛选日志文件,适用于python2.x版本

使用时将日志文件放于search.py工具同一目录

筛选完毕后会出现“旧文件名+当前时间”格式命名的新日志文件

'''

def getParameters():

file_name = ""

key_work = ""

while (True):

file_name = raw_input("请输入文件名:")

key_work = raw_input("请输入过滤关键字:")

if len(file_name) == 0 or len(key_work) == 0:

flag = raw_input("您输入的文件名或关键子为空,输出c重试,q退出程序:")

if flag == "q":

return

elif flag == "c":

continue

else:

break

new_file = file_name + "-" + formatTime(time.localtime())

f = open("./" + file_name, "rb")

lines = f.readlines()

if len(lines) == 0:

print("========日志文件为空========")

f.close()

return

nf = open("./" + new_file, "wb");

count = 0

for line in lines:

rs = re.search(key_work, line)

if rs:

print("[命中]--->%s" % line)

nf.write(line)

count = count + 1

f.close()

nf.close()

print("共找到%d条信息" % count)

def formatTime(timevalue):

'''

format the time numbers

'''

return time.strftime("%Y%m%d%H%M%S", timevalue)

if __name__ == '__main__':

getParameters()

  注意:我直接在终端上运行了这个脚本。/xxxx.py。由于android源代码的编译,我的终端需要安装python2.7.6。估计会跑在python3上。有问题。

  好的,这是我测试的比赛结果:

  

  当然,这仅适用于单个文件!

  以上python通过关键字过滤日志文件的实现是小编分享的全部内容,希望能给大家一个参考,也希望大家多多支持脚本之家。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线