输入关键字抓取所有网页( 2019年12月24日10:18:12作者：变异的小江江)

优采云发布时间: 2021-11-22 13:03

　　输入关键字抓取所有网页(

2019年12月24日10:18:12作者：变异的小江江)

　　Python实现通过关键字过滤日志文件

　　更新时间：2019年12月24日10:18:12 作者：变异肖江江

　　今天分享一篇关于python中如何通过关键字过滤日志文件的文章，有很好的参考价值，希望对大家有所帮助。跟着小编一起来看看吧

　　最近，我变成了一只狗。五六个项目堆在一起。头疼的是，测试还是被吓到了，给我丢了几十甚至几百兆的日志文件，动辄几千万行，就算有。搜索也晕了，于是花点时间写了个小脚本过滤日志。当然，网上应该有很多这样的东西，但我还是想自己做，学习！

#!/usr/bin/python

# -*- encoding: utf-8 -*-

# version 1.0

import re

import time

'''

用于筛选日志文件，适用于python2.x版本

使用时将日志文件放于search.py工具同一目录

筛选完毕后会出现“旧文件名+当前时间”格式命名的新日志文件

'''

def getParameters():

file_name = ""

key_work = ""

while (True):

file_name = raw_input("请输入文件名：")

key_work = raw_input("请输入过滤关键字：")

if len(file_name) == 0 or len(key_work) == 0:

flag = raw_input("您输入的文件名或关键子为空，输出c重试，q退出程序：")

if flag == "q":

return

elif flag == "c":

continue

else:

break

new_file = file_name + "-" + formatTime(time.localtime())

f = open("./" + file_name, "rb")

lines = f.readlines()

if len(lines) == 0:

print("========日志文件为空========")

f.close()

return

nf = open("./" + new_file, "wb");

count = 0

for line in lines:

rs = re.search(key_work, line)

if rs:

print("[命中]--->%s" % line)

nf.write(line)

count = count + 1

f.close()

nf.close()

print("共找到%d条信息" % count)

def formatTime(timevalue):

'''

format the time numbers

'''

return time.strftime("%Y%m%d%H%M%S", timevalue)

if __name__ == '__main__':

getParameters()

　　注意：我直接在终端上运行了这个脚本。/xxxx.py。由于android源代码的编译，我的终端需要安装python2.7.6。估计会跑在python3上。有问题。

　　好的，这是我测试的比赛结果：

　　当然，这仅适用于单个文件！

　　以上python通过关键字过滤日志文件的实现是小编分享的全部内容，希望能给大家一个参考，也希望大家多多支持脚本之家。

0

2021-11-22

输入关键字抓取所有网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

输入关键字抓取所有网页( 2019年12月24日10:18:12作者：变异的小江江)

0 个评论

发起人

AI时代内容工厂

输入关键字 抓取所有网页( 2019年12月24日10:18:12作者：变异的小江江)

0 个评论

发起人

输入关键字抓取所有网页( 2019年12月24日10:18:12作者：变异的小江江)