c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)
优采云 发布时间: 2022-03-19 23:17c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)
2021-11-05
数据采集一
一。今天的任务
根据需要将数据文件spider.log转储为ans0201.csv
二。主要内容
任务分析与实施
根据需求,我们需要在spider.log文件中取出相关字段,使用Python中的读取文件,每行数据规则相同,逐行读取,取出对应字段,然后创建一个csv 文件,然后将 read 文件按要求写入 csv
使用语言工具 Python
模块操作系统
主要源代码
导入 csv
导入编*敏*感*词*
列表 = []
列表CSV = []
def readLog(): #逐行读取数据文件,如果链接是电影就是我们需要的数据
列表 = []
使用 open(r"C:\Users\liu\Desktop\arg\task0201\spider.log", "r", encoding="utf-8") 作为文件:
s = file.readlines()
对于我在 s 中:
str = i.split(",")
如果 str[1].startswith(r""):
list.append(i)
返回列表
def anyData(list): #去除冗余数据,获取需要的电影名称、放映时间等
列表CSV = []
对于列表中的 abc:
str = abc.split(";")
电影名 = str[0].split(",")[2]
加载日期 = str[1]
上传日期 = str[2]
支付 = str[7][5:]
tuple = (movieName, loadDate, uploadDate, pay)
listCsv.append(元组)
返回列表CSV
def writeCsv(list): #写入csv文件
f = codecs.open('ans0201.csv', 'w', 'utf-8')
作家 = csv.writer(f)
对于列表中的 i:
writer.writerow(i)
f.close()
如果 __name__ == "__main__":
列表 = anyData(readLog())
打印(列表)
写CSV(列表)
三。遇到问题
需要过滤文件数据。过滤后的数据需要按照规则进行过滤。csv文件读写
四。解决方案
关于文件数据的问题,一开始没看懂,后来发现标题里的链接是固定的。根据链接,可以过滤掉所需网页采集的数据。关于数据过滤,一是每行第一个数据只要是Name即可,二是票房数据删除票房文本Csv文件读写网上有读写文件的方法,按照方法来参考写
分类:
技术要点:
相关文章: