c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)

优采云发布时间: 2022-03-19 23:17

　　2021-11-05

　　数据采集一

　　一。今天的任务

　　根据需要将数据文件spider.log转储为ans0201.csv

　　二。主要内容

　　任务分析与实施

　　根据需求，我们需要在spider.log文件中取出相关字段，使用Python中的读取文件，每行数据规则相同，逐行读取，取出对应字段，然后创建一个csv 文件，然后将 read 文件按要求写入 csv

　　使用语言工具 Python

　　模块操作系统

　　主要源代码

　　导入 csv

　　导入编*敏*感*词*

　　列表 = []

　　列表CSV = []

　　def readLog(): #逐行读取数据文件，如果链接是电影就是我们需要的数据

　　列表 = []

　　使用 open(r"C:\Users\liu\Desktop\arg\task0201\spider.log", "r", encoding="utf-8") 作为文件：

　　s = file.readlines()

　　对于我在 s 中：

　　str = i.split(",")

　　如果 str[1].startswith(r""):

　　list.append(i)

　　返回列表

　　def anyData(list): #去除冗余数据，获取需要的电影名称、放映时间等

　　列表CSV = []

　　对于列表中的 abc：

　　str = abc.split(";")

　　电影名 = str[0].split(",")[2]

　　加载日期 = str[1]

　　上传日期 = str[2]

　　支付 = str[7][5:]

　　tuple = (movieName, loadDate, uploadDate, pay)

　　listCsv.append(元组)

　　返回列表CSV

　　def writeCsv(list): #写入csv文件

　　f = codecs.open('ans0201.csv', 'w', 'utf-8')

　　作家 = csv.writer(f)

　　对于列表中的 i：

　　writer.writerow(i)

　　f.close()

　　如果 __name__ == "__main__":

　　列表 = anyData(readLog())

　　打印（列表）

　　写CSV（列表）

　　三。遇到问题

　　需要过滤文件数据。过滤后的数据需要按照规则进行过滤。csv文件读写

　　四。解决方案

　　关于文件数据的问题，一开始没看懂，后来发现标题里的链接是固定的。根据链接，可以过滤掉所需网页采集的数据。关于数据过滤，一是每行第一个数据只要是Name即可，二是票房数据删除票房文本Csv文件读写网上有读写文件的方法，按照方法来参考写

　　分类：

　　技术要点：

2022-03-19

c 抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)

0 个评论

发起人

AI时代内容工厂

c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)

0 个评论

发起人

相关问题