c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)

优采云 发布时间: 2022-03-19 23:17

  c 抓取网页数据(2021-11-05今日任务将数据文件spider.log根据要求)

  2021-11-05

  数据采集​​一

  一。今天的任务

  根据需要将数据文件spider.log转储为ans0201.csv

  二。主要内容

  任务分析与实施

  根据需求,我们需要在spider.log文件中取出相关字段,使用Python中的读取文件,每行数据规则相同,逐行读取,取出对应字段,然后创建一个csv 文件,然后将 read 文件按要求写入 csv

  使用语言工具 Python

  模块操作系统

  主要源代码

  导入 csv

  导入编*敏*感*词*

  列表 = []

  列表CSV = []

  def readLog(): #逐行读取数据文件,如果链接是电影就是我们需要的数据

  列表 = []

  使用 open(r"C:\Users\liu\Desktop\arg\task0201\spider.log", "r", encoding="utf-8") 作为文件:

  s = file.readlines()

  对于我在 s 中:

  str = i.split(",")

  如果 str[1].startswith(r""):

  list.append(i)

  返回列表

  def anyData(list): #去除冗余数据,获取需要的电影名称、放映时间等

  列表CSV = []

  对于列表中的 abc:

  str = abc.split(";")

  电影名 = str[0].split(",")[2]

  加载日期 = str[1]

  上传日期 = str[2]

  支付 = str[7][5:]

  tuple = (movieName, loadDate, uploadDate, pay)

  listCsv.append(元组)

  返回列表CSV

  def writeCsv(list): #写入csv文件

  f = codecs.open('ans0201.csv', 'w', 'utf-8')

  作家 = csv.writer(f)

  对于列表中的 i:

  writer.writerow(i)

  f.close()

  如果 __name__ == "__main__":

  列表 = anyData(readLog())

  打印(列表)

  写CSV(列表)

  三。遇到问题

  需要过滤文件数据。过滤后的数据需要按照规则进行过滤。csv文件读写

  四。解决方案

  关于文件数据的问题,一开始没看懂,后来发现标题里的链接是固定的。根据链接,可以过滤掉所需网页采集的数据。关于数据过滤,一是每行第一个数据只要是Name即可,二是票房数据删除票房文本Csv文件读写网上有读写文件的方法,按照方法来参考写

  分类:

  技术要点:

  相关文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线