抓取网页新闻(拓展（）系统服务没加上及一堆问题 )

优采云发布时间: 2022-02-01 08:14

　　抓取网页新闻(拓展（）系统服务没加上及一堆问题

)

　　做了一些扩展（也可以扩展，我们从首页获取tele中间路径，然后用地图给用户选择）：

　　#这里可以再改进，进行扩展，自行输入时间（貌似都一样，正则还是可以用）

#doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()

newsYear = raw_input("Please input the year likes 2012: ")

newsMouth = raw_input("Please input the mouth likes 03: ")

newsDay = raw_input("Please input the day likes 02: ")

doc = urlopen("http://roll.tech.sina.com.cn/tele/" + \

newsYear + "-" + \

newsMouth + "-" + \

newsDay + \

".shtml").read()

　　我没有太多接触网页和网络相关的知识，然后使用我没有开始使用的Python。下面的程序曲折多，bug多，但勉强爬网新闻。 win系统服务没有添加，还有很多问题，待续...

<p># -*- coding: cp936 -*-

import win32serviceutil

import win32service

import win32event

from urllib import urlretrieve

from urllib import urlopen

import smtplib

from email.mime.text import MIMEText

from email.MIMEMultipart import MIMEMultipart

from email.Header import Header

#这个正则库感觉很棒

import re

import os

import xlrd

doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()

#分别寻找链接和新闻标题

def extract_url(info):

rege = "<a href=\"(.*)\" target=_blank>"

url = re.findall(rege, info)

return url

def extract_title(info):

pat = "\" target=_blank>(.*)</a>

0

2022-02-01

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(拓展（）系统服务没加上及一堆问题 )

0 个评论

发起人

AI时代内容工厂

抓取网页新闻(拓展（）系统服务没加上及一堆问题 )

0 个评论

发起人

相关问题