网页抓取qq(一基本概念在Python中抓取网页的组件来解析当前页面 )
优采云 发布时间: 2022-02-18 14:01网页抓取qq(一基本概念在Python中抓取网页的组件来解析当前页面
)
一个基本概念
在 Python 中,我们使用 urllib2 组件来抓取网页。 urllib2 是一个用于获取 URL(统一资源定位器)的 Python 组件。它以 urlopen 函数的形式提供了一个非常简单的接口。
HTML 的第二部分
(1)DTD header,用来告诉浏览器用什么语言来解析当前页面。
(2)head 告诉浏览器一些相关信息。
(3)正文收录供人们查看的数据。
按F12显示页面代码信息
三用python抓取图片源码
四用python爬取网页文本信息源代码
# coding=utf-8
import urllib2
import urllib
import re
import thread
import time
from bs4 import BeautifulSoup
url="http://toutiao.sogou.com/?fr=qqxwtt"
page = urllib.urlopen(url)#打开网址
html = page.read() #读取网页内容,保存到htlm中
bs0bj=BeautifulSoup(html) #创建一个beautifulsoup的类
namelist=bs0bj.findAll("a")#通过标签筛选文字信息
for name in namelist:
print (name.get_text())