网页表格抓取(totowiththisthis.宽恕,今天才开始使用)
优采云 发布时间: 2021-11-30 22:29网页表格抓取(totowiththisthis.宽恕,今天才开始使用)
请原谅,今天才开始用beautifulSoup来解决这个问题。
我设法通过拖入网站上的 URL 使其工作,该网站上的每个产品页面都有一个如下所示的表格: URL 使其工作。此网站 上的每个产品页面都有一个类似于下表的表格:
YYF Shutter Stats:
Diameter:
56 mm / 2.20 inches
Width:
44.40 mm / 1.74 inches
Gap Width:
4.75 mm / .18 inches
Weight:
67.8 grams
Bearing Size:
Size C (.250 x .500 x .187)
CBC SPEC Bearing
Response:
CBC Silicone Slim Pad (19mm)
我正在尝试将该表提取为我可以在 web 应用程序中使用的某种形式的数据。
我将如何从每个网页中提取此内容,该网站有大约 400 个收录此表格的产品页面,我最好从页面中获取每个表格并将其放入数据库条目或文本文件中与产品名称。我将如何从每个网页中提取内容,大约有400个产品页面收录此表,我最好从页面中获取每个表并将其放入 名称是数据库的条目或文本文件中的产品
如您所见,该表格的格式并不准确,但它是页面上唯一标有 p>
的表格
class="product-feature-table"
我刚刚尝试编辑一个 URL 抓取脚本,但我开始觉得我正在尝试这样做是错误的。就我尝试这样做而言,一切都是错误的。
我的url脚本如下: 我的url脚本如下:
import urllib2
from bs4 import BeautifulSoup
url = raw_input('Web-Address: ')
html = urllib2.urlopen('http://' +url).read()
soup = BeautifulSoup(html)
soup.prettify()
for anchor in soup.findAll('a', href=True):
print anchor['href']
我可以将所有这些 URL 放入一个文本文件中,但更喜欢使用 Sqlite 或 Postgresql,是否有任何在线文章可以帮助我更好地理解这些概念,而不会淹没新手? URL 都输入到一个文本文件中,但我更喜欢使用 Sqlite 或 Postgresql。有没有在线文章 可以帮助我更好地理解这些概念而不会让新手感到不知所措?