怎样抓取网页数据( Beautypackge:从网站收集数据到数据框中(link))
优采云 发布时间: 2022-02-23 05:07怎样抓取网页数据(
Beautypackge:从网站收集数据到数据框中(link))
如何从 Python 中网页内的链接获取数据?
pythonpandas网页抓取
如何从 Python 中网页内的链接获取数据?,python,pandas,web-scraping,Python,Pandas,Web Scraping,我需要从 网站 采集数据并使用 pandas 将其存储在数据框中。为此,我使用下面的代码并非常轻松地获取数据 - import pandas as pd import requestsurl = ""link = requests.get(url).textdf = pd.read_html(link)
我需要从 网站 采集数据并使用 pandas 将其存储在数据框中。为此,我使用下面的代码并非常容易地获取数据 -
import pandas as pd
import requests
url = "https://webgate.ec.europa.eu/rasff-window/portal/?event=notificationsList&StartRow="
link = requests.get(url).text
df = pd.read_html(link)
df = df[-1]
但是,如果您注意到在表格中,网页每一行的最右侧都有一个名为“详细信息”的超链接。我还想将超链接中的数据添加到数据框中的每一行。我们如何做到这一点?
正如 Xiufeng Shi 所建议的,BeautifulSoup 更适合您的问题,但如果您仍想继续使用当前代码,则必须使用正则表达式提取 URL 并添加如下:
将熊猫作为pd导入
导入请求
url=”https://webgate.ec.europa.eu/rasff-window/portal/?event=notificationsList&StartRow="
link=requests.get(url)
link\u content=str(link.content)
res=re.findall(r'(.*),链接内容)[0]
res=re.findall(r'(细节\),res)
res=[i[1]表示res中的i]
link\u text=link.text
df=pd.read\u html(链接\u文本)
df=df[-1]
df['links']=res
打印(df)
希望这能解决您的问题。
美容汤包更适合这种微妙之处 感谢@aditya-k 的回复,但添加链接栏不是问题。问题是如何遍历链接以从该链接获取一些数据并将其添加到初始数据帧中。请让我知道我可以研究的任何特定的 beautifulsoup 组件。那么你为什么不在你的问题中描述实际问题呢?如果不清楚,请道歉,但它明确表示我们要从超链接添加数据。现在,我在问题中添加了“在超链接内”这个短语以明确这一点。