网页抓取数据(北大未名站:EECS标题求助一个从网页抓取数据的问题时间)
优采云 发布时间: 2021-09-16 19:18网页抓取数据(北大未名站:EECS标题求助一个从网页抓取数据的问题时间)
发送方:电那孙(小韩)|EECS14),信息区:EECS
标题:[集合]帮助解决从网页获取数据的问题
发送站:北京大学卫明站(2016年7月7日23:49:57,星期一四),站内信件)
───────────────────────────────────────
作者香蕉(Kimi),信区:EECS
标题是从网页中获取数据的问题
时间:北京大学卫明站(2015年11月30日23:48:31)一),站内信件
───────────────────────────────────────
有一项研究需要首先从网页上采集数据。如果数据以表格形式显示在网页上,则需要几年时间
两个程序都可以自动捕获数据。现在的问题是网站上的数据显示模式是图形线的形式(
如附件所示),也就是说,从几天的数据(不同的项目,大约一年)生成一行,然后鼠标移动到图形上
该点对应的日期和对应的数据(价格)将显示在屏幕上的不同位置。在这种情况下,您可以使用什么方式传递信息
捕获并生成收录每日数据(价格)的本地数据
或者生成该行的数据存储在哪里,可以从网站读取@
首先谢谢大家
(其中一种产品的网站:
32LL_A_16GB_Wi-Fi_空间_灰色_/)
───────────────────────────────────────
作者arthaszrz(nan3 | miststrider |=>12cs | dihacker),信息领域:EEC
标题re:帮助解决从网页获取数据的问题
时间:北京大学卫明站(09:48:012015年12月1日)二),站内信件
───────────────────────────────────────
刚才我看了这个页面的JS代码(
51)然后,发现折线图的源数据来自一个名为zs_api()的接口的返回结果
有许多URL,但这应该是与获取数据相关的URL:
productid对应的值是您发送的IPAdminURL中的第三项。您也可以直接发送此位置
将地址粘贴到浏览器地址栏中,然后进入并查看。您可以在其中看到返回的JSON数据newsfi
Eld应该是您需要的数据
如果要使用此数据,请直接编写python,并请求.Get(“…”)获取返回的列
看着
TA帖子中提到的香蕉(Kimi):
有一项研究需要首先从网页上采集数据。如果数据以表格形式显示在网页上,则需要几年时间
两个程序都可以自动捕获数据。现在的问题是网站上的数据显示模式是图形线的形式(
如附件所示),也就是说,从几天的数据(不同的项目,大约一年)生成一行,然后鼠标移动到图形上
该点对应的日期和对应的数据(价格)将显示在屏幕上的不同位置。在这种情况下,您可以使用什么方式传递信息
捕获并生成收录每日数据(价格)的本地数据
或者生成该行的数据存储在哪里,可以从网站读取@
首先谢谢大家
(其中一种产品的网站:
32LL_A_16GB_Wi-Fi_空间_灰色_/)
───────────────────────────────────────
作者香蕉(Kimi),信区:EECS
标题re:帮助解决从网页获取数据的问题
时间:北京大学卫明站(09:03:282015年12月2日)三),站内信件
───────────────────────────────────────
多谢各位
最好从这里获取数据
从图表中捕获要容易得多~太好了!你能问一下productid的这种网站吗(比如B00)
gracuxm)是常规的吗?因为你需要获取大量的产品信息。如果ID是常规的,你可以从自己那里获取
移动生成然后访问网站抓取数据~否则,我觉得我只能模拟鼠标点击/搜索框来搜索产品,然后
从URL解析相应的ID似乎非常复杂。(或者有更好的方法吗?)
再次感谢
12cs |迪哈克“>arthazrz(nan3 | miststrider |=>12cs |迪哈克)在TA的帖子中提到:
刚才我看了这个页面的JS代码(
51)然后,发现折线图的源数据来自一个名为zs_api()的接口的返回结果
有许多URL,但这应该是与获取数据相关的URL:
productid对应的值是您发送的IPAdminURL中的第三项。您也可以直接发送此位置
将地址粘贴到浏览器地址栏中,然后进入并查看。您可以在其中看到返回的JSON数据newsfi
Eld应该是您需要的数据
如果要使用此数据,请直接编写python,并请求.Get(“…”)获取返回的列
看着
───────────────────────────────────────
作者arthaszrz(schunsent),信区:EEC
标题re:帮助解决从网页获取数据的问题
时间:北京大学卫明站(2015年12月2日14:19:06,三),站内信件)
───────────────────────────────────────
我真的不知道是否有任何规则,但它是否只是为了减少模拟鼠标点击输入的操作
,你可以直接
要搜索的关键词/页面
比如说
然后可以在返回的HTML中解析产品列表
然后您会发现与产品名称对应的标签的href URL的第三项是产品的productid
这是我能找到的最好的方法
TA帖子中提到的香蕉(Kimi):
多谢各位
最好从这里获取数据
从图表中捕获要容易得多~太好了!你能问一下productid的这种网站吗(比如B00)
gracuxm)是常规的吗?因为你需要获取大量的产品信息。如果ID是常规的,你可以从自己那里获取
移动生成然后访问网站抓取数据~否则,我觉得我只能模拟鼠标点击/搜索框来搜索产品,然后
从URL解析相应的ID似乎非常复杂。(或者有更好的方法吗?)
再次感谢
───────────────────────────────────────
作者香蕉(Kimi),信区:EECS
标题re:帮助解决从网页获取数据的问题
时间:北京大学卫明站(2015年12月3日08:06:52)四),站内信件
───────────────────────────────────────
嗯,这已经很方便了~谢谢
阿尔萨斯·兹尔茨(schunsent)在TA的帖子中提到:
我真的不知道是否有任何规则,但它是否只是为了减少模拟鼠标点击输入的操作
,你可以直接
要搜索的关键词/页面
比如说
然后可以在返回的HTML中解析产品列表
然后您会发现与产品名称对应的标签的href URL的第三项是产品的productid
这是我能找到的最好的方法