python网页数据抓取(python3.X中编写代码以及在anaconda中的网络抓取)

优采云 发布时间: 2022-01-20 10:13

  python网页数据抓取(python3.X中编写代码以及在anaconda中的网络抓取)

  我正在尝试根据地理位置抓取 Instagram 和 Twitter。我可以运行查询搜索,但在将网页重新加载到更多并将字段存储到数据框时遇到了挑战。

  我确实找到了几个没有 API 密钥的网页抓取 twitter 和 Instagram 的例子。但它们与#tags 关键字有关。

  我正在尝试根据地理位置和旧日期进行抓取。到目前为止,我已经在 python 3.X 和 anaconda 中编写了所有最新版本的软件包。

  '''

Instagram - Components

"id": "1478232643287060472",

"dimensions": {"height": 1080, "width": 1080},

"owner": {"id": "351633262"},

"thumbnail_src": "https://instagram.fdel1-1.fna.fbcdn.net/t51.2885-15/s640x640/sh0.08/e35/17439262_973184322815940_668652714938335232_n.jpg",

"is_video": false,

"code": "BSDvMHOgw_4",

"date": 1490439084,

"taken-at=213385402"

"display_src": "https://instagram.fdel1-1.fna.fbcdn.net/t51.2885-15/e35/17439262_973184322815940_668652714938335232_n.jpg",

"caption": "Hakuna jambo zuri kama kumpa Mungu shukrani kwa kila jambo.. \ud83d\ude4f\ud83c\udffe\nIts weekend\n#lifeistooshorttobeunhappy\n#Godisgood \n#happysoul \ud83d\ude00",

"comments": {"count": 42},

"likes": {"count": 3813}},

'''

import selenium

from selenium import webdriver

#from selenium import selenium

from bs4 import BeautifulSoup

import pandas

#geotags = pd.read_csv("geocodes.csv")

#parmalink =

query = geocode%3A35.68501%2C139.7514%2C30km%20since:2016-03-01%20until:2016-03-02&f=tweets

twitterURL = 'https://twitter.com/search?q=' + query

#instaURL = "https://www.instagram.com/explore/locations/213385402/"

browser = webdriver.Firefox()

browser.get(twitterURL)

content = browser.page_source

soup = BeautifulSoup(content)

print (soup)

  我收到 Twitter 搜索查询的语法错误

  对于 Instagram,我没有收到任何错误,但我无法重新加载更多帖子并写回 csv 数据框。

  我还尝试在 Twitter 和 Instagram 中使用经纬度搜索进行搜索。

  我在 csv 中有一个地理坐标列表,可用于输入或编写搜索查询。

  任何完成位置抓取的方法都将不胜感激。

  谢谢您的帮助!!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线