输入关键字 抓取所有网页(我抓取一个从列表中获取元素的网页(二))

优采云 发布时间: 2021-10-07 06:15

  输入关键字 抓取所有网页(我抓取一个从列表中获取元素的网页(二))

  我抓取一个从列表中获取元素的网页(我的 df 的一列转换为收录重复单词的列表),然后将结果返回给 df。我需要在爬行时想办法排除重复项(以减少时间),但是如果有重复项,我需要同时填写所有重复词的派生值。例子:

  my_column `result`

string1 Yes

string2 No

string3 Yes

string2 No

string1 Yes

string4 No

  这是通过一个接一个地使用 my_column 中的关键字获得的,而不必避免重复。有没有在重复的情况下只使用抓取中的第一个值,并在结果栏中填充每个关键字的结果的逻辑?

  这是我的代码

   for keyword in final_list:

for index, row in data_splitted2.iterrows():

if keyword == row['my_column']:

if keyword == None:

break

# print(keyword)

link = website + 'search/q?name=' + keyword

driver.get(link)

time.sleep(5)

try:

status = driver.find_element_by_class_name("yyyyy")

row['result'] = status.text

except NoSuchElementException:

pass

  最后要提到的是,在我的最终 df 中,我需要保留重复的关键字,以便在抓取过程中传递它们但在我的最终 df 中使用它们。

  提前致谢

  `

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线