输入关键字 抓取所有网页(我抓取一个从列表中获取元素的网页(二))
优采云 发布时间: 2021-10-07 06:15输入关键字 抓取所有网页(我抓取一个从列表中获取元素的网页(二))
我抓取一个从列表中获取元素的网页(我的 df 的一列转换为收录重复单词的列表),然后将结果返回给 df。我需要在爬行时想办法排除重复项(以减少时间),但是如果有重复项,我需要同时填写所有重复词的派生值。例子:
my_column `result`
string1 Yes
string2 No
string3 Yes
string2 No
string1 Yes
string4 No
这是通过一个接一个地使用 my_column 中的关键字获得的,而不必避免重复。有没有在重复的情况下只使用抓取中的第一个值,并在结果栏中填充每个关键字的结果的逻辑?
这是我的代码
for keyword in final_list:
for index, row in data_splitted2.iterrows():
if keyword == row['my_column']:
if keyword == None:
break
# print(keyword)
link = website + 'search/q?name=' + keyword
driver.get(link)
time.sleep(5)
try:
status = driver.find_element_by_class_name("yyyyy")
row['result'] = status.text
except NoSuchElementException:
pass
最后要提到的是,在我的最终 df 中,我需要保留重复的关键字,以便在抓取过程中传递它们但在我的最终 df 中使用它们。
提前致谢
`