beautifulsoup - python - 在BeautifulSoup中,處理無限滾動UI

94 5

我正在研究如何抓取Linkedin source (https://www.Linkedin.com/mynetwork/invite-connect/connections/),但是似乎無法無限滾動,如何處理它?我不想使用selenium (我希望在以後把這個作為web服務實現)。


import bs4


from bs4 import BeautifulSoup


import requests



def scraping(webpage):


 headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}


 response= requests.get(str(webpage), headers=headers)


 soup = BeautifulSoup(response.text,"html.parser")


 print(soup)



scraping('https://www.linkedin.com/mynetwork/invite-connect/connections')



时间: 原作者:

95 0

BeautifulSoup只能處理HTML;你需要讓LinkedIn返回更多的HTML,但內容不在HTML中,因此你必須獲取內容,

你需要另一個工具。

你可以使用selenium,這可能是解決問題的最簡單方法,因為它可以很好地複製瀏覽器環境,

如果不使用Selenium ,建議你在LinkedIn網站上進行深入研究,看看是否可以找出javascript的哪一部分負責獲取數據,並複製它們發出的網路請求,然後自己進行解析數據。

對於大多數人來說,selenium是正確的答案。

原作者:
...