2026/2/21 11:51:29
网站建设
项目流程
手机端网站怎么制作,青岛 网站优化,wordpress woff,西安网站建设中心示例网页链接#xff1a;https://movie.douban.com/subject/36907263/
BUG
浏览器开发者模式可以看到所需信息有对应的HTML显式结构 但代码爬取时发现结构被hidden#xff0c;需要二次加载
import requestsurl https://movie.douban.com/subject/36907263/
headers {Us…示例网页链接https://movie.douban.com/subject/36907263/BUG浏览器开发者模式可以看到所需信息有对应的HTML显式结构但代码爬取时发现结构被hidden需要二次加载importrequests urlhttps://movie.douban.com/subject/36907263/headers{User-Agent:Mozilla/5.0}responserequests.get(url,headersheaders)print(response.text)即便使用selenium将修改type属性让其不隐藏再取出被隐藏的数据也不行fromseleniumimportwebdriver driverwebdriver.Chrome()driver.get(https://movie.douban.com/subject/36907263/)jsdocument.getElementById(red).typetext;driver.execute_script(js)contentdriver.find_element(byid,valuered).textprint(content)driver.quit()其实我觉得这个逻辑是对的但结果非预期求助是不是哪块代码没写对 T^T 想打印下修改后的HTML也没打印出来 o(╥﹏╥)oDEBUGSelenium 的核心功能是模拟用户在浏览器中的操作所以只需要增加等待时间等待页面全部加载出来即可。加载后的页面就是我们在浏览器开发者模式下看到的全部HTML结构。fromseleniumimportwebdriverimporttime driverwebdriver.Chrome()driver.get(https://movie.douban.com/subject/36907263/)time.sleep(5)# 等待页面加载contentdriver.find_element(byid,valueinfo).textprint(content)driver.quit()注意加载后要找的就是加载后的数据即idinfo不再是之前的idred。