如何避免Puppeteer被前端JS检测
工具和資料
- QQ群 - Javascript高級爬蟲https://jq.qq.com/?_wv=1027&k=5Bcu3YU -作者自建群,歡迎加入!
- 中國商標網(wǎng)加密接口https://github.com/rockswang/wsjs.saic.mmewmd? -僅做演示
- awesome-jave-crawlerhttps://github.com/rockswang/awesome-java-crawler?- 作者收集的爬蟲相關工具和資料
前言
這兩天開始看puppeteer,發(fā)現(xiàn)居然也能被某數(shù)的前端js檢測出來!?
github的issue區(qū)找了找,原來puppeteer啟動的chrome里面,是有navigator.webdriver屬性的,搞什么搞么,老外真是做那啥還要立牌坊......
方案1
issue區(qū)里看到的解決方案:
await this.page.evaluateOnNewDocument(() => {Object.defineProperty(navigator, 'webdriver', {get: () => undefined,}); }但是說實話這個還是有點問題的,因為用"webdriver" in navigator還是能檢測出來。
方案2
想找找到底哪個環(huán)節(jié)把"webdriver"屬性加上的,但是文本搜索發(fā)現(xiàn)puppeteer源碼中并沒有......
后來chrome中用chrome:version看了一下命令行啟動參數(shù),結(jié)果發(fā)現(xiàn)了這個:"--enable-automation" ......
一看就有問題,為了確認特意搜了一下這個命令行參數(shù)的說明:
--enable-automation: Inform users that their browser is being controlled by an automated test.
確認了可以干掉了,啟動chrome時加個忽略默認參數(shù)即可:
const browser = await puppeteer.launch({ignoreDefaultArgs: ["--enable-automation"]});
總結(jié)
以上是生活随笔為你收集整理的如何避免Puppeteer被前端JS检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020HW必备-蜜罐如何在攻防演练中战
- 下一篇: 滑动验证前端代码实现