分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”
分析2000余張馬蜂窩游記照片,只為找到泰國芭提雅最美“小姐姐”
?
?
相信去過泰國旅游的小伙伴,無論是泰國的美食還是美景都讓大家流連忘返。另一深刻印象便是泰國人妖啦,據老司機透露,泰國人妖秀場主要分布在芭提雅、普吉島、曼谷、清邁等地。
?
而這其中尤其又以芭提雅的蒂芬妮人妖秀最為出名,每年的泰國人妖選美大賽,選出的冠亞季軍,就在芭提雅的蒂芬妮人妖秀劇場里。本文主要基于蒂芬妮人妖秀的游記圖片進行分析,尋找出蒂芬妮人妖秀最美人妖。
?
?
?
1
準備工作
?
本文涉及知識點較多,主要包括:爬蟲、人臉識別、圖像處理等。
?
編程環境為:anaconda。需要安裝的依賴庫有:
-
selenium
-
baidu-aip
-
opencv-python。
?
本次使用的瀏覽器為Chrome瀏覽器,由于Selenium中沒有自帶Chrome驅動,需要單獨下載Chromedriver.exe最新版本,下載地址為:http://npm.taobao.org/mirrors/chromedriver/。
?
?
2
?
?
數據獲取,本次數據獲取主要基于馬蜂窩旅游網,進行圖像數據獲取。
?
1).利用selenium進行爬取
目前只有極少數網站會對Selenium中的WebDriver進行識別反爬,本文采用Selenium控制瀏覽器來訪問網頁,這種方式雖然速度較慢,卻能夠自動解析網頁中的JavaScript代碼,其訪問行為與人類無異,難以被反爬蟲程序識別。頁面解析不作過多介紹,程序如下:
?
?
在保證網絡穩定的情況下,整個下載過程還是相對順暢的。至此,除去異常圖片,共下載圖片2004張(這種方法的確很耗時)。
?
?
3
顏值打分
?
?
1).人臉檢測并對顏值打分
純手工打造一款人臉檢測及顏值打分系統是一個龐大的工程,還好現在市面上已經有了一些免費的產品。優點當然是方便,繞過了算法,一個函數搞定。缺點也比較明顯,無法搞清楚其對顏值的評判算法。不過顏值這個東西也是仁者見仁智者見智啦。
?
登錄百度AI開放平臺(http://ai.baidu.com/),進入控制臺—人臉識別欄目,創建相關應用,最終獲得APP_ID、API_KEY、SECRET_KEY三個數據。
?
?
?
2).調用百度api
獲取每張圖片的顏值評分。通過循環讀取每張圖片,首先判斷圖片是否含有人臉(不含人臉的圖片過濾掉);然后判斷每張圖片的人臉顏值得分;再將“圖片地址、圖片顏值得分”存入數據框;得到含有“imagePath、beautyScore”數據框;最后再按顏值得分由高到底排序,得到顏值最高人妖圖片。
?
程序運行結果如下:
?
從結果來看,含有人臉的圖片共969張:
最高得分為93.1分(這也是唯一一位得分90分以上的人妖);
80分以上25張(占比2.58%);
60分以上300張(占比30.96%)
?
?
4
圖像分類處理
?
?
調用OpenCV圖像處理庫,將得分在80分以上的人妖圖片單獨存在一個文件夾。
?
?
下面讓我們來看一看得分在80分以上的人妖都長啥樣。
?
不知道有多少小伙伴去過泰國旅游,泰國還有很多不錯的景點,尤其是旅游熱門城市普吉島。最后弱弱的問一下,有看過人妖表演的請在留言區吱一聲。
?
另外:本文的爬蟲內容僅供個人學習使用,純屬練習Python提高技術。
?
上次的Python版本投票?還在火熱進行中,目前有近650參與,歡迎參與!
總結
以上是生活随笔為你收集整理的分析2000余张马蜂窝游记照片,只为找到泰国芭提雅最美“小姐姐”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 猎豹的一次面试
- 下一篇: AI:大力出奇迹?Bigger is b