日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索引擎蜘蛛爬虫 User Agent 一览(便于采集)

發布時間:2024/3/26 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 搜索引擎蜘蛛爬虫 User Agent 一览(便于采集) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天分析研究了兩個網站的 Apache 日志,分析日志雖然很無聊,但卻是很有意義的事情,比如跟蹤 SPAM?的 User Agent。順便整理出一些搜索引擎爬蟲的 User Agent,在這里分享一下,也歡迎補充。

?

微軟

?

“msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”
msnbot,大多數已經被bingbot替代了,現在偶爾還可以看到。

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
bing,必應

搜搜

“Sosospider+(+http://help.soso.com/webspider.htm)”
騰訊搜搜

“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”
搜搜圖片

雅虎

“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
雅虎英文

“Yahoo! Slurp China”
“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎中國

搜狗

“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗圖片

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗,搜狗的蜘蛛程序做的很不好,總是進入死循環,已經分別在?robots.txt?和 設置中屏蔽掉

?

Google

“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Google

“Googlebot-Image/1.0”
Google圖片搜索

“Mediapartners-Google”
未知

“FeedBurner/1.0 (http://www.FeedBurner.com)”
feedburner

“AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari”
Adwords移動網絡

百度

“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”
百度圖片

“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
親愛的百度蜘蛛

“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)”
baidu+Transcoder 是用戶用手機瀏覽網站留下的記錄,Transcoder 是代碼轉換器,把網站轉碼成手機用戶上網看到的網頁留下的記錄

360

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider
360搜索

其他搜索引擎

“Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )”
網易有道

“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)”
來自瑞典的搜索引擎,網站看起來很不錯,http://www.entireweb.com

“jikespider \”Mozilla/5.0”
即刻搜索,原人民搜索,搜索引擎國家隊,已倒閉

“Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
俄羅斯yandex

Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)
宜搜,不認識,一直不停抓取,已屏蔽

其他已知bot

“HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/cn/IRL/spider)”
華為賽門鐵克蜘蛛,是華為賽門鐵克科技有限公司網頁信譽分析系統的一個頁面爬取程序,其作用是用于爬取互聯網網頁并進行信譽分析,從而檢查該網站上的是否含有惡意代碼。
http://baike.baidu.com/view/5994606.htm

qiniu-imgstg-spider-1.0
七牛鏡像蜘蛛

“xFruits/1.0 (http://www.xfruits.com)”
xFruits,聚合rss用的

Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)
Feedly,Google Reader 關閉后一直用這個

Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;1 subscribers;)
有道閱讀

FeedDemon/4.5 (http://www.feeddemon.com/; Microsoft Windows)
一款離線RSS閱讀器

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)”
監控寶

DNSPod-Monitor/2.0
DNSPod監控

“Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)”
Feedsky

“Xianguo.com 1 Subscribers”
鮮果

360spider(http://webscan.360.cn)
360網站安全檢測

“yrspider Mozilla/5.0 (compatible; YRSpider; +http://www.yunrang.com/yrspider.html)”
云壤公司,http://www.yunrang.com/yrspider.html

其他未知bot

“Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; EmbeddedWB 14.52 from: http://www.bsalsa.com/ EmbeddedWB 14.52; .NET CLR 2.0.50727)”
懷疑為發布SPAM用的,因為總是在獲取注冊頁面和驗證碼

Mozilla/5.0 (compatible; LinkpadBot/1.06; +http://www.linkpad.ru)
LinkpadBot,看域名知道是來自俄羅斯的

Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
又一個國外的

“Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+)”
來自英國的未知bot

“Mozilla/5.0 (compatible; Ezooms/1.0;?ezooms.bot@gmail.com)”
未知

“IS Alpha/Nutch-1.1”
未知

Nutch Spider/Nutch-2.2.1
貌似是上面那個進化來的

“BlogPulseLive (support@blogpulse.com)”

“findlinks/2.0.2 (+http://wortschatz.uni-leipzig.de/findlinks/)”
來自德國的未知bot

“Mozilla/4.0 (compatible; MSIE 6.0;?AugustBot/augstbot@163.com)”
未知,貌似與網易有關

“InternetSeer.com”
未知

“Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/,?crawler@dotnetdotcom.org)”
未知,已更新為下面的

Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot,?help@moz.com)
DotBot,不認識

“http://www.internet-zarabotok.net/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Win64; AMD64)”
來自俄羅斯的未知bot

Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.19; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/2010040121 Firefox/3.0.19
Spinn3r,不認識

Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Exabot,還是不認識

Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
Exabot,不認識

psbot/0.1 (+http://www.picsearch.com/bot.html)
psbot,不認識

TurnitinBot/3.0 (http://www.turnitin.com/robot/crawlerinfo.html)
TurnitinBot,不認識

總結

以上是生活随笔為你收集整理的搜索引擎蜘蛛爬虫 User Agent 一览(便于采集)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。