日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用rvest包来抓取Google学术搜索数据

發布時間:2025/3/17 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用rvest包来抓取Google学术搜索数据 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

在這篇文章,主要展示的是如何抓取Google學術網頁。示例展示的是用rvest包來抓取作者博士指導老師的個人學術數據。我們可以看到他的合著者,論文被引用了多少次以及它們的附屬機構。Hadley Wickham在RStudio Blog中寫道:“rvest的靈感來源于類似beautiful soup這樣可以輕易的從HTML網頁抓取數據的一些庫”。因為它被設計成跟magrittr一起使用。我們可以通過一些簡單和易于理解的代碼塊組成的管道操作來表示復雜的操作。

加載R包:

用ggplot2包來作圖

library(rvest) library(ggplot2)

他的論文被引用了多少次?

使用SelectorGadget的CSS選擇器來找出"cited by"列。

page <- read_html("https://scholar.google.com/citations?user=sTR9SIQAAAAJ&hl=en&oi=ao")

在html_nodes()中指定CSS選擇器,html_text()用來提取文本。最后,用as.numernic()將字符串類型轉換為數值類型。

citations <- page %>% html_nodes ("#gsc_a_b .gsc_a_c") %>% html_text()%>%as.numeric()

查看引用此次數:

citations 148 96 79 64 57 57 57 55 52 50 48 37 34 33 30 28 26 25 23 22

繪制引用次數的條形圖:

barplot(citations, main="How many times has each paper been cited?", ylab='Number of citations', col="skyblue", xlab="")


合著者,他們的附屬單位以及被引用的次數

同樣,我們使用SelecotGadget的CSS選擇器來找出匹配的合著者:

page <- read_html("https://scholar.google.com/citations?view_op=list_colleagues&hl=en&user=sTR9SIQAAAAJ") Coauthors = page%>% html_nodes(css=".gsc_1usr_name a") %>% html_text() Coauthors = as.data.frame(Coauthors) names(Coauthors)='Coauthors'

查看下合著者

head(Coauthors) Coauthors 1 ? ? ? ? ? ? ? Jason Evans 2 ? ? ? ? ? ? Mutlu Ozdogan 3 ? ? ? ? ? ?Rasmus Houborg 4 ? ? ? ? ?M. Tugrul Yilmaz 5 Joseph A. Santanello, Jr. 6 ? ? ? ? ? ? ?Seth Guikemadim(Coauthors) [1] 27 ?1

截止到2016年1月1日,他的合著者共有27人。

他的合著者被引用了多少次?

page <- read_html("https://scholar.google.com/citations?view_op=list_colleagues&hl=en&user=sTR9SIQAAAAJ") citations = page%>% html_nodes(css = ".gsc_1usr_cby")%>%html_text()citations [1] "Cited by 2231" ?"Cited by 1273" ?"Cited by 816" ? "Cited by 395" ? "Cited by 652" ? "Cited by 1531" [7] "Cited by 674" ? "Cited by 467" ? "Cited by 7967" ?"Cited by 3968" ?"Cited by 2603" ?"Cited by 3468" [13] "Cited by 3175" ?"Cited by 121" ? "Cited by 32" ? ?"Cited by 469" ? "Cited by 50" ? ?"Cited by 11" ? [19] "Cited by 1187" ?"Cited by 1450" ?"Cited by 12407" "Cited by 1939" ?"Cited by 9" ? ? "Cited by 706" ? [25] "Cited by 336" ? "Cited by 186" ? "Cited by 192"

通過全局替代提取數值字符串

citations = gsub('Cited by','', citations)citations[1] " 2231" ?" 1273" ?" 816" ? " 395" ? " 652" ? " 1531" ?" 674" ? " 467" ? " 7967" ?" 3968" ?" 2603" ?" 3468" ?" 3175" [14] " 121" ? " 32" ? ?" 469" ? " 50" ? ?" 11" ? ?" 1187" ?" 1450" ?" 12407" " 1939" ?" 9" ? ? " 706" ? " 336" ? " 186" ? [27] " 192"

將字符串轉成數值型,再得到ggplot2可用的數據框格式:

citations = as.numeric(citations) citations = as.data.frame(citations)

合著者的附屬機構

page <- read_html("https://scholar.google.com/citations?view_op=list_colleagues&hl=en&user=sTR9SIQAAAAJ") affilation = page %>% html_nodes(css = ".gsc_1usr_aff")%>%html_text() affilation = as.data.frame(affilation) names(affilation)='Affilation'

創建一個由coauthors,citations和affiliation組成的數據框

cauthors=cbind(Coauthors, citations, affilation)cauthors Coauthors citations ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Affilation 1 ? ? ? ? ? ? ? ? ? ? ? ? ?Jason Evans ? ? ?2231 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? University of New South Wales 2 ? ? ? ? ? ? ? ? ? ? ? ?Mutlu Ozdogan ? ? ?1273 ? ?Assistant Professor of Environmental Science and Forest Ecology, University of Wisconsin 3 ? ? ? ? ? ? ? ? ? ? ? Rasmus Houborg ? ? ? 816 ? ? ? ? ? ? ? ? ? ?Research Scientist at King Abdullah University of Science and Technology 4 ? ? ? ? ? ? ? ? ? ? M. Tugrul Yilmaz ? ? ? 395 Assistant Professor, Civil Engineering Department, Middle East Technical University, Turkey 5 ? ? ? ? ? ?Joseph A. Santanello, Jr. ? ? ? 652 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NASA-GSFC Hydrological Sciences Laboratory .....

根據引用次數,對合著者重新排序

根據引用次數對合著者重新排序,以便得到遞減的順序圖:

cauthors$Coauthors <- factor(cauthors$Coauthors, levels = cauthors$Coauthors[order(cauthors$citations, decreasing=F)])ggplot(cauthors,aes(Coauthors,citations))+geom_bar(stat="identity", fill="#ff8c1a",size=5)+ theme(axis.title.y ? = element_blank())+ylab("# of citations")+ theme(plot.title=element_text(size = 18,colour="blue"), axis.text.y = element_text(colour="grey20",size=12))+ggtitle('Citations of his coauthors')+coord_flip()

與他合著的科學家中,有引用超過了12000次。他的學生中像我(圖中最后一個)這樣的剛處在"學走路的階段"。

總結

在這篇文章,我們看到了如何抓取Google學術數據。我抓取了我導師的賬戶,獲得了論文引用次數數據,合著者的附屬機構以及他們被引用的次數。

正如我們在這篇文章所看到的一樣,利用rvest包可以很容易的抓取HTML網頁數據。同樣重要的是,SelectorGadget通過CSS選擇器可以幫助我們找出感興趣的數據。

修正:我的導師告訴我Google學術只收錄了他的小部分合著者。跟他合作發表的一些科學家以及一些引用很多次文章并沒有顯示出來。進一步,上面得到的結果對于有些人來說是不符合常理的(如:資歷更深的人發表了更多的文章卻比資歷淺的人引用的次數更少)。因此,Google學術數據應該謹慎使用。

本文由雪晴數據網負責翻譯整理,原文請參考Google scholar scraping with rvest package作者Fisseha Berhane。轉載請注明原文鏈接http://www.xueqing.cc/cms/article/109

轉載于:https://my.oschina.net/u/2605101/blog/601281

總結

以上是生活随笔為你收集整理的用rvest包来抓取Google学术搜索数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: av色图在线 | 91久精品| 午夜精品久久久久久久96蜜桃 | 日韩av影视大全 | 久艹在线观看 | 草草影院一区二区三区 | 国产无遮挡a片又黄又爽 | 亚洲免费av网站 | 欧美生活一级片 | 大胸美女啪啪 | 黄a在线观看 | 国产精品一区三区 | 欧美精品久久久久性色 | 九一精品国产 | 喷水在线观看 | 国产精品一级无码 | 少妇高潮久久久久久潘金莲 | 青青草原在线免费观看视频 | 国产精品美女www | 日韩一区二区在线视频 | 美女被娇喘视频 | 在线观看视频一区 | 搡老熟女国产 | 午夜影院一区二区三区 | 你懂的网址在线 | 人成亚洲| 99热这里只有精品在线观看 | 亚洲情欲网 | 黄色一级国产 | 深夜福利国产 | 色吧综合网 | 亚洲一区自拍偷拍 | 激情午夜天 | 精品久久久久久久久久久久 | 高清不卡av| 一个人看的www日本高清视频 | 日韩视频a| 国产精品永久久久久久久久久 | 久久国产精品影视 | 亚洲熟妇av一区二区三区漫画 | 激情高潮呻吟抽搐喷水 | 99精品乱码国产在线观看 | 日本久久高清 | 日韩久久免费视频 | 免费在线观看一区 | 色综合亚洲 | 午夜免费视频观看 | 少妇综合网 | 日韩亚洲欧美一区二区三区 | 澳门黄色 | 国产丰满大乳奶水在线视频 | 五月婷在线 | 夜夜操夜夜操 | 极品一区| 大桥未久av一区二区三区中文 | 国产成人精品免高潮费视频 | 一个人在线观看www软件 | 奇米视频在线观看 | 国产三级播放 | 五月天婷婷视频 | 国产91一区二区三区在线精品 | 国产日韩欧美一区二区东京热 | 欧美体内谢she精2性欧美 | 午夜网页 | 欧美国产日韩视频 | 久久国精品 | 在线播放精品视频 | 羽月希奶水一区二区三区 | 99精品视频网站 | 91网在线| 网站免费在线观看 | 97人妻精品一区二区三区视频 | 高清18麻豆 | 中国精品久久久 | 在线观看亚洲色图 | 神马午夜视频 | 91视频国产精品 | 无码人妻少妇色欲av一区二区 | 国产精品国产精品国产专区不片 | 99热网址 | 国内精品99 | 男人把女人捅爽 | 欧美另类自拍 | 日本高清视频在线播放 | 国产欧美久久久精品免费 | 亚欧乱色| 污的网站| 97精品视频在线观看 | 射射综合网 | 国产精品欧美性爱 | 精品动漫一区二区三区的观看方式 | 中文字幕一区在线 | 日韩中文字幕亚洲精品欧美 | 激情伊人 | 99涩涩| 老司机深夜视频 | 91精品婷婷国产综合久久竹菊 | 美国一级特黄 | 啊v视频在线观看 |