日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > 循环神经网络 >内容正文

循环神经网络

用 matlab 爬取期刊影响因子

發(fā)布時(shí)間:2023/12/18 循环神经网络 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用 matlab 爬取期刊影响因子 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原址:https://zhuanlan.zhihu.com/p/25463570

用 matlab 爬取期刊影響因子

“爬蟲(chóng)”這個(gè)詞的火爆多少跟 python 有些聯(lián)系,python 也當(dāng)之無(wú)愧是最適合寫(xiě)爬蟲(chóng)程序的語(yǔ)言。但如果 matlab 用戶想要寫(xiě)個(gè)爬蟲(chóng)程序處理些簡(jiǎn)單任務(wù),大可不必再學(xué) python,matlab同樣提供了獲取 web 數(shù)據(jù)的函數(shù),也能實(shí)現(xiàn)簡(jiǎn)單的爬蟲(chóng)。我來(lái)分享一個(gè)最近遇到的簡(jiǎn)單案例,說(shuō)簡(jiǎn)單卻也比中文互聯(lián)網(wǎng)上能搜到的案例都難些,如果您覺(jué)得閱讀本文有些吃力,不妨先讀這篇文章,[原][Matlab][01] 做一個(gè)簡(jiǎn)單的爬蟲(chóng)或下載器。

任務(wù)是這樣的,老師給我一張 Excel 表格,列了 400 多本期刊的標(biāo)題,然后給了我一個(gè)網(wǎng)址(最新SCI影響因子查詢及期刊投稿分析系統(tǒng)(2015-2016年) - LetPub),讓我從這網(wǎng)站獲取這些期刊的影響因子。這網(wǎng)站可以根據(jù)期刊名返回期刊信息,影響因子就在其中。考慮到鏈接可能失效,我給出一個(gè)截圖,如下。

寫(xiě)這段程序需要用到 webread 函數(shù)、regexp 函數(shù)和正則表達(dá)式,相關(guān)內(nèi)容請(qǐng)參閱用戶手冊(cè)。

我們需要用 webread 函數(shù)向網(wǎng)站提交我們要檢索的期刊名,然后接收網(wǎng)站返回的網(wǎng)頁(yè)源代碼,最后從源代碼中利用正則表達(dá)式提取出影響因子。

提交期刊名時(shí)要在 webread 函數(shù)中指定網(wǎng)站上相關(guān)的變量名和變量值,變量值就是我們要檢索的期刊名。那變量名怎么查看呢,其實(shí)變量名就是輸入期刊名那個(gè) input box 的 id,看圖。

如果你也用 Chrome 瀏覽器,那么右擊 input box,單擊檢查,就會(huì)彈出元素檢查窗口,就可以看到網(wǎng)頁(yè)的源碼了,我們得知 input box 的 id 是 searchname,也就是說(shuō)我們通過(guò) webread 函數(shù)提交的變量名是 searchname。這條語(yǔ)句如下。

url = 'http://www.letpub.com.cn/index.php?page=journalapp&view=search'; source_page = webread(url, 'searchname', char(journal_names(i)));

這樣網(wǎng)頁(yè)源碼就儲(chǔ)存到了 source_page 變量中,接下來(lái)我們從 source_page 中提取出影響因子。類(lèi)似地,我們觀察下包含影響因子的語(yǔ)句。

<td style="border:1px #DDD solid; border-collapse:collapse; text-align:left; padding:8px 8px 8px 8px;">2.603</td>

我們構(gòu)造一個(gè)正則表達(dá)式,并且用 matlab 的 regexp 函數(shù)匹配。

pattern = '>[0-9]\.[0-9][0-9][0-9]<';IF = regexp(source_page, pattern, 'match');

經(jīng)過(guò)試驗(yàn),pattern 兩端的 >< 符號(hào)應(yīng)該保留,不然會(huì)匹配到不想要的結(jié)果。

下面給出完整的包含輸入輸出、循環(huán)的代碼。需要注意的是,如果想運(yùn)行這段代碼需要讀者自行構(gòu)建輸入文件,并且修改代碼中輸入文件的路徑。另請(qǐng)注意,matlab 2015a 以前的版本沒(méi)有 webread 函數(shù),因此該教程不適用。

%% search impact factors from website for prof. Zhou.%% read journal names from the file provided by Zhou statics_filename = 'H:\impact factor\statics20170224.xlsx'; [~, journal_names, ~] = xlsread(statics_filename, 'A2:A475'); %% save the pages from the website and match the impact factors. n = size(journal_names); statics_result = cell(n); for i = 1:nurl = 'http://www.letpub.com.cn/index.php?page=journalapp&view=search'; % provided by Zhousource_page = webread(url, 'searchname', char(journal_names(i)));% match the impact factor from the source.pattern = '>[0-9]\.[0-9][0-9][0-9]<';IF = regexp(source_page, pattern, 'match');IF = strjoin(IF);statics_result(i) = {IF};disp(i);disp(IF); end %% write the statics file. xlswrite(statics_filename, statics, 2);

總結(jié)

以上是生活随笔為你收集整理的用 matlab 爬取期刊影响因子的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。