r语言 xmlto html,R语言XML文件
XML是萬維網上使用標準ASCII文本,內部網和其他地方共享文件格式和數據的文件格式。 它代表可擴展標記語言(XML)。 與HTML類似,它包含標記標簽。但與標記標簽描述頁面結構的HTML不同,標記標簽描述了文件中包含的數據的含義。
可以使用“XML”包讀取R中的xml文件,使用以下命令安裝此軟件包。
install.packages("XML")
準備XML文件數據
通過將以下數據復制到文本編輯器(如記事本)中來創建XMl文件。 使用.xml擴展名保存文件,并將文件類型選為所有文件(*.*)。創建一個XML文件:input.xml,內容如下 –
1
Rick
623.3
1/1/2012
IT
2
Dan
515.2
9/23/2013
Operations
3
Michelle
611
11/15/2014
IT
4
Ryan
729
5/11/2014
HR
5
Gary
843.25
3/27/2015
Finance
6
Nina
578
5/21/2013
IT
7
Simon
632.8
7/30/2013
Operations
8
Guru
722.5
6/17/2014
Finance
讀取XML文件
R使用xmlParse()函數來讀取xml文件,它作為列表存儲在R中。
# Load the package required to read XML files.
library("XML")
# Also load the other required package.
library("methods")
# Give the input file name to the function.
result
# Print the result.
print(result)
當我們執行上述代碼時,會產生以下結果 –
1
Rick
623.3
1/1/2012
IT
2
Dan
515.2
9/23/2013
Operations
3
Michelle
611
11/15/2014
IT
4
Ryan
729
5/11/2014
HR
5
Gary
843.25
3/27/2015
Finance
6
Nina
578
5/21/2013
IT
7
Simon
632.8
7/30/2013
Operations
8
Guru
722.5
6/17/2014
Finance
獲取XML文件中存在的節點數
# Load the packages required to read XML files.
library("XML")
library("methods")
# Give the input file name to the function.
result
# Exract the root node form the xml file.
rootnode
# Find number of nodes in the root.
rootsize
# Print the result.
print(rootsize)
當我們執行上述代碼時,會產生以下結果 –
output
[1] 8
第一個節點的詳細信息
下面來看看如何解析文件的第一條記錄,它將給出對頂級節點中存在的各種元素的詳細信息。
# Load the packages required to read XML files.
library("XML")
library("methods")
# Give the input file name to the function.
result
# Exract the root node form the xml file.
rootnode
# Print the result.
print(rootnode[1])
當我們執行上述代碼時,會產生以下結果 –
$EMPLOYEE
1
Rick
623.3
1/1/2012
IT
attr(,"class")
[1] "XMLInternalNodeList" "XMLNodeList"
獲取節點的其它元素
# Load the packages required to read XML files.
library("XML")
library("methods")
# Give the input file name to the function.
result
# Exract the root node form the xml file.
rootnode
# Get the first element of the first node.
print(rootnode[[1]][[1]])
# Get the fifth element of the first node.
print(rootnode[[1]][[5]])
# Get the second element of the third node.
print(rootnode[[3]][[2]])
當我們執行上述代碼時,會產生以下結果 –
1
IT
Michelle
XML轉到數據幀
為了在大文件中有效處理數據,我們以xml文件的形式讀取數據作為數據幀。然后處理數據幀進行數據分析。
# Load the packages required to read XML files.
library("XML")
library("methods")
# Convert the input xml file to a data frame.
xmldataframe
print(xmldataframe)
當我們執行上述代碼時,會產生以下結果 –
ID NAME SALARY STARTDATE DEPT
1 1 Rick 623.3 1/1/2012 IT
2 2 Dan 515.2 9/23/2013 Operations
3 3 Michelle 611 11/15/2014 IT
4 4 Ryan 729 5/11/2014 HR
5 5 Gary 843.25 3/27/2015 Finance
6 6 Nina 578 5/21/2013 IT
7 7 Simon 632.8 7/30/2013 Operations
8 8 Guru 722.5 6/17/2014 Finance
由于數據現在已經轉為數據幀,所以我們可以使用數據幀相關函數來讀取和操作文件。
總結
以上是生活随笔為你收集整理的r语言 xmlto html,R语言XML文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html背景图片自适应纵向,HTML5
- 下一篇: java中的方法 net.中的函数_.N