libxml解析xml文件的一些总结
參考
XML
介紹:XML 和 DOM
XML是eXtensible Markup Language的縮寫,它是一種可擴展性標識語言, 能夠讓你自己創(chuàng)造標識,標識你所表示的內容。DOM全稱是Document Object Model(文檔對象模型),定義了一組與平臺和語言無關的接口,以便程序和腳本能夠動態(tài)訪問和修改XML文檔內容、結構及樣式。XML創(chuàng)建了標識,而 DOM的作用就是告訴程序如何操作和顯示這些標識。
XML將數(shù)據(jù)組織成為一棵樹,DOM通過解析XML文檔,為XML文檔在邏輯上建立一個樹模型,樹的節(jié)點是一個個的對象。這樣通過操作這棵樹和這些對象就可以完成對XML文檔的操作,為處理文檔的所有方面提供了一個完美的概念性框架。
XML 中共有12種節(jié)點類型,其中最常見的節(jié)點類型有5種:
元素libxml
介紹
本文所介紹的 libxml 是針對 C 語言的一套 API 接口。其他如 ruby,python 亦有對應的基于 libxml 開發(fā)的綁定庫接口。
數(shù)據(jù)類型 — xmlChar
在 libXml 中用 xmlChar 替代 char , XML 使用 UTF-8 編碼的一字節(jié)字符串。如果你的數(shù)據(jù)使用其它編碼,它必須被轉換到 UTF-8 才能使用libxml的函數(shù)。
如同標準 C 中的 char 類型一樣, xmlChar 也有動態(tài)內存分配、字符串操作等相關函數(shù)。例如 xmlMalloc 是動態(tài)分配內存的函數(shù); xmlFree 是配套的釋放內存函數(shù); xmlStrcmp 是字符串比較函數(shù)等等。基本上 xmlChar 字符串相關函數(shù)都在xmlstring.h 中定義;而動態(tài)內存分配函數(shù)在 xmlmemory.h 中定義。另外要注意,因為總是要在 xmlChar* 和 char* 之間進行類型轉換,所以定義了一個宏 BAD_CAST ,其定義如下: xmlstring.h
#define BAD_CAST (xmlChar *)原則上來說, unsigned char 和 char 之間進行強制類型轉換是沒有問題的。
數(shù)據(jù)結構
xmlDoc可以看到,節(jié)點之間是以鏈表和樹兩種方式同時組織起來的,next和prev指針可以組成鏈表,而parent和children可以組織為樹。所有節(jié)點都是文檔 xmlDoc 節(jié)點的直接或間接子節(jié)點。同時還有以下重要元素:
- 節(jié)點中的文字內容: content ;
- 節(jié)點所屬文檔: doc ;
- 節(jié)點名字: name ;
- 節(jié)點的 namespace: ns ;
- 節(jié)點屬性列表: properties ;
xml 文檔的操作其根本原理就是在節(jié)點之間移動、查詢節(jié)點的各項信息,并進行增加、刪除、修改的操作。 xmlDocSetRootElement 函數(shù)可以將一個節(jié)點設置為某個文檔的根節(jié)點,這是將文檔與節(jié)點連接起來的重要手段,當有了根結點以后,所有子節(jié)點就可以依次連接上根節(jié)點,從而組織成為一個 xml 樹。
創(chuàng)建 XML 文檔
創(chuàng)建一個 XML 文檔流程如下:
示例
下面用一個例子說明一些函數(shù)的使用,和創(chuàng)建一個 XML 文檔的大致步驟:
#include <stdio.h> #include <stdlib.h> #include <libxml/parser.h> #include <libxml/tree.h>int main (int argc, char **argv) {xmlDocPtr pdoc = NULL;xmlNodePtr proot_node = NULL,pnode = NULL,pnode1 = NULL;// 創(chuàng)建一個新文檔并設置 root 節(jié)點 // 一個 XML 文件只有一個 root 節(jié)點 pdoc = xmlNewDoc (BAD_CAST "1.0");proot_node = xmlNewNode (NULL, BAD_CAST "根節(jié)點");xmlNewProp (proot_node, BAD_CAST "版本", BAD_CAST "1.0");xmlDocSetRootElement (pdoc, proot_node);pnode = xmlNewNode (NULL, BAD_CAST "子節(jié)點1");// 創(chuàng)建上面 pnode 的子節(jié)點 xmlNewChild (pnode, NULL, BAD_CAST "子子節(jié)點1", BAD_CAST "信息");// 添加子節(jié)點到 root 節(jié)點 xmlAddChild (proot_node, pnode);pnode1 = xmlNewNode (NULL, BAD_CAST "子子節(jié)點1");xmlAddChild (pnode, pnode1);xmlAddChild (pnode1,xmlNewText (BAD_CAST "這是更低的節(jié)點,子子子節(jié)點1"));// 還可以這樣直接創(chuàng)建一個子節(jié)點到 root 節(jié)點上 xmlNewTextChild (proot_node, NULL, BAD_CAST "子節(jié)點2", BAD_CAST "子節(jié)點2的內容");xmlNewTextChild (proot_node, NULL, BAD_CAST "子節(jié)點3", BAD_CAST "子節(jié)點3的內容");// 保存 xml 為文件,如果沒有給出文件名參數(shù),就輸出到標準輸出 xmlSaveFormatFileEnc (argc > 1 ? argv[1]:"-", pdoc, "UTF-8", 1);// 釋放資源 xmlFreeDoc (pdoc);xmlCleanupParser ();xmlMemoryDump ();return 0; }編譯這個例子,先看看系統(tǒng)里面的 libxml2 庫的 pkgconfig 信息:
root@jianlee:~/lab/xml# cat /usr/lib/pkgconfig/libxml-2.0.pc prefix=/usr exec_prefix=${prefix} libdir=${exec_prefix}/lib includedir=${prefix}/include modules=1Name: libXML Version: 2.6.32 Description: libXML library version2. Requires: Libs: -L${libdir} -lxml2 Libs.private: -lz -lm Cflags: -I${includedir}/libxml2root@jianlee:~/lab/xml# pkg-config libxml-2.0 --cflags --libs -I/usr/include/libxml2 -lxml2編譯:
root@jianlee:~/lab/xml# gcc -Wall `pkg-config libxml-2.0 --cflags --libs` create_xml.c如果沒有修改源程序,輸出應該是這樣:
root@jianlee:~/lab/xml# ./a.out <?xml version="1.0" encoding="UTF-8"?> <根節(jié)點 版本="1.0"><子節(jié)點1><子子節(jié)點1>信息</子子節(jié)點1><子子節(jié)點1>這是更低的節(jié)點,子子子節(jié)點1</子子節(jié)點1></子節(jié)點1><子節(jié)點2>子節(jié)點2的內容</子節(jié)點2><子節(jié)點3>子節(jié)點3的內容</子節(jié)點3> </根節(jié)點>示例補充說明
輸出的各節(jié)點不要在一行
上面使用下面方式保存 xml 文檔,輸出的文件各子節(jié)點間自動加入回車:
// 保存 xml 為文件,如果沒有給出文件名參數(shù),就輸出到標準輸出xmlSaveFormatFileEnc (argc > 1 ? argv[1]:"-", pdoc, "UTF-8", 1);如果把上面的 1 換成 0 ,輸出格式是放在一行。
用到的函數(shù)說明
上面涉及幾個函數(shù)和類型定義,不過意思很明了,下面解釋一個(重要的是自己動手寫程序,反復實驗,所謂熟能生巧)。
xmlDocPtr最后顯示是這個樣子:
<根節(jié)點 版本="1.0"> xmlDocSetRootElement會出現(xiàn)下面的結果:
<子子節(jié)點1>這是更低的節(jié)點,子子子節(jié)點1</子子節(jié)點1> xmlNewTextChild解析 XML 文檔
解析一個xml文檔,從中取出想要的信息,例如節(jié)點中包含的文字,或者某個節(jié)點的屬性,其流程如下:
- 用 xmlReadFile 函數(shù)讀出一個文檔指針 doc ;
- 用 xmlDocGetRootElement 函數(shù)得到根節(jié)點 curNode ;
- curNode->xmlChildrenNode 就是根節(jié)點的子節(jié)點集合 ;
- 輪詢子節(jié)點集合,找到所需的節(jié)點,用 xmlNodeGetContent 取出其內容 ;
- 用 xmlHasProp 查找含有某個屬性的節(jié)點 ;
- 取出該節(jié)點的屬性集合,用 xmlGetProp 取出其屬性值 ;
- 用 xmlFreeDoc 函數(shù)關閉文檔指針,并清除本文檔中所有節(jié)點動態(tài)申請的內存。
注意: 節(jié)點列表的指針依然是 xmlNodePtr ,屬性列表的指針也是 xmlAttrPtr ,并沒有 xmlNodeList 或者 xmlAttrList 這樣的類型 。看作列表的時候使用它們的 next 和 prev 鏈表指針來進行輪詢 。只有在 Xpath 中有 xmlNodeSet 這種類型。
示例
#include <stdio.h> #include <stdlib.h> #include <libxml/parser.h> #include <libxml/tree.h>int main (int argc , char **argv) {xmlDocPtr pdoc = NULL;xmlNodePtr proot = NULL, curNode = NULL;char *psfilename;if (argc < 1){printf ("用法: %s xml文件名\n", argv[0]);exit (1);}psfilename = argv[1];// 打開 xml 文檔 //xmlKeepBlanksDefault(0); pdoc = xmlReadFile (psfilename, "UTF-8", XML_PARSE_RECOVER);if (pdoc == NULL){printf ("打開文件 %s 出錯!\n", psfilename);exit (1);}// 獲取 xml 文檔對象的根節(jié)對象 proot = xmlDocGetRootElement (pdoc);if (proot == NULL){printf("錯: %s 是空文檔(沒有root節(jié)點)!\n", psfilename);exit (1);}/* 我使用上面程序創(chuàng)建的 xml 文檔,它的根節(jié)點是“根節(jié)點”,這里比較是否正確。*/if (xmlStrcmp (proot->name, BAD_CAST "根節(jié)點") != 0){printf ("錯誤文檔" );exit (1);}/* 如果打開的 xml 對象有 version 屬性,那么就輸出它的值。 */if (xmlHasProp (proot, BAD_CAST "版本")){xmlChar *szAttr = xmlGetProp (proot, BAD_CAST "版本");printf ("版本: %s \n根節(jié)點:%s\n" , szAttr, proot->name);}else{printf (" xml 文檔沒有版本信息\n");}curNode = proot->xmlChildrenNode;char n=0;while (curNode != NULL){if (curNode->name != BAD_CAST "text"){printf ("子節(jié)點%d: %s\n", n++,curNode->name);}curNode = curNode->next;}/* 關閉和清理 */xmlFreeDoc (pdoc);xmlCleanupParser ();return 0; }編譯運行(使用上例創(chuàng)建的 my.xml 文件):
root@jianlee:~/lab/xml# cat my.xml <?xml version="1.0" encoding="UTF-8"?> <根節(jié)點 版本="1.0"><子節(jié)點1><子子節(jié)點1>信息</子子節(jié)點1><子子節(jié)點1>這是更低的節(jié)點,子子子節(jié)點1</子子節(jié)點1></子節(jié)點1><子節(jié)點2>子節(jié)點2的內容</子節(jié)點2><子節(jié)點3>子節(jié)點3的內容</子節(jié)點3> </根節(jié)點> root@jianlee:~/lab/xml# gcc -Wall `pkg-config libxml-2.0 --cflags --libs` read_xml.c root@jianlee:~/lab/xml# ./a.out my.xml 版本: 1.0 根節(jié)點:根節(jié)點 子節(jié)點0: text 子節(jié)點1: 子節(jié)點1 子節(jié)點2: text 子節(jié)點3: 子節(jié)點2 子節(jié)點4: text 子節(jié)點5: 子節(jié)點3 子節(jié)點6: text為什么 my.xml 文件中顯示只有 ”子節(jié)點1“、 ”子節(jié)點2“和 “子節(jié)點3”三個子節(jié)點,而程序顯示有 7 個子節(jié)點呢?!而且 0、2、4、6 都是 text 名字?
這是因為其他四個分別是元素前后的空白文本符號,而 XML 把它們也當做一個 Node !元素是 Node 的一種類型。XML 文檔對象模型 (DOM) 定義了幾種不同的 Nodes 類型,包括 Elements(如 files 或者 age)、Attributes(如 units)和 Text(如 root 或者 10)。元素可以具有子節(jié)點。
在打開 xml 文檔之前加上一句(取消上面程序中的此句注釋就可以):
xmlKeepBlanksDefault(0);或者使用下面參數(shù)讀取 xml 文檔:
//讀取xml文件時忽略空格 doc = xmlReadFile(docname, NULL, XML_PARSE_NOBLANKS);這樣就可以按我們所想的運行了:
root@jianlee:~/lab/xml# gcc -Wall `pkg-config libxml-2.0 --cflags --libs` read_xml.c root@jianlee:~/lab/xml# ./a.out my.xml 版本: 1.0 根節(jié)點:根節(jié)點 子節(jié)點0: 子節(jié)點1 子節(jié)點1: 子節(jié)點2 子節(jié)點2: 子節(jié)點3還有一點注意: my.xml 文件中的子節(jié)點名字一次是 “子節(jié)點1”、“子節(jié)點2”、 “子節(jié)點3”。程序中的 n 值確是從 0 開始計算。從 0 還是 1 是個人喜好。我有時候喜好從 0 開始,有時候喜好從 1 開始。
xmlFreeDoc修改 xml 文檔
首先打開一個已經(jīng)存在的xml文檔,順著根結點找到需要添加、刪除、修改的地方,調用相應的xml函數(shù)對節(jié)點進行增、刪、改操作。
刪除節(jié)點
刪除節(jié)點使用下面方法:
if (!xmlStrcmp(curNode->name, BAD_CAST "newNode1")){xmlNodePtr tempNode;tempNode = curNode->next;xmlUnlinkNode(curNode);xmlFreeNode(curNode);curNode = tempNode;continue;}即將當前節(jié)點從文檔中斷鏈(unlink),這樣本文檔就不會再包含這個子節(jié)點。這樣做需要使用一個臨時變量來存儲斷鏈節(jié)點的后續(xù)節(jié)點,并記得要手動刪除斷鏈節(jié)點的內存。
示例
#include <stdio.h> #include <stdlib.h> #include <libxml/parser.h>int main(int argc, char* argv[]) {xmlDocPtr doc; //定義解析文檔指針 xmlNodePtr curNode; //定義結點指針(你需要它為了在各個結點間移動) char *szDocName;if (argc <= 1){printf("Usage: %s docname\n", argv[0]);return(0);}szDocName = argv[1];xmlKeepBlanksDefault(0);doc = xmlReadFile(szDocName,"UTF-8",XML_PARSE_RECOVER); //解析文件 if (NULL == doc){fprintf(stderr,"Document not parsed successfully. \n");return -1;}curNode = xmlDocGetRootElement(doc);/*檢查確認當前文檔中包含內容*/if (NULL == curNode){fprintf(stderr,"empty document\n");xmlFreeDoc(doc);return -1;}curNode = curNode->children;while (NULL != curNode){//刪除 "子節(jié)點1" if (!xmlStrcmp(curNode->name, BAD_CAST "子節(jié)點1")){xmlNodePtr tempNode;tempNode = curNode->next;xmlUnlinkNode(curNode);xmlFreeNode(curNode);curNode = tempNode;continue;}//修改 "子節(jié)點2" 的屬性值 if (!xmlStrcmp(curNode->name, BAD_CAST "子節(jié)點2")){xmlSetProp(curNode,BAD_CAST "屬性1", BAD_CAST "設置");}//修改 “子節(jié)點2” 的內容 if (!xmlStrcmp(curNode->name, BAD_CAST "子節(jié)點2")){xmlNodeSetContent(curNode, BAD_CAST "內容變了");}//增加一個屬性 if (!xmlStrcmp(curNode->name, BAD_CAST "子節(jié)點3")){xmlNewProp(curNode, BAD_CAST "新屬性", BAD_CAST "有");}//增加 "子節(jié)點4" if (!xmlStrcmp(curNode->name, BAD_CAST "子節(jié)點3")){xmlNewTextChild(curNode, NULL, BAD_CAST "新子子節(jié)點1", BAD_CAST "新內容");}curNode = curNode->next;}// 保存文件 xmlSaveFormatFileEnc (szDocName, doc,"UTF-8",1);xmlFreeDoc (doc);xmlCleanupParser ();xmlMemoryDump ();return 0; }編譯運行:
root@jianlee:~/lab/xml# cat my.xml <?xml version="1.0" encoding="UTF-8"?> <根節(jié)點 版本="1.0"><子節(jié)點1><子子節(jié)點1>信息</子子節(jié)點1><子子節(jié)點1>這是更低的節(jié)點,子子子節(jié)點1</子子節(jié)點1></子節(jié)點1><子節(jié)點2>子節(jié)點2的內容</子節(jié)點2><子節(jié)點3>子節(jié)點3的內容</子節(jié)點3> </根節(jié)點> root@jianlee:~/lab/xml# gcc -Wall `pkg-config libxml-2.0 --cflags --libs` modify_xml.c root@jianlee:~/lab/xml# ./a.out my.xml root@jianlee:~/lab/xml# cat my.xml <?xml version="1.0" encoding="UTF-8"?> <根節(jié)點 版本="1.0"><子節(jié)點2 屬性1="設置">內容變了</子節(jié)點2><子節(jié)點3 新屬性="有">子節(jié)點3的內容<新子子節(jié)點1>新內容</新子子節(jié)點1></子節(jié)點3> </根節(jié)點> root@jianlee:~/lab/xml# ./a.out my.xml # 看看再運行一次的結果! root@jianlee:~/lab/xml# cat my.xml <?xml version="1.0" encoding="UTF-8"?> <根節(jié)點 版本="1.0"><子節(jié)點2 屬性1="設置">內容變了</子節(jié)點2><子節(jié)點3 新屬性="有" 新屬性="有">子節(jié)點3的內容<新子子節(jié)點1>新內容</新子子節(jié)點1><新子子節(jié)點1>新內容</新子子節(jié)點1></子節(jié)點3> </根節(jié)點>Xpath — 處理大型 XML 文檔
libxml2 庫函數(shù)
要注意的函數(shù)
xmlKeepBlanksDefault
int xmlKeepBlanksDefault (int val)設置是否忽略空白節(jié)點,比如空格,在分析前必須調用,默認值是0,最好設置成1.
xmlKeepBlanksDefault(0) 除了在讀入xml文件時忽略空白之外,還會在寫出xml 文件時在每行前面放置縮進(indent)。如果使用xmlKeepBlanksDefault(1) 則你會發(fā)現(xiàn)每行前面的縮進就沒有了,但不會影響回車換行。
xmlSaveFormatFile
// 保存 xml 為文件,如果沒有給出文件名參數(shù),就輸出到標準輸出xmlSaveFormatFileEnc (argc > 1 ? argv[1]:"-", pdoc, "UTF-8", 1);xmlSaveFormatFile 的 format 參數(shù)設置成 0,保存后的 xml 文檔里是會把所有的結點都放到一行里顯示。設置為 1,就可以自動添加回車。
讀取 xml 文件
xmlParseFile
xmlDocPtr xmlParseFile (const char * filename)以默認方式讀入一個 UTF-8 格式的 xml 文檔, 并返回一個文檔對象指針 <libxml/tree.h>
xmlReadFile
指定編碼讀取一個 xml 文檔,返回指針。
xml 操作基本結構及其指針類型
xmlDoc, xmlDocPtr
文檔對象的結構體及其指針
xmlNode, xmlNodePtr
節(jié)點對象的結構體及其指針
xmlAttr, xmlAttrPtr
節(jié)點屬性的結構體及其指針
xmlNs, xmlNsPtr
節(jié)點命名空間的結構及其指針
根節(jié)點相關函數(shù)
xmlDocGetRootElement
xmlNodePtr xmlDocGetRootElement (xmlDocPtr doc) 獲取文檔根節(jié)點xmlDocSetRootElement
xmlNodePtr xmlDocSetRootElement (xmlDocPtr doc, xmlNodePtr root) 設置文檔根節(jié)點創(chuàng)建子節(jié)點相關函數(shù)
xmlNewNode
xmlNodePtr xmlNewNode (xmlNsPtr ns, const xmlChar * name) 創(chuàng)建新節(jié)點xmlNewChild
xmlNodePtr xmlNewChild (xmlNodePtr parent, xmlNsPtr ns, const xmlChar * name, const xmlChar * content) 創(chuàng)建新的子節(jié)點xmlCopyNode
xmlNodePtr xmlCopyNode (const xmlNodePtr node, int extended) 復制當前節(jié)點添加子節(jié)點相關函數(shù)
xmlAddChild
xmlNodePtr xmlAddChild (xmlNodePtr parent, xmlNodePtr cur) 給指定節(jié)點添加子節(jié)點xmlAddNextSibling
xmlNodePtr xmlAddNextSibling (xmlNodePtr cur, xmlNodePtr elem) 添加后一個兄弟節(jié)點xmlAddPrevSibling
xmlNodePtr xmlAddPrevSibling (xmlNodePtr cur, xmlNodePtr elem) 添加前一個兄弟節(jié)點xmlAddSibling
xmlNodePtr xmlAddSibling (xmlNodePtr cur, xmlNodePtr elem) 添加兄弟節(jié)點屬性相關函數(shù)
xmlNewProp
xmlAttrPtr xmlNewProp (xmlNodePtr node, const xmlChar * name, const xmlChar * value) 創(chuàng)建新節(jié)點屬性xmlGetProp
xmlChar * xmlGetProp (xmlNodePtr node, const xmlChar * name) 讀取節(jié)點屬性xmlSetProp
xmlAttrPtr xmlSetProp (xmlNodePtr node, const xmlChar * name, const xmlChar * value) 設置節(jié)點屬性總結
以上是生活随笔為你收集整理的libxml解析xml文件的一些总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: thinkphp的增删改查
- 下一篇: PRML(2)--绪论(下)模型选择、纬