Open Qingquan-Li opened 7 years ago
(题图:wikipedia.org)
重点: XML语言简介 XML文档编写规范 什么是DOM解析XML DOM解析XML的方法 DOM4J解析XML的方法
重点:
XML (EXtensible Markup Language),可扩展标记语言。
特点:
作用:
<!--声明--> <?xml version="1.0" encoding="UTF-8"?> <!--文档元素描述信息(文档结构)--> <books> <!-- 图书信息--> <book id="bk101"> <author>王珊</author> <title>.NET高级编程</title> <description>包含C#框架和网络编程等</description> </book> <book id="bk102"> <author>李明明</author> <title>XML基础编程</title> <description>包含XML基础概念和基本作用</description> </book> </books>
XML文档内容由一系列标签元素组成。
示例:<元素名属性名=“属性值”>元素内容</元素名>
<元素名属性名=“属性值”>元素内容</元素名>
语法:
标签编写注意事项:
XML中的转义符列表:
当元素中出现很多特殊字符时,可以使用 CDATA 节,如:
<description> <![CDATA[讲解了元素<title>以及</title>的使用]]> </description>
XML命名空间(XML namespace,也译作XML名称空间、XML名字空间)用于在一个XML文档中提供名字唯一的元素和属性,可以用作元素或属性名称的名称集合。它们标识来自特定的域(标准组织、公司、行业)的名称。
xmlns:namespace-prefix="namespaceURI"
示例:
<?xml version= "1.0" encoding="UTF-8"?> <cameras xmlns:canon="http://www.canon.com" xmlns:nikon="http://www.nikon.com"> <canon:camera prodID= "P663" name="Camera傻瓜相机"/> <nikon:camera prodID=“K29B3” name=“Camera超级35毫米相机"/> </cameras>
属性 命名空间:除非带有前缀,否则属性属于它们的元素的命名空间。
<?xml version= "1.0" encoding="UTF-8"?> <batchCompany xmlns="http://www.FatliTalk.com" xmlns:tea="http://www.tea.org"> <batch-list> <batch type= "thirdbatch">第三批次</batch> <batch tea:type="thirdbatch">第三批茶</batch> <batch>午班批次</batch> </batch-list> </batchCompany>
DTD 是 Document Type Definition 的缩写,即文档类型定义,DTD 用来描述 XML 文档的结构。 XML Schema 可以对 XML 进行验证,和 DTD 相比,XML Schema 是使用 XML 语法编写的,更易于学习和使用。
”形式良好“的 XML 文档拥有正确的语法:
<?xml version="1.0" encoding="ISO-8859-1"?> <note> <to>Tove</to> <from>Jani</from> <heading>Reminder</heading> <body>Don't forget me this weekend!</body> </note>
合法的 XML 文档是"形式良好"的 XML 文档,这也符合文档类型定义(DTD)的规则:
<?xml version="1.0" encoding="ISO-8859-1"?> <!DOCTYPE note SYSTEM "Note.dtd"> <note> <to>Tove</to> <from>Jani</from> <heading>Reminder</heading> <body>Don't forget me this weekend!</body> </note>
注:在上面的实例中,DOCTYPE 声明是对外部 DTD 文件的引用。
DTD (Document Type Definition),文档类型定义。
DTD的声明语法:
<!DOCTYPE 根元素 [定义内容]>
DTD元素的定义语法:
<!ELEMENT NAME CONTENT>
DTD 的目的是定义 XML 文档的结构。它使用一系列合法的元素来定义文档结构:
<!DOCTYPE note [ <!ELEMENT note (to,from,heading,body)> <!ELEMENT to (#PCDATA)> <!ELEMENT from (#PCDATA)> <!ELEMENT heading (#PCDATA)> <!ELEMENT body (#PCDATA)> ]>
注:#PCDATA可以包含任何字符数据,但是不能在其中包含任何子元素。
针对DTD的不足之处(如隐晦的语法、缺乏数据类型、封闭的内容模型以及不支持命名空间等)进行了改善。和DTD相比, XML Schema是使用XML语法编写的,更易于学习和使用。
W3C 支持一种基于 XML 的 DTD 代替者,它名为 XML Schema:
<xs:element name="note"> <xs:complexType> <xs:sequence> <xs:element name="to" type="xs:string"/> <xs:element name="from" type="xs:string"/> <xs:element name="heading" type="xs:string"/> <xs:element name="body" type="xs:string"/> </xs:sequence> </xs:complexType> </xs:element>
在实际应用中,经常需要对XML文档进行各种操作,例如,在应用程序启动时去读取XML配置文件信息,或者把数据库中的内容读取出来转换为XML文档形式,这些时候都会用到XML文档的解析技术。
下面介绍3种常用的XML解析技术:
1. DOM(常用):
2. SAX:
3. DOM4J(常用):
常用接口介绍:
DOM解析包:org.w3c.dom(W3C推荐使用的用于DOM解析XML文档的接口),了解更多:在API文档中查看接口。
DOM解析XML文件步骤:
使用DOM读取手机收藏信息中品牌和型号,XML文档(收藏信息.xml)代码如下:
<?xml version="1.0" encoding="GB2312"?> <PhoneInfo> <Brand name="华为"> <Type name="U8650"/> </Brand> <Brand name="苹果"> <Type name="iPhone4"/> <Type name="iPhone5"/> </Brand> </PhoneInfo>
XML文档对应树结构:
根据使用 DOM 解析 XML 文档的步骤可以实现: 显示“收藏信息.xml”文件中收藏的手机品牌和型号:
/*关键代码*/ //步骤1:得到DOM解析器的工厂实例 DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); //步骤2:从DOM工厂获得DOM解析器 DocumentBuilder db = dbf.newDocumentBuilder(); //步骤3:解析XML文档,得到一个Document对象,即DOM树 Document doc = db.parse("src/收藏信息.xml"); //步骤4:以Document对象为起点操作DOM树 的节点进行增加、删除、修改、查询等操作 //得到所有的Brand节点列表信息 NodeList brandList = doc.getElementsByTagName("Brand"); //循环Brand信息 for(int i = 0;i < brandList.getLength();i++){ //获取第i个Brand元素信息 Node brand = brandList.item(i); //获取第i个Brand元素的name属性的值 Element element = (Element) brand; String attrValue = element.getAttribute("name"); //获取第i个Brand元素的所有子元素的name属性值 NodeList types = element.getChildNodes(); for(int j = 0;j < types.getLength();j++){ Element typeElement = (Element) types.item(j); //Type节点 String type = typeElement.getAttribute("name"); //获得手机型号 System.out.println("手机:"+attrValue+type); } }
输出结果: 手机:华为 U8650 手机:苹果 iPhone4 手机:苹果 iPhone5
(1)Document 对象
Document 对象代表整个 XML 文档,所有其他的Node都以一定的顺序包含在 Document 对象之内,排列成一个树形结构,可以通过遍历这棵“树”来得到 XML 文档的所有内容。它也是对 XML 文档进行操作的起点,人们总是先通过解析XML源文件而得到一个 Document 对象,然后再来执行后续的操作。
Document 对象的主要方法如下:
(2)NodeList 对象
顾名思义,NodeList 对象是指包含了一个或者对个节点(Node)的列表,类似数组,节点列表中的节点可以通过其对应的索引数字(从 0 开始计数)进行访问。
NodeList 对象的常用方法如下:
(3)Node对象
Node 对象是 DOM 结构中最基本的对象,代表了文档树中的一个抽象节点。在实际开发中,很少会用到Node对象,一般会使用如Element、Text等Node对象的子对象来操作文档。
Node对象的主要方法如下:
(4)Element对象
Element 对象代表 XML 文档中的一个元素(标签元素),元素可以包含属性、其他元素或文本。Element 对象继承自Node,也是Node最主要的子对象。
在标签中可以包含属性,因此Element对象中也可以存取其属性的方法:
操作DOM树的节点进行增加、删除、修改、查询等操作,演示示例:
import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.io.UnsupportedEncodingException; import javax.xml.parsers.DocumentBuilder; import javax.xml.parsers.DocumentBuilderFactory; import javax.xml.parsers.ParserConfigurationException; import javax.xml.transform.OutputKeys; import javax.xml.transform.Transformer; import javax.xml.transform.TransformerConfigurationException; import javax.xml.transform.TransformerException; import javax.xml.transform.TransformerFactory; import javax.xml.transform.dom.DOMSource; import javax.xml.transform.stream.StreamResult; import org.w3c.dom.Document; import org.w3c.dom.Element; import org.w3c.dom.Node; import org.w3c.dom.NodeList; import org.xml.sax.SAXException; public class ParseXMLDemo { private Document document=null; public static void main(String[] args) { ParseXMLDemo pd=new ParseXMLDemo(); pd.getDocument(); pd.showInfo(); // pd.add(); // pd.update(); // pd.savaXML("new.xml"); // pd.delete(); } public void getDocument(){ DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance(); try { DocumentBuilder builder=factory.newDocumentBuilder(); document=builder.parse("收藏信息.xml"); } catch (ParserConfigurationException e) { e.printStackTrace(); } catch (SAXException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } //获取手机品牌和属性 public void showInfo(){ NodeList brands=document.getElementsByTagName("Brand"); for(int i=0;i<brands.getLength();i++){ Node node=brands.item(i); Element eleBrand=(Element)node; System.out.println(eleBrand.getAttribute("name")); NodeList types=eleBrand.getChildNodes(); for(int j=0;j<types.getLength();j++){ Node typeNode=types.item(j); if(typeNode.getNodeType()==Node.ELEMENT_NODE){ Element eleType=(Element)typeNode; System.out.println(eleType.getAttribute("name")); } } } } /*保存XML文件 步骤: * 获得TransformerFactory对象 * 创建Transformer对象 * 创建DOMSource对象 * * 包含XML信息 * 设置输出属性 * * 编码格式 * 创建StreamResult对象 * * 包含保存文件的信息 * 将XML保存到指定文件中 */ public void savaXML(String path){ TransformerFactory factory=TransformerFactory.newInstance(); factory.setAttribute("indent-number", "4"); try { Transformer transformer=factory.newTransformer(); transformer.setOutputProperty(OutputKeys.ENCODING, "gb2312"); transformer.setOutputProperty(OutputKeys.INDENT, "yes"); //StreamResult result=new StreamResult(new FileOutputStream(path)); StreamResult result=new StreamResult(new OutputStreamWriter(new FileOutputStream(path), "gb2312")); DOMSource source=new DOMSource(document); transformer.transform(source, result); } catch (TransformerConfigurationException e) { e.printStackTrace(); } catch (TransformerException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (UnsupportedEncodingException e) { // TODO Auto-generated catch block e.printStackTrace(); } } /*添加DOM节点 演示示例:给手机收藏信息XML中添加新的手机信息: * 添加新的Brand:三星 * 给Brand节点添加新的子标签Type:Note4 * 将Brand添加到DOM树中 */ public void add(){ Element element=document.createElement("Brand"); element.setAttribute("name", "三星"); Element ele1=document.createElement("Type"); ele1.setAttribute("name", "Note4"); element.appendChild(ele1); document.getElementsByTagName("PhoneInfo").item(0).appendChild(element); this.savaXML("new.xml"); } /*修改DOM节点: 给所有的Brand标签添加id属性 * 获取Brand标签 * 调用setAttribute()方法添加属性 */ public void update(){ NodeList brands=document.getElementsByTagName("Brand"); for(int i=0;i<brands.getLength();i++){ Node brand=brands.item(i); Element eleBrand=(Element)brand; eleBrand.setAttribute("id", i+""); } this.savaXML("new.xml"); } /*删除DOM节点: 删除Brand值为“华为”的标签 * getElementsByTagName ()方法获取Brand标签列表 * 获得Brand值为“华为”的标签对象 * 通过getParentNode ()方法获得父节点对象 * 调用父节点的removeChild()方法删除节点 */ public void delete(){ NodeList brands=document.getElementsByTagName("Brand"); for(int i=0;i<brands.getLength();i++){ Node brand=brands.item(i); Element eleBrand=(Element)brand; if(eleBrand.getAttribute("name").equals("华为")){ eleBrand.getParentNode().removeChild(eleBrand); } } this.savaXML("new.xml"); } }
DOM4J是目前使用非常广泛的解析XML的一种技术,与DOM相比,使用灵活。操作简单,要点在于灵活理解几个重要接口的用法。
概述:
DOM4J 的主要接口都在 org.dom4j 这个包里定义:
Attribute:定义 XML 属性
使用 DOM4J 解析“收藏信息.xml”,进行增加、删除、修改、查询等操作 Java代码示例:(需先导入 dom4j 的 jar 包)
import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.util.Iterator; import org.dom4j.Document; import org.dom4j.Element; import org.dom4j.io.OutputFormat; import org.dom4j.io.SAXReader; import org.dom4j.io.XMLWriter; public class Dom4j { public static Document doc; public static void main(String[] args) { loadDocument(); // showPhoneInfo(); // saveXML("src/新收藏.xml"); // addNewPhoneInfo(); // updatePhoneInfo(); deleteItem(); showPhoneInfo(); } public static void loadDocument(){ try{ SAXReader saxReader = new SAXReader(); doc = saxReader.read(new File("src/收藏信息.xml")); }catch (Exception e) { // TODO: handle exception e.printStackTrace(); } } public static void updatePhoneInfo(){ // 获取XML的根节点 Element root = doc.getRootElement(); int id = 0; for (Iterator itBrand = root.elementIterator(); itBrand.hasNext();) { Element brand = (Element) itBrand.next(); id++; brand.addAttribute("id", id + ""); } saveXML("src/收藏信息.xml"); } public static void deleteItem(){ // 获取XML的根节点 Element root = doc.getRootElement(); int id = 0; for (Iterator itBrand = root.elementIterator(); itBrand.hasNext();) { Element brand = (Element) itBrand.next(); if (brand.attributeValue("name").equals("华为")) { brand.getParent().remove(brand); } } // saveXML("src/收藏信息.xml"); } public static void showPhoneInfo() { // 获取XML的根节点 Element root = doc.getRootElement(); // 遍历所有的Brand标签 for (Iterator itBrand = root.elementIterator(); itBrand.hasNext();) { Element brand = (Element) itBrand.next(); // 输出标签的name属性 System.out.println("品牌:" + brand.attributeValue("name")); // 遍历Type标签 for (Iterator itType = brand.elementIterator(); itType.hasNext();) { Element type = (Element) itType.next(); // 输出标签的name属性 System.out.println("\t型号:" + type.attributeValue("name")); } } } public static void saveXML(String path){ try { OutputFormat format = OutputFormat.createPrettyPrint(); format.setEncoding("GBK"); // 指定XML编码 XMLWriter writer; writer = new XMLWriter(new FileWriter(path), format); writer.write(doc); writer.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } public static void addNewPhoneInfo(){ // 获取XML的根节点 Element root = doc.getRootElement(); // 创建Brand标签 Element el = root.addElement("Brand"); // 给Brand标签设置属性 el.addAttribute("name", "三星"); // 创建Type标签 Element typeEl = el.addElement("Type"); // 给Type标签设置属性 typeEl.addAttribute("name", "Note4"); saveXML("src/收藏信息.xml"); } }
使用 DOM4J 解析 XML 的关键操作(使用 DOM4J 对 XML 文件数据的查询、添加、修改和删除功能 ) 总结如下:
Document对象相关
读取 XML 文件,获得 document 对象
SAXReader reader = new SAXReader(); Document document = reader.read(new File("input.xml"));
节点相关
(1)获得文档的根元素
Element rootElement = document.getRootElement();
(2)获得某个节点的单个节点
Element memberElement = root.element("menber"); //"member"是节点名
(3)取得节点的文字
String text = memberElement.getText();
也可以:
String text = root.elementText("name"); //取得根元素下的name子节点的文字
(4)取得某节点下名为 "member" 的所有子节点并进行遍历
List nodes = rootElement.elements("member"); for(Iterator it = nodes.iterator(); it.hasNext();){ Element element = (Element) it.next(); //…… }
(5)对某节点下的所有子节点进行遍历
for(Iterator it = root.elementIterator(); it.hasNext();){ Element element = (Element) it.next(); //…… }
(6)在某个节点下添加子节点
Element ageElement = newMemberElement.addElement("age");
(7)设置节点文字
ageElement.setText("18");
(8)删除某节点
parentElement.remove(childElement);
(9)添加一个 CDATA 节点
Element contentElement = infoElement.addElement("content"); contentElement.addCDATA(diary.getContent()); contentElement.fetText(); //特别说明:获取节点的 CDATA 值与获取节点的值是同一个方法 contentElement.clearContent(); //清除节点中的内容,CDATA 亦可
属性相关
(1)获取某节点下的某属性
Element root = document.getRootElement(); Attribute attribute = root.atttibute("size"); //属性名 name
(2)取得属性的文字
String text = attribute.getText();
//取得根节点下name子节点的属性 firstName 的值 String text2 = root.element("name").attributeValue("firstName");
(3)遍历某节点的所有属性
Element root = document.getRootElement(); for(Iterator it = root.attributeInterator();it.hasNext();){ Attribute attribute = (Attribute) it.next(); String text = attribute.getText(); System.out.println(text); }
(4)设置某节点的属性和文字
newMemberElement.addAttribute("name","sitinspring");
(5)设置属性的文字
Attribute attribute = root.attribute("name"); attribute.setText("sitinspring");
(6)删除某属性
Attribute attribute = root.attribute("size"); //属性名 name root.remove(attribute);
将文档写入 XML 文件
(1)文档中全为英文,不设置编码格式,直接写入
XMLWriter writer = newXMLWriter(new FileWriter("output.xml")); writer.write(document); writer.close();
(2)文档中含有中文,设置编码格式再写入
OutputFormat format = OutputFormat.createPrettyPrint(); format.setEncoding("GBK"); //指定 XML 编码 XMLWriter writer = newXMLWriter(new FileWriter("output.xml"),format); writer.write(document); writer.close();
——END
(题图:wikipedia.org)
一、XML简介
特点:
作用:
二、XML文档结构
三、XML标签
示例:
<元素名属性名=“属性值”>元素内容</元素名>
语法:
四、XML编写注意事项
标签编写注意事项:
五、转义符
XML中的转义符列表:
当元素中出现很多特殊字符时,可以使用 CDATA 节,如:
六、XML命名空间
语法:
示例:
属性 命名空间:除非带有前缀,否则属性属于它们的元素的命名空间。
示例:
七、XML解析器(XML验证)
7.1 解析器类型:
DTD 是 Document Type Definition 的缩写,即文档类型定义,DTD 用来描述 XML 文档的结构。 XML Schema 可以对 XML 进行验证,和 DTD 相比,XML Schema 是使用 XML 语法编写的,更易于学习和使用。
7.2 ”形式良好“和”合法“的 XML
7.2.1 形式良好的 XML 文档:
”形式良好“的 XML 文档拥有正确的语法:
7.2.2 验证 XML 文档:
合法的 XML 文档是"形式良好"的 XML 文档,这也符合文档类型定义(DTD)的规则:
7.3 XML DTD:
DTD的声明语法:
DTD元素的定义语法:
DTD 的目的是定义 XML 文档的结构。它使用一系列合法的元素来定义文档结构:
7.4 XML Schema:
针对DTD的不足之处(如隐晦的语法、缺乏数据类型、封闭的内容模型以及不支持命名空间等)进行了改善。和DTD相比, XML Schema是使用XML语法编写的,更易于学习和使用。
W3C 支持一种基于 XML 的 DTD 代替者,它名为 XML Schema:
八、解析XML技术
下面介绍3种常用的XML解析技术:
1. DOM(常用):
2. SAX:
3. DOM4J(常用):
8.1 DOM解析XML:
8.1.1 DOM概念:
常用接口介绍:
DOM解析包:org.w3c.dom(W3C推荐使用的用于DOM解析XML文档的接口),了解更多:在API文档中查看接口。
8.1.2 访问DOM树节点(这里以“使用DOM读取手机收藏信息”为实例):
DOM解析XML文件步骤:
使用DOM读取手机收藏信息中品牌和型号,XML文档(收藏信息.xml)代码如下:
XML文档对应树结构:
根据使用 DOM 解析 XML 文档的步骤可以实现: 显示“收藏信息.xml”文件中收藏的手机品牌和型号:
输出结果: 手机:华为 U8650 手机:苹果 iPhone4 手机:苹果 iPhone5
8.1.3 使用 DOM 解析 XML 时主要使用以下对象(参考上面代码里的红色字):
(1)Document 对象
Document 对象的主要方法如下:
(2)NodeList 对象
NodeList 对象的常用方法如下:
(3)Node对象
Node对象的主要方法如下:
(4)Element对象
在标签中可以包含属性,因此Element对象中也可以存取其属性的方法:
操作DOM树的节点进行增加、删除、修改、查询等操作,演示示例:
8.2 DOM4J 解析 XML:
重点:
概述:
DOM4J 的主要接口都在 org.dom4j 这个包里定义:
Attribute:定义 XML 属性
使用 DOM4J 解析“收藏信息.xml”,进行增加、删除、修改、查询等操作 Java代码示例:(需先导入 dom4j 的 jar 包)
使用 DOM4J 解析 XML 的关键操作(使用 DOM4J 对 XML 文件数据的查询、添加、修改和删除功能 ) 总结如下:
读取 XML 文件,获得 document 对象
(1)获得文档的根元素
(2)获得某个节点的单个节点
(3)取得节点的文字
也可以:
(4)取得某节点下名为 "member" 的所有子节点并进行遍历
(5)对某节点下的所有子节点进行遍历
(6)在某个节点下添加子节点
(7)设置节点文字
(8)删除某节点
(9)添加一个 CDATA 节点
(1)获取某节点下的某属性
(2)取得属性的文字
也可以:
(3)遍历某节点的所有属性
(4)设置某节点的属性和文字
(5)设置属性的文字
(6)删除某属性
(1)文档中全为英文,不设置编码格式,直接写入
(2)文档中含有中文,设置编码格式再写入
——END