JavaEE基础之- xml

打印 上一主题 下一主题

主题 932|帖子 932|积分 2800

目录

一、xml概述
1.什么是xml

2.W3C组织

3.XML的作用
4.XML与HTML比较

5.XML和properties(属性文件)比较
二、XML语法概述
1.文档展示

2.XML文档的构成部分

3.xml文档声明
3.1 什么是xml文档声明
3.2 xml文档声明布局
4.xml元素
4.1 xml元素的格式1
4.2 XML元素的格式2

4.3 xml文档的根元素
4.4 元素中的空缺
4.5 元素命名规范
4.6 元素属性
4.7 表明

4.8 转义字符和CDATA区

4.9 CDATA 区(CDATA段)
三、xml约束
1.XML约束概述
1.1 什么是xml约束

1.2 XML文档约束的类型
2.DTD
2.1 什么是DTD
2.2 DTD展示
3. Schema
3.1  Schema概述

3.2 为什么要用Schema

3.3 Schema的文档布局

3.4 Schema的数据类型
1. 简单类型
2.复杂类型(通过complexType界说)
4.xml解析
1.利用XML文档概述
1.1 怎样利用xml文档
1.2 xml解析技术

2.DOM4J
2.1 DOM4J是什么

2.2 DOM4J中的类布局
2.3 DOM4J获取Document对象
2.4 DOM4J生存Document对象
2.5 DOM4J创建Document对象

3.Document利用
3.1 遍历students.xml
4.XPath
4.1 什么是XPath

4.2 DOM4J对XPath的支持


一、xml概述

1.什么是xml

             XML全称为Extensible Markup Language, 意思是可扩展的标志语言,它是 SGML(标准通用标志语言)的一个子集。            XML语法上和HTML比较相似,但HTML中的元素是固定的,而XML的标签是可以由用户自界说的。            W3C在1998年2月发布  1.0版本  ;            W3C在2004年2月发布1.1版本,但因为1.1版本不能向下兼容1.0版本,以是1.1没有人用。同时,在2004年2月W3C又发布了1.0版本的第三版。我们要学习的照旧1.0版本!!!  

2.W3C组织

             W3C是万维网联盟(World Wide Web Consortium)英文的缩写,它创建于1994年10月,以开    放论坛的方式来促进开发互通技术(包括规格、指南、软件和工具),开发网络的全部潜能。万维网    联盟(W3C)从1994年创建以来,已发布了90多份Web技术规范,向导着Web技术向前发展。            W3C认为自身不是官方组织,因此将它正式发布的规范称为保举(建议)标准,意思是进一步标    准化的建议,但是由于组织自身的权势巨子性往往成为究竟上的标准。  

3.XML的作用

             步伐的设置文件(这也是最后大家利用XML最常见的目标);            数据交换:不同语言之间用来交换数据;            小型数据库:用来当数据库存储数据。   4.XML与HTML比较

   
        HTML的元素都是固定的,而XML可以自界说元素;

  
        HTML用欣赏器来解析实行, XML的解析器通常必要自己来写(因为元素是自界说的);

  
        HTML只能用来表示网页,而XML可以做的事情许多。

  

5.XML和properties(属性文件)比较

   

  •      1. 属性文件只能存储平面信息,而XML可以存储布局化信息;
  • 解析属性文件只必要利用Properties类就可以了,而解析XML文档是很复杂的。
  
二、XML语法概述

   

  • 元素!!!
  • 文档声明!!!
  1.文档展示

  
  1. <?xml version="1.0" encoding="UTF-8" standalone="no"?>
  2. <students>
  3.      <student number="1001">
  4.           <name>zhangSan</name>
  5.           <age>23</age>   
  6.           <sex>male</sex>
  7.      </student>
  8.      <student number="1002">
  9.           <name>liSi</name>
  10.           <age>32</age>
  11.           <sex>female</sex>
  12.      </student>
  13.      <student number="1003">
  14.           <name>wangWu</name>
  15.           <age>55</age>
  16.           <sex>male</sex>
  17.      </student>
  18. </students>
复制代码
       包括web.xml      
   

2.XML文档的构成部分

   

  • XML文档声明;
  • XML处理指令;
  • XML元素;
  • XML特殊字符和CDATA区; [![CADATA <<<<>>>>>>   ]]
  • XML表明。<!---   -->
  

3.xml文档声明

3.1 什么是xml文档声明

           可以把xml文档声明看成是xml文档阐明。            最简单的xml文档声明:        <?xml version="1.0"?>       留意,            XML是区别巨细写,这一点不同与HTML!  3.2 xml文档声明布局

   version属性:            用于阐明当前xml文档的版本,因为都是在用1.0,以是这个属性值大家都写1.0,version属性是  必须的;     encoding属性:            用于阐明当前xml文档利用的  字符编码集,xml解析器会利用这个编码来解析xml文档。encoding属性是可选的,默认为UTF-8。留意,假如当前xml文档利用的字符编码集是gb2312,而encoding属性的值为UTF-8,那么一定会出错的;     standalone属性:            用于阐明当前xml文档  是否为独立文档,假如该属性值为yes,表示当前xml文档是独立的,假如为no表示当前xml文档不是独立的,即依赖外部的约束文件。  默认是yes   

  • 没有xml文档声明的xml文档,不是格式良好的xml文档;
  • xml文档声明必须从xml文档的1行1列开始。
  
4.xml元素

4.1 xml元素的格式1

   xml元素包含:                    开始标签、元素体(内容)、竣事标签。            例如:<hello>大家好</hello>     空元素:                   空元素只有开始标签,没有元素体和竣事标签,但空元素一定要闭合。            例如:     <hello/>   <hr/>    4.2 XML元素的格式2

   

  • 1. xml元素可以包含子元素或文本数据。
            例如:  <a><b>hello</b></a>,a元素的元素体内容是b元素,而b元素的元素体内容是文本数据hello。   

  • 2. xml元素可以嵌套,但必须是合法嵌套。
            例如:<a><b>hello</a></b> 就是错误的嵌套。  

4.3 xml文档的根元素

           格式良好  的xml文档必须且仅有一个根元素!     student1.xml   
  1. <?xml version="1.0" encoding="utf-8" standalone="no"?>
  2. <students>
  3.      <student number="1001">
  4.           <name>zhangSan</name>
  5.           <age>23</age>
  6.           <sex>male</sex>
  7.      </student>
  8.      <student number="1002">
  9.           <name>liSi</name>
  10.           <age>32</age>
  11.           <sex>female</sex>
  12.      </student>
  13. </students>
复制代码
   student2.xml   
  1. <?xml version="1.0" encoding="utf-8" standalone="no"?>
  2. <student number="1001">
  3.      <name>zhangSan</name>
  4.      <age>23</age>
  5.      <sex>male</sex>
  6. </student>
  7. <student number="1002">
  8.      <name>liSi</name>
  9.      <age>32</age>
  10.      <sex>female</sex>
  11. </student>
复制代码
           student1.xml是格式良好的xml文档,只有一个根元素,即students元素。            student2.xml不是格式良好的xml文档,有两个根元素,即两个student根元素。   4.4 元素中的空缺

           xml元素的元素体可以包含文本数据和子元素。    a.xml   
  1. <a><b>hello</b></a>
复制代码
   b.xml   
  1. <a>
  2.   <b>
  3.     hello
  4.   </b>
  5. </a>
复制代码
        a.xml中,元素只有一个子元素,即元素。元素只有一个文本数据,即hello。
            b.xml中,元素中第一部分为换行缩进,第二部分为元素,第三部分为换行。b元素的文本数据为换行、缩进、hello、换行、缩进。
          此中换行和缩进都是空缺,这些空缺是为了加强xml文档的可读性。但xml解析器可能会因为空缺出现错误的解读,这阐明在将来编写解析xml步伐时,一定要小心空缺。
     4.5 元素命名规范

   xml元素名可以包含字母、数字以及一些别的可见字符,但必须遵照下面的一些规范:  
   

  • 区分巨细写:和是两个元素;
  • 不能以数字开头:<1a>都是错误的;
  • 最好不要以xml开头:
  • 不能包含空格;
  4.6 元素属性

  
   

  • 属性由属性名属性值构成,中间用等号连接
  • 属性值必须利用引号括起来,单引或双引;
  • 界说属性必须遵照与标署名雷同的命名规范;
  • 属性必须界说在元素的开始标签中
  • 一个元素中不能包含雷同的属性名;
  4.7 表明

  
   

  • 表明以<!--开头, 以--> 竣事;
  • 表明中不能包含--;
       Ctrl+/  

4.8 转义字符和CDATA区

           因为在xml文档中有些字符是特殊的,不能利用它们作为文本数据。例如:不能利用“<”或“>”等字符作为文本数据,以是必要利用转义字符来表示。            例如<a><a></a>  , 你可能会说,此中第二个  是a元素的文本内容,而不是一个元素的开始标签,但xml解析器是不会明白你的意思的。            把<a><a></a>  修饰为  <a><a></a>  ,这就OK了。   
            转义字符都是以“&”开头,以“;”竣事。这与后面我们学习的实体是雷同的。  

4.9 CDATA 区(CDATA段)

           当大量的转义字符出现在xml文档中时,会使xml文档的可读性大幅度降低。这时假如利用CDATA段就会好一些。            在CDATA段中出现的“<”、“>”、“””、“’”、“&”,都无需利用转义字符。这可以提高xml文档的可读性。   
  1. <a><![CDATA[<a>]]></a>
复制代码
           在CDATA段中不能包含“]]>”,即CDATA段的  竣事定界符。   
三、xml约束

1.XML约束概述

       一个XML文档一旦有了约束,那么这个XML文档就只能利用约束中创建的元素及属性。假如约束没有创建  元素,那么XML文档就不能利用  元素!!!  1.1 什么是xml约束

           因为xml文档是可以自界说元素的,这会让利用xml文档的应用步伐无法知道xml文档的真实布局。通常应用步伐都会要求xml文件的布局是固定的,以满意自己的需求,这就阐明,不同的应用步伐要求自己的xml文档必须符合一定的要求。            例如,当利用xml文档作为某个Java swing应用步伐的设置文件时,要求xml文档布局如下:   
  1. <frame title="test xml" layout="java.awt.BorderLayout">
  2.   <bgcolor>
  3.         <red>200</red>
  4.         <green>0</green>
  5.         <blue>0</blue>
  6.   </bgcolor>
  7.   <size>
  8.         <width>300</width>
  9.         <heigth>200</heigth>
  10.   </size>
  11.   <content>
  12.         <label>
  13.           <text>hello xml</text>
  14.         <label>
  15.   </content>
  16. </frame>
复制代码
           当某个门生管理体系步伐必要利用xml文档作为数据库时,要求xml文档布局如下:   
  1. <?xml version="1.0" encoding="utf-8" standalone="no"?>
  2. <students>
  3.      <student number="1001">
  4.           <name>zhangSan</name>
  5.           <age>23</age>
  6.           <sex>male</sex>
  7.      </student>
  8.      <student number="1002">
  9.           <name>liSi</name>
  10.           <age>32</age>
  11.           <sex>female</sex>
  12.      </student>
  13.      <student number="1003">
  14.           <name>wangWu</name>
  15.           <age>55</age>
  16.           <sex>male</sex>
  17.      </student>
  18. </students>
复制代码
           xml文档约束是用另一个文件来约束xml文档的布局,例如要求xml文档的根元素必须是 <students> ,在 <students> 元素下可以包含0~n个 <student> 元素,每个 <student> 元素必须有一个number属性,而且还要有三个子元素,分别为<name>、<age>、<sex>,这三个子元素的内容必须为文本内容,而不能是子元素。  

1.2 XML文档约束的类型

   xml文档约束有两种类型:dtd和schema   
   

  • dtd:dtd是平面式文档,dtd文件不是xml文档,通常扩展名为“.dtd”。它是最早的xml约束;
  • schema:schema本身也是xml文档,它比dtd要更加强大,通常扩展名为“.xsd”。它是新的xml文档约束,用来替代dtd。
    DTD是老的XML约束    Schema是新的,用Schema替换掉DTD  2.DTD

2.1 什么是DTD

           DTD(Document Type Definition),文档类型界说,用来约束XML文档。            例如要求xml文档的根元素必须是 <students> ,在 <students> 元素下可以包含0~n个 <student> 元素,每个 <student> 元素必须有一个number属性,而且还要有三个子元素,分别为 <name> 、<age> 、<sex> ,这三个子元素的内容必须为文本内容,而不能是子元素。  2.2 DTD展示

  
  1. <!ELEMENT students (student+)>
  2. <!ELEMENT student (name,age,sex)>
  3. <!ELEMENT name (#PCDATA)>
  4. <!ELEMENT age (#PCDATA)>
  5. <!ELEMENT sex (#PCDATA)>
复制代码
   解读上面DTD:   
   

  • students元素中可以包含1~n个student元素;
  • student元素中必须包含name、age、sex元素,而且顺序也是固定的;
  • ame元素内容为文本,即字符串;
  • age元素内容为文本;
  • sex元素内容为文本。
  3. Schema

3.1  Schema概述

           我们学习Schema的第一目标是:参照Schema的要求可以编写XML文档;            第二目标是:可以自己来界说Schema文档。  

3.2 为什么要用Schema

  
   

  • DTD 的局限性
   
        DTD不遵守XML语法(写XML文档实例时间用一种语法,写DTD的时间用另外一种语法)

  
        DTD数据类型有限(与数据库数据类型不一致)

  
        DTD不可扩展

  
        DTD不支持命名空间(命名辩说)

   
   

  • Schema的新特性
   
        Schema基于XML语法

  
        Schema可以用能处理XML文档的工具处理

  
        Schema大大扩充了数据类型,可以自界说数据类型

  
        Schema支持元素的继承—Object-Oriented’

  
        Schema支持属性组

  

3.3 Schema的文档布局

   
     

3.4 Schema的数据类型

1. 简单类型

   内置的数据类型(built-in data types)    基本的数据类型   
        扩展的数据类型     
        用户自界说数据类型(通过simpleType界说)    数据类型的特性     
     2.复杂类型(通过complexType界说

4.xml解析

1.利用XML文档概述

1.1 怎样利用xml文档

   XML文档也是数据的一种,对数据的利用也不外乎是“增编削查”。也被大家称之为“CRUD”。   
   

  • C:Create;
  • R:Retrieve;
  • U:Update;
  • D:Delete
  1.2 xml解析技术

           XML解析方式分为两种:DOM(Document Object Model)和SAX(Simple API for XML)。这两种方式不是针对Java语言来解析XML的技术,而是跨语言的解析方式。例如DOM还在Javascript中存在!            DOM是W3C组织提供的解析XML文档的标准接口,而SAX是社区讨论的产物,是一种究竟上的标准。            DOM和SAX只是界说了一些接口,以及某些接口的缺省实现,而这个缺省实现只是用空方法来实现接口。一个应用步伐假如必要DOM或SAX来访问XML文档,还必要一个实现了DOM或SAX的解析器,也就是说这个解析器必要实现DOM或SAX中界说的接口。提供DOM或SAX中界说的功能。  


2.DOM4J

2.1 DOM4J是什么

           DOM4J是针对Java开发人员专门提供的XML文档解析规范,它不同与DOM,但与DOM相似。DOM4J针对Java开发人员而计划,以是对于Java开发人员来说,利用DOM4J要比利用DOM更加方便。            DOM4J对DOM和SAX提供了支持,利用DOM4J可以把org.dom4j.document转换成org.w3c.Document,DOM4J也支持基于SAX的事件驱动处理模式。    利用者必要留意,DOM4J解析的效果是org.dom4j.Document,而不是org.w3c.Document。DOM4J与DOM一样,只是一组规范(接口与抽象类构成),底层必须要有DOM4J解析器的实现来支持。            DOM4J利用JAXP来查找SAX解析器,然后把XML文档解析为org.dom4j.Document对象。它还支持利用org.w3c.Document来转换为org.dom4j.Docment对象。  

2.2 DOM4J中的类布局

           在DOM4J中,也有Node、Document、Element等接口,布局上与DOM中的接口比较相似。但照旧有许多的区别:     
               在DOM4J中,全部XML构成部分都是一个Node,此中Branch表示可以包含子节点的节点,例如Document和Element都是可以有子节点的,它们都是Branch的子接口。            Attribute是属性节点,CharacterData是文本节点,文本节点有三个子接口,分别是CDATA、Text、Comment。   2.3 DOM4J获取Document对象

   利用DOM4J来加载XML文档,必要先获取SAXReader对象,然后通过SAXReader对象的read()方法来加载XML文档:   
  1. SAXReader reader = new SAXReader();
  2. //  reader.setValidation(true);
  3.   Document doc = reader.read("src/students.xml");
复制代码
2.4 DOM4J生存Document对象

           生存Document对象必要利用XMLWriter对象的write()方法来完成,在创建XMLWriter时还可以为其指定XML文档的格式(缩进字符串以及是否换行),这必要利用OutputFormat来指定。   
  1. doc.addDocType("students", "", "students.dtd");
  2.   OutputFormat format = new OutputFormat("\t", true);
  3.   format.setEncoding("UTF-8");
  4.   XMLWriter writer = new XMLWriter(new FileWriter(xmlName), format);
  5.   writer.write(doc);
  6.   writer.close();
复制代码

  2.5 DOM4J创建Document对象

   DocumentHelper类有许多的createXXX()方法,用来创建各种Node对象。   
  1. Document doc = DocumentHelper.createDocument();
复制代码



3.Document利用

3.1 遍历students.xml

   涉及的相关方法:   
   

  • Element getRootElement():Document的方法,用来获取根元素
  • List elements():Element的方法,用来获取全部孩子元素
  • String attributeValue(String name):Element的方法,用来获取指定名字的属性值
  • Element element(String name):Element的方法,用来获取第一个指定名字的子元素;
  • String elementText(String name):Element的方法,用来获取第一个指定名字的子元素的文本内容。
     分析步调:   
   

  • 获取Document对象;
  • 获取root元素;
  • 获取root全部子元素
  • 遍历每个student元素;
   

  • 打印student元素number属性;
  • 打印student元素的name子元素内容;
  • 打印student元素的age子元素内容;
  • 打印student元素的sex子元素内容。
  4.XPath

4.1 什么是XPath

           XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置  的语言。\            XPath基于XML的树状布局,提供在数据布局树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是 XPath 很快的被开发者采用  来看成小型查询语言。  

4.2 DOM4J对XPath的支持

           在DOM4J中,Node接口中的三个方法最为常用:    
   

  • List selectNodes(String xpathExpression):在当前节点中查找满意XPath表达式的全部子节点
  • Node selectSingleNode(String xpathExpression):在当前节点中查找满意XPath表达式的第一个子节点
  • String valueOf(String xpathExpression):在当前节点中查找满意XPath表达式的第一个子节点的文本内容
   
  1. Document doc = reader.read(new FileInputStream("person.xml"));
  2.   
  3.   Element root = doc.getRootElement();
  4.   List<Element> eList = root.selectNodes("/persons");
  5.   List<Element> eList1 = root.selectNodes("/persons/person/name");
  6.   
  7.   
  8.   List<Element> eList2 = root.selectNodes("//age");
  9.   List<Element> eList3 = root.selectNodes("//person/age");
  10.   
  11.   
  12.   List<Element> eList4 = root.selectNodes("/*/*/address");
  13.   List<Element> eList5 = root.selectNodes("//*");
  14.   
  15.   List<Element> eList6 = root.selectNodes("/persons/person[1]");
  16.   List<Element> eList7 = root.selectNodes("/persons/person[last()]");
  17.   
  18.   
  19.   List<Element> eList8 = root.selectNodes("//@id");
  20.   List<Element> eList9 = root.selectNodes("//person[@id]");
  21.   List<Element> eList10 = root.selectNodes("//person[@*]");
  22.   List<Element> eList11 = root.selectNodes("//*[not(@*)]");
  23.   
  24.   
  25.   List<Element> eList12 = root.selectNodes("//person[@id='person1']");
复制代码

   

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

东湖之滨

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表