XML和HTML有什么区别？

虽然XML和HTML都是标记语言，但它们的设计目的不同。HTML设计用于在浏览器中显示数据，关注内容的展示方式；XML设计用于存储和传输数据，关注数据本身的结构和含义。HTML使用预定义的标签集合，而XML允许开发者自定义标签，更加灵活。

为什么要学习和使用XML？

学习XML有多种好处：1) XML是一种通用的数据交换格式，被广泛应用于Web服务和系统集成；2) XML具有自描述性，数据结构清晰；3) 许多行业标准和配置文件使用XML格式；4) XML可以与XSLT结合实现数据转换；5) 掌握XML有助于理解其他技术如SOAP、RSS和各种配置文件。

如何选择使用XML还是JSON？

选择XML还是JSON应基于具体需求：XML更适合复杂的、有严格验证需求的文档型数据，支持命名空间和丰富的元数据；JSON更适合简单的数据传输，体积更小，解析更快，与JavaScript直接兼容。当需要严格的数据验证、复杂的文档结构或支持命名空间时，XML是更好的选择；当追求简洁、轻量级的数据交换格式时，JSON更为合适。

XML 解析器提示第 1 行或第 2 行语法错误，但肉眼看不出问题？

常见原因有三类：其一，文件带 UTF-8 BOM 或声明前存在不可见字符，导致解析器在首行就失败；其二，XML 声明不是文档最开头内容；其三，从网页或富文本复制时混入了不可见控制字符。建议用十六进制查看器或编辑器的「显示空白字符」排查，保存为 UTF-8 无 BOM，并确保声明前无任何输出。

文本里出现 & 或 < 就报错，CDATA 什么时候用？

在元素文本中，&、等需用实体或 CDATA 包裹。短片段可用 &、< 等实体；大段代码、HTML 片段、正则或 SQL 等含大量特殊字符时，用包住更稳妥。注意 CDATA 内不能出现字面量 ]]>

接口返回的 XML 与本地文档命名空间前缀不一致，是否算错误？

不算。命名空间由 URI 标识，前缀只是绑定别名，不同系统可生成不同前缀。比对时应看完整限定名与 xmlns 声明是否一致，而不是死盯前缀字符串。若使用 XPath，要注意默认命名空间下需显式绑定前缀或使用 local-name() 等技巧。

← 返回首页 XML格式化工具

XML教程：从能写到能排错

Q: 文本里出现 & 或 < 就报错，CDATA 什么时候用？

在元素文本中，&、 等需用实体或 CDATA 包裹。短片段可用 &、< 等实体；大段代码、HTML 片段、正则或 SQL 等含大量特殊字符时，用 包住更稳妥。注意 CDATA 内不能出现字面量 ]]>

面向真实工作场景：写合法文档、看懂解析器报错、处理命名空间与编码、选对校验方式，并能在 28APK 上用格式化、JSON 互转与 XPath 立刻验证思路。下文与 W3School XML 教程、菜鸟教程 XML 指南等公开资料目录互补，更侧重「排错 + 工程落地」。

边读边练：本站在线工具

把下面链接当作「沙箱」：改一段 XML 立刻格式化、压缩或与 JSON 互转，比只看书更快定位问题。

XML 格式化 / 压缩 XML ⇄ JSON 互转 XML 转 JSON XPath 在线练习

0. 常见问题速查（先看这张表）

多数「XML 用不了」并不是语法多难，而是编码、不可见字符、转义、根元素、命名空间这几类坑。下表按现象归类，便于对照搜索引擎或日志里的英文报错。

现象 / 报错关键词	优先检查	建议动作
第 1 行 / 第 2 行就语法错误	UTF-8 BOM、声明前有空白或输出、复制了不可见字符	保存为 UTF-8 无 BOM；确认 `<?xml ...?>` 前无任何字符；用 XML 格式化看结构是否被意外截断
`ampersand`、`entity`、与 `&` 相关	文本节点里写了裸 `&`、未闭合实体	改成 `&` 或改用 `<![CDATA[ ... ]]>` 包住大段文本
`multiple root`、多个顶层标签	拼接接口结果、复制片段时多根	外包一层业务根元素；再用格式化工具检查闭合
校验通过但 XPath 选不到节点	默认命名空间未在 XPath 中声明	在 XPath 引擎里绑定与文档相同的 xmlns；或学习 `local-name()` 写法（本站 XPath 工具可试）
SOAP / Spring / Maven 提示「预期元素」	子元素顺序、命名空间 URI、Schema 版本不匹配	对照官方 XSD 或样例报文；用 DTD/XSD 校验思路看第 4 节

实操建议：遇到陌生报错，先把原文粘进 XML 格式化得到缩进与行号，再对照解析器指出的行；若涉及与 JSON 的互转，用 XML 与 JSON 互转做最小样例复现。

返回顶部 ↑

1. XML介绍

XML（eXtensible Markup Language，可扩展标记语言）是一种用于存储和传输数据的标记语言。它是由万维网联盟（W3C）在1998年推出的，设计目标是简化SGML（Standard Generalized Markup Language）的复杂性，同时保留其灵活性和强大功能。

1.1 什么是XML？

XML是一种元标记语言，它定义了一套规则，用于以人类可读和机器可解析的格式对文档进行编码。XML的主要特点包括：

自描述性：XML文档包含数据及其结构信息，使其易于理解和处理
可扩展性：允许用户定义自己的标签和文档结构
平台独立性：不依赖于特定软件、硬件或操作系统
支持Unicode：可以表示世界上大多数书写系统中的文本
严格的语法规则：确保文档结构的一致性

1.2 XML的历史与发展

XML的诞生有其特定的历史背景：

1996年：XML工作组开始规划XML
1998年2月：W3C发布XML 1.0规范
2004年：XML 1.1发布，增加了对更多字符的支持
2008年：XML 1.0第五版发布，成为当前广泛使用的版本

随着时间的推移，许多相关技术也发展起来，包括XML Schema、XSLT、XPath和XQuery等，这些技术共同构成了XML技术栈。

1.3 XML的重要性

尽管近年来JSON等更简洁的数据格式变得流行，XML仍然在许多领域保持重要地位：

配置文件：许多软件的配置信息存储在XML中
文档格式：如Microsoft Office文档（.docx、.xlsx等）基于XML
Web服务：SOAP协议使用XML进行消息传递
数据交换：不同系统间传输复杂数据结构
行业标准：许多行业标准如RSS、ATOM、SVG等使用XML

简单XML文档示例

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
  <book category="科幻">
    <title>三体</title>
    <author>刘慈欣</author>
    <year>2008</year>
    <price>38.00</price>
  </book>
  <book category="小说">
    <title>活着</title>
    <author>余华</author>
    <year>1993</year>
    <price>35.00</price>
  </book>
</bookstore>

注意：XML看起来很像HTML，但它们的用途不同。HTML用于显示数据，而XML用于描述和传输数据。XML没有预定义的标签，标签的含义由文档创建者定义。

返回顶部 ↑

2. XML语法基础

要正确使用XML，必须理解其基本语法规则。XML有一套严格的语法，不遵循这些规则的文档将被视为无效。

2.1 XML声明

XML文档通常以XML声明开始，指定XML版本和字符编码：

<?xml version="1.0" encoding="UTF-8"?>

这行声明是可选的，但建议始终包含它。它必须位于文档的第一行，前面不能有任何内容（包括空格）。

2.2 元素与标签

XML文档由元素组成，每个元素由开始标签、内容和结束标签组成：

<title>三体</title>

元素命名规则：

名称可以包含字母、数字以及其他字符
名称不能以数字或标点符号开头
名称不能以字母"xml"（大写、小写或混合）开头
名称不能包含空格
区分大小写（例如，<title>和<Title>是不同的元素）

2.3 属性

XML元素可以包含属性，提供有关元素的额外信息：

<book category="科幻">

属性值必须始终使用引号（单引号或双引号）括起来。与元素类似，属性名也必须遵循命名规则。

2.4 嵌套元素

XML元素可以嵌套，创建层次结构：

<book>
  <title>三体</title>
  <author>刘慈欣</author>
</book>

正确的嵌套非常重要。以下是错误的嵌套：

<book><title>三体</book></title> <!-- 错误 -->

2.5 空元素

没有内容的元素称为空元素，可以使用两种方式表示：

<image src="cover.jpg"></image>
<image src="cover.jpg" /> <!-- 简写形式 -->

2.6 注释

XML注释使用以下语法：

<!-- 这是一个XML注释 -->

注释不能包含两个连续的连字符（--），也不能以连字符结尾。

2.7 字符实体

某些字符在XML中有特殊含义（如<和>）。要在文本中使用这些字符，必须使用字符实体：

字符	实体
<	<
>	>
&	&
'	'
"	"

字符实体使用示例

<message>在XML中，&lt;book&gt;标签表示一本书。</message>

显示为："在XML中，<book>标签表示一本书。"

2.8 CDATA部分

当需要包含大量特殊字符而不想使用实体时，可以使用CDATA部分：

<script>
<![CDATA[
  if (x < y && y > z) {
    // 代码逻辑
  }
]]>
</script>

CDATA部分中的文本不会被XML解析器解析，所有字符都被视为普通字符。

警告：不遵循XML语法规则的文档将被视为无效XML。大多数XML解析器会拒绝处理无效的XML文档，因此严格遵循语法规则非常重要。

返回顶部 ↑

3. XML文档结构

XML文档必须具有良好的结构，即遵循特定的组织形式和规则。良好结构的XML文档更易于处理和理解。

3.1 文档根元素

每个XML文档必须有且仅有一个根元素，所有其他元素都嵌套在其中。根元素也被称为文档元素。

<?xml version="1.0" encoding="UTF-8"?>
<bookstore> <!-- 根元素 -->
  <book>...</book>
  <book>...</book>
</bookstore>

3.2 元素层次结构

XML文档形成树状结构，元素之间存在父子关系：

父元素包含子元素
子元素可以拥有自己的子元素
所有元素都可以包含文本、其他元素、属性或这些的组合

XML层次结构示例

<library>
  <section name="科技">
    <book id="1">
      <title>人工智能导论</title>
      <author>
        <first-name>张</first-name>
        <last-name>三</last-name>
      </author>
    </book>
  </section>
</library>

3.3 元素与属性的选择

在设计XML文档时，经常需要决定信息应该作为元素还是属性。两种方式各有优缺点：

使用元素	使用属性
适合存储数据	适合存储元数据（关于数据的数据）
可以包含多个值	只能有一个值
可以嵌套	不能嵌套
容易扩展	扩展性有限

元素与属性的对比示例

使用元素表示信息：

<book>
  <id>1</id>
  <title>XML基础</title>
  <language>中文</language>
</book>

使用属性表示相同信息：

<book id="1" title="XML基础" language="中文"></book>

最佳实践： 一般来说，核心数据应该使用元素表示，而用于标识或分类的元数据可以使用属性表示。如果数据需要嵌套结构或可能有多个值，始终使用元素。

3.4 命名空间

当使用来自不同来源的XML文档或在一个文档中混合不同类型的内容时，可能会出现元素名称冲突。XML命名空间提供了解决这个问题的方法。

命名空间使用xmlns属性声明，通常指向唯一的URI：

<root xmlns:h="http://www.w3.org/HTML/1998/html4"
      xmlns:f="http://www.furniture.org/items">
  <h:table> <!-- HTML表格 -->
    <h:tr>
      <h:td>数据</h:td>
    </h:tr>
  </h:table>
  
  <f:table> <!-- 家具桌子 -->
    <f:name>餐桌</f:name>
    <f:width>80</f:width>
    <f:length>120</f:length>
  </f:table>
</root>

也可以定义默认命名空间，应用于所有没有前缀的元素：

<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    <title>默认命名空间示例</title>
  </head>
  <body>
    <h1>这里的所有元素都属于默认命名空间</h1>
  </body>
</html>

3.5 处理指令

XML处理指令向应用程序提供特殊指令。它们以<?开始，以?>结束：

<?xml version="1.0" encoding="UTF-8"?> <!-- XML声明是最常见的处理指令 -->
<?xml-stylesheet type="text/xsl" href="style.xsl"?> <!-- 应用XSLT样式表 -->

3.6 DTD和XML Schema引用

XML文档可以引用文档类型定义（DTD）或XML Schema，用于验证文档：

<!-- 使用DTD -->
<?xml version="1.0"?>
<!DOCTYPE bookstore SYSTEM "bookstore.dtd">
<bookstore>...</bookstore>

<!-- 使用XML Schema -->
<?xml version="1.0"?>
<bookstore xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
          xsi:noNamespaceSchemaLocation="bookstore.xsd">
  ...
</bookstore>

注意： 良好结构的XML文档是指语法正确的文档，而有效的XML文档是指符合DTD或Schema定义的文档。一个XML文档可以是良好结构的，但不一定有效（如果它不符合指定的DTD或Schema）。

返回顶部 ↑

4. XML 验证：DTD 与 XML Schema（XSD）

良构（well-formed）只要求语法正确；有效（valid）还要求满足你声明的规则集。对接银行、政务、SOAP、Spring 配置等场景时，「能解析」往往不够，还要「能通过 XSD/DTD」。

4.1 何时用 DTD，何时用 XSD？

维度	DTD	XML Schema (XSD)
表达能力	较弱，类型系统简单	强：数值范围、正则、复杂类型、约束丰富
命名空间	支持有限	一等公民，适合大型规范
典型场景	遗留系统、简单内部格式	企业集成、公开行业报文、现代 WebService

4.2 最小 DTD 与文档关联思路

内部子集或外部 SYSTEM 引用都能约束元素顺序与出现次数。若报「Element xxx not allowed」类错误，多半是子元素顺序或必填子节点缺失，与接口方 XSD 对照最快。

外部 DTD 引用（示意）

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE note SYSTEM "note.dtd">
<note>
  <to>服务方</to>
  <from>调用方</from>
  <body>正文</body>
</note>

4.3 XSD：noNamespaceSchemaLocation 与校验失败排查

常见写法是在根元素上挂 xsi:noNamespaceSchemaLocation 或基于 targetNamespace 的导入链。校验失败时，优先看第一个报错：往往是命名空间 URI 写错、元素名大小写不一致、枚举值不在列表内。

校验前先格式化

肉眼对齐 XSD 很费力，建议先把报文丢进 XML 格式化，再对照行号与元素层级。

返回顶部 ↑

5. XML 解析技术（从模型到报错）

主流模型分三类：DOM（整树进内存，适合中小文档）、SAX / StAX（流式，适合大文件或只关心部分路径）、以及各语言封装的Pull 解析器。选型本质是「内存占用 vs 编程复杂度」。

5.1 语言生态速览（便于你定向查文档）

浏览器：DOMParser、XMLSerializer；注意与 HTML 解析器差异。
Java：JAXP（DOM/SAX/StAX）、常见库如 Xerces。
Python：xml.etree.ElementTree、lxml（功能更全，XPath 体验好）。
.NET：System.Xml、XDocument。

5.2 典型解析错误与含义

日志关键词	常见根因
`not well-formed`	未闭合标签、非法字符、未转义的 `&` 等
`premature end of file`	截断、复制不全、网络传输被截断
`Invalid character`	控制字符、错误编码声明

安全提示：解析不可信 XML 时谨防 XXE、实体扩展炸弹（「十亿大笑攻击」）。生产环境应关闭外部实体、限制解析深度与大小。

返回顶部 ↑

6. XML 转换：XPath 与 XSLT

XPath 用于在树中定位节点，是 XSLT、XQuery 以及大量配置（如 Spring 的某些表达式）的基础。XSLT 把一份 XML 映射成另一份 XML/HTML/文本，适合「报表模板化」「协议报文变形」。

6.1 XPath 入门路径

从绝对路径开始：/root/child；再学轴（ancestor、descendant）。
谓词（predicates）：//item[@id='1']。
默认命名空间场景：务必在引擎里声明与文档一致的 xmlns，否则「看得见节点却选不中」。

可在本站 XPath 工具中对同一段 XML 反复试表达式，比死记语法更快。

6.2 XSLT 何时值得上？

当你需要可版本化的转换规则、与业务代码解耦、或对接方只接受「模板驱动」的映射时，XSLT 仍有优势；若团队以 TypeScript/Java 为主、转换频繁迭代，也可评估代码化方案，但 XML 侧仍建议保留 XSD 作为契约。

返回顶部 ↑

7. XML 最佳实践（工程向）

版本与编码：统一 UTF-8 无 BOM；声明与真实编码一致。
根与边界：对外接口文档写清「允许的单根标签名」与示例报文。
可演进性：谨慎使用「位置型」弱 schema；优先用显式元素名表达业务含义。
观测性：日志里打印行号时，同时落盘原始报文片段（注意脱敏）。

更细的命名、性能与拆分策略，见本站姊妹篇：《XML 最佳实践与性能优化》。

返回顶部 ↑

8. XML 应用场景（你很可能已经每天在碰）

Maven / Gradle：pom.xml、仓库元数据。
Java / .NET 配置：Spring applicationContext.xml、部分遗留 web.xml 片段。
移动端与清单：Android AndroidManifest.xml。
Web 与内容：RSS/Atom、SVG（本质也是 XML）。
集成与政务：SOAP Envelope、各类行业交换报文。
办公文档：Office Open XML（.docx / .xlsx 等 ZIP 包内大量 XML）。

这些场景的共同点是需要契约（XSD/DTD/规范 PDF）+ 可校验实例。把「官方样例 + 你的最小改动」放进格式化工具对比 diff，往往比从头手写更稳。

返回顶部 ↑

9. XML 与 JSON、YAML、Protocol Buffers 怎么选？

没有银弹：XML 强在「文档 + 校验 + 命名空间生态」；JSON 强在「Web API + 浏览器原生」；YAML 适合人类编辑的配置；Protobuf 适合高性能二进制 RPC。若你在做开放 HTTP API，JSON 往往是默认；若你在对接遗留 SOAP 或强 XSD 行业报文，XML 仍是主角。

更系统的对比与迁移策略：《XML 与 JSON：深度对比与选型》。需要互转时用 XML ⇄ JSON 互转做 PoC，再决定字段映射与命名空间处理。

返回顶部 ↑

说明：外部链接仅作学习索引；业务与合规请以官方规范及对接方 XSD/文档为准。

边读边练：本站在线工具

目录

0. 常见问题速查（先看这张表）

1. XML介绍

1.1 什么是XML？

1.2 XML的历史与发展

1.3 XML的重要性

2. XML语法基础

2.1 XML声明

2.2 元素与标签

2.3 属性

2.4 嵌套元素

2.5 空元素

2.6 注释

2.7 字符实体

2.8 CDATA部分

3. XML文档结构

3.1 文档根元素

3.2 元素层次结构

3.3 元素与属性的选择

3.4 命名空间

3.5 处理指令

3.6 DTD和XML Schema引用

4. XML 验证：DTD 与 XML Schema（XSD）

4.1 何时用 DTD，何时用 XSD？

4.2 最小 DTD 与文档关联思路

4.3 XSD：noNamespaceSchemaLocation 与校验失败排查

校验前先格式化

5. XML 解析技术（从模型到报错）

5.1 语言生态速览（便于你定向查文档）

5.2 典型解析错误与含义

6. XML 转换：XPath 与 XSLT

6.1 XPath 入门路径

6.2 XSLT 何时值得上？

7. XML 最佳实践（工程向）

8. XML 应用场景（你很可能已经每天在碰）

9. XML 与 JSON、YAML、Protocol Buffers 怎么选？

10. 学习资源、拓展阅读与在线工具

28APK 在线工具（建议收藏）

站内指南