xpath-CFANZ编程社区

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快地被开发者采用来当作小型查询语言。

一、xpath:

1. 简介:

xpath使用路径(类似文件路径)表达式在xml和html中进行定位具体元素.
xpath包含标准函数库.
xpath是一个w3c的标准.

XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。路径表达式是从一个XML节点（当前的上下文节点）到另一个节点、或一组节点的书面步骤顺序。这些步骤以“/”字符分开，每一步有三个构成成分：

轴描述（用最直接的方式接近目标节点）
节点测试（用于筛选节点位置和名称）
节点描述（用于筛选节点的属性和子节点特征）

一般情况下，我们使用简写后的语法。虽然完整的轴描述是一种更加贴近人类语言，利用自然语言的单词和语法来书写的描述方式，但是相比之下也更加啰嗦。

2. xpath节点关系:

父节点
子节点
同胞节点
先辈节点
后代节点

3. xpath语法:

表达式          说明
article         选取所有article元素的所有子节点
/article        选取根元素article
article/a       选取所有属于article的子元素的a元素
//div           选取所有div子元素(不论出现在文档任何地方)
article//div    选取所有属于article元素的后代的div元素，不管它出现在article之下的任何位置
//@class        选取所有名为class的属性

/article/div[1]         选取属于article子元素的第一个div元 素
/article/div[last()]    选取属于article子元素的最后一个div元素
/article/div[last()-1]  选取属于article子元素的倒数第二个div元素
//div[@lang]            选取所有拥有lang属性的div元素
//div[@lang='eng']      选取所有lang属性为eng的div元素

/div/*                   选取属于div元素的所有子节点
//*                      选取所有元素
//div[@*]                选取所有带属性的title元素
/div/a | //div/p         选取所有div元素的a和p元素
//span | //ul            选取文档中的span和ul元素
article/div/p | //span   选取所有属于article元素的div元素的p元素以及文档中所有的span元素

4. 快速得到xpath节点:

/html/body/div[2]/div[2]/div/div[2]/form/div/div/div/a[5]/div[2]/div