Python处理空间地理数据-CFANZ编程社区

python中处理空间地理数据时，往往需要处理shp文件PyShp package可以用于shp文件的读取、写入等操作。

Shapefile属于一种矢量图形格式，它能够保存几何图形的位置及相关属性。但这种格式没法存储地理数据的拓扑信息。Shapefile在九十年代初的ArcView GIS的第二个版本被首次应用。许多自由的程序或商业的程序都可以读取Shapefile。

Shapefile是一种比较原始的矢量数据存储方式，它仅仅能够存储几何体的位置数据，而无法在一个文件之中同时存储这些几何体的属性数据。因此，Shapefile还必须附带一个二维表用于存储Shapefile中每个几何体的属性信息。Shapefile中许多几何体能够代表复杂的地理事物，并为他们提供强大而精确的计算能力。

Shapefile文件指的是一种文件存储的方法，实际上该种文件格式是由多个文件组成的。其中，要组成一个Shapefile，有三个文件是必不可少的，它们分别是".shp", ".shx"与 ".dbf"文件。表示同一数据的一组文件其文件名前缀应该相同。例如，存储一个关于湖的几何与属性数据，就必须有lake.shp，lake.shx与lake.dbf三个文件。而其中“真正”的Shapefile的后缀为shp，然而仅有这个文件数据是不完整的，必须要把其他两个附带上才能构成一组完整的地理数据。除了这三个必须的文件以外，还有八个可选的文件，使用它们可以增强空间数据的表达能力。所有的文件名都必须遵循MS DOS的8.3文件名标准（文件前缀名8个字符，后缀名3个字符，如shapefil.shp），以方便与一些老的应用程序保持兼容性，尽管现在许多新的程序都能够支持长文件名。此外，所有的文件都必须位于同一个目录之中。

必须的文件:

.shp— 图形格式，用于保存元素的几何实体。
.shx— 图形索引格式。几何体位置索引，记录每一个几何体在shp文件之中的位置，能够加快向前或向后搜索一个几何体的效率。
.dbf— 属性数据格式，以dBase IV的数据表格式存储每个几何形状的属性数据。

其他可选的文件：

.prj— 投帧式，用于保存地理坐标系统与投影信息，是一个存储well-known text投影描述符的文本文件。
.sbnand.sbx— 几何体的空间索引
.fbnand.fbx— 只读的Shapefiles的几何体的空间索引
.ainand.aih— 列表中活动字段的属性索引。
.ixs— 可读写Shapefile文件的地理编码索引
.mxs— 可读写Shapefile文件的地理编码索引(ODB格式)
.atx—.dbf文件的属性索引，其文件名格式为shapefile.columnname.atx(ArcGIS 8及之后的版本)
.shp.xml— 以XML格式保存元数据。
.cpg— 用于描述.dbf文件的代码页，指明其使用的字符编码。

在每个.shp,.shx与.dbf文件之中，图形在每个文件的排序是一致的。也就是说，.shp的第一条记录与.shx及.dbf之中的第一条记录相对应，如此类推。此外，在.shp与.shx之中，有许多字段的字节序是不一样的。因此用户在编写读取这些文件格式的程序时，必须十分小心地处理不同文件的不同字节序。

Shapefile通常以X与Y的方式来处理地理坐标，一般X对应经度，Y对应纬度，用户必须注意X，Y的顺序。

安装shapefile库。

这里使用pip install shapefile会报错，应使用 pip install pyshp 安装完成即可使用import shapefile

完成导入。

读取文件

import shapefile

sf = shapefile.Reader('test.shp')  # 读取shp文件
print('sf = ', sf)
print('sf.shapeType = ',
      sf.shapeType)  # 查询shp属性 NULL = 0; POINT =1;POLYLINE =3; POLYGON =5;MULTIPOINT =8; POINTZ=11;POLYLINZ=13;POLYGONZ=15;MULTIPOINTZ =18; POINTM=21;POLYLINEM =23;POLYGONM=25;MULTIPOINTM=28;MULTIPATCH=31

print('sf.shapeTypeName = ', sf.shapeTypeName)  # shp属性的具体名称
print('sf.bbox = ', sf.bbox)  # shp的bounds 界限
# print(sf.__geo_interface__)  #获取整个shp文件属性（一般将shp文件转换为GeoJSON用到）

print(sf.shape(240)) # 利用index获取其中单一shape
shapes = sf.shapes()  # 读取shape的geometry，输出为一个矩阵
print(shapes)
# 每个shapes都可以独立查询其属性
print(shapes[0].shapeType)
print(shapes[0].points)  # 线上的每个点坐标(x,y)

#获得shp文件的fields，每个field含有以下属性
##Field name 描述数据的column index
##Field类型：'C'-字符；'N'-数字；'F'-浮点数；'L'-逻辑数；'D'-时间；'M'-Memo
## Field length 在这个列index下数据长度
## Decimal length 小数点后的有效数位数

fields = sf.fields
# print(fields)  # 需要传入dbf文件 属性数据格式，以dBase IV的数据表格式存储每个几何形状的属性数据
# 获取 records
records = sf.records()  # 需要传入dbf文件
# print(records)
# 将records整理为字典型
rcd = sf.record(1)
dct = rcd.as_dict()
print(dct)
# 同时读取geometry and records
shapeRecs = sf.shapeRecords()
print(shapeRecs)