python中处理空间地理数据时,往往需要处理shp文件PyShp package可以用于shp文件的读取、写入等操作。
Shapefile属于一种矢量图形格式,它能够保存几何图形的位置及相关属性。但这种格式没法存储地理数据的拓扑信息。Shapefile在九十年代初的ArcView GIS的第二个版本被首次应用。许多自由的程序或商业的程序都可以读取Shapefile。
Shapefile是一种比较原始的矢量数据存储方式,它仅仅能够存储几何体的位置数据,而无法在一个文件之中同时存储这些几何体的属性数据。因此,Shapefile还必须附带一个二维表用于存储Shapefile中每个几何体的属性信息。Shapefile中许多几何体能够代表复杂的地理事物,并为他们提供强大而精确的计算能力。
Shapefile文件指的是一种文件存储的方法,实际上该种文件格式是由多个文件组成的。其中,要组成一个Shapefile,有三个文件是必不可少的,它们分别是".shp", ".shx"与 ".dbf"文件。表示同一数据的一组文件其文件名前缀应该相同。例如,存储一个关于湖的几何与属性数据,就必须有lake.shp,lake.shx与lake.dbf三个文件。而其中“真正”的Shapefile的后缀为shp,然而仅有这个文件数据是不完整的,必须要把其他两个附带上才能构成一组完整的地理数据。除了这三个必须的文件以外,还有八个可选的文件,使用它们可以增强空间数据的表达能力。所有的文件名都必须遵循MS DOS的8.3文件名标准(文件前缀名8个字符,后缀名3个字符,如shapefil.shp),以方便与一些老的应用程序保持兼容性,尽管现在许多新的程序都能够支持长文件名。此外,所有的文件都必须位于同一个目录之中。
必须的文件:
-
.shp— 图形格式,用于保存元素的几何实体。
-
.shx— 图形索引格式。几何体位置索引,记录每一个几何体在shp文件之中的位置,能够加快向前或向后搜索一个几何体的效率。
-
.dbf— 属性数据格式,以dBase IV的数据表格式存储每个几何形状的属性数据。
其他可选的文件:
-
.prj— 投帧式,用于保存地理坐标系统与投影信息,是一个存储well-known text投影描述符的文本文件。
-
.sbnand.sbx— 几何体的空间索引
-
.fbnand.fbx— 只读的Shapefiles的几何体的空间索引
-
.ainand.aih— 列表中活动字段的属性索引。
-
.ixs— 可读写Shapefile文件的地理编码索引
-
.mxs— 可读写Shapefile文件的地理编码索引(ODB格式)
-
.atx—.dbf文件的属性索引,其文件名格式为shapefile.columnname.atx(ArcGIS 8及之后的版本)
-
.shp.xml— 以XML格式保存元数据。
-
.cpg— 用于描述.dbf文件的代码页,指明其使用的字符编码。
在每个.shp,.shx与.dbf文件之中,图形在每个文件的排序是一致的。也就是说,.shp的第一条记录与.shx及.dbf之中的第一条记录相对应,如此类推。此外,在.shp与.shx之中,有许多字段的字节序是不一样的。因此用户在编写读取这些文件格式的程序时,必须十分小心地处理不同文件的不同字节序。
Shapefile通常以X与Y的方式来处理地理坐标,一般X对应经度,Y对应纬度,用户必须注意X,Y的顺序。
安装shapefile库。
这里使用pip install shapefile会报错,应使用 pip install pyshp 安装完成即可使用import shapefile
完成导入。
读取文件
import shapefile sf = shapefile.Reader('test.shp') # 读取shp文件 print('sf = ', sf) print('sf.shapeType = ', sf.shapeType) # 查询shp属性 NULL = 0; POINT =1;POLYLINE =3; POLYGON =5;MULTIPOINT =8; POINTZ=11;POLYLINZ=13;POLYGONZ=15;MULTIPOINTZ =18; POINTM=21;POLYLINEM =23;POLYGONM=25;MULTIPOINTM=28;MULTIPATCH=31 print('sf.shapeTypeName = ', sf.shapeTypeName) # shp属性的具体名称 print('sf.bbox = ', sf.bbox) # shp的bounds 界限 # print(sf.__geo_interface__) #获取整个shp文件属性(一般将shp文件转换为GeoJSON用到) print(sf.shape(240)) # 利用index获取其中单一shape shapes = sf.shapes() # 读取shape的geometry,输出为一个矩阵 print(shapes) # 每个shapes都可以独立查询其属性 print(shapes[0].shapeType) print(shapes[0].points) # 线上的每个点坐标(x,y) #获得shp文件的fields,每个field含有以下属性 ##Field name 描述数据的column index ##Field类型:'C'-字符;'N'-数字;'F'-浮点数;'L'-逻辑数;'D'-时间;'M'-Memo ## Field length 在这个列index下数据长度 ## Decimal length 小数点后的有效数位数 fields = sf.fields # print(fields) # 需要传入dbf文件 属性数据格式,以dBase IV的数据表格式存储每个几何形状的属性数据 # 获取 records records = sf.records() # 需要传入dbf文件 # print(records) # 将records整理为字典型 rcd = sf.record(1) dct = rcd.as_dict() print(dct) # 同时读取geometry and records shapeRecs = sf.shapeRecords() print(shapeRecs)