学习要求:理解图像识别技术的原理和应用场景、API开发应用项目并完成部署
该课程分为三大块:
-
通用图像通用图像识别技术与应用
细粒度图像理解技术与应用 -
人脸识别技术与应用
API接入
人脸库基础介绍
人脸库操作开发指南
解决方案Demo演示 -
文字识别文字识别基础介绍及应用场景
文字识别API接入介绍
自定义模板文字识别基础介绍
自定义模板文字识别实际操作演示
通用图像
通用图像识别技术与应用
根据场景的不同,图像识别有三个分类:分类、检测与回归 通用图像分类
图像检测
图像分割
图像问答
图像特征表示:
细粒度图像理解技术与应用
什么是细粒度图像分析?
在普通的图像分类里,这三张图都是豆腐,但是在细粒度分析里,第一和第三张会被分成麻婆豆腐
对于细粒度图像分类,我们需要识别更多信息
难点:
- 类内部的差异性比类与类之间的差异性大
- 需要识别的种类很多
- 数据收集与数据标注
人脸识别
技术与应用
人脸检测:
人脸检测对图片中的人脸进行定位,图示为国际数据集FDDB的检测结果,红色为百度人脸技术的预测结果,蓝色为人工标注结果
关键点、跟踪、活体检测:
人脸跟踪:普通配置的安卓手机可以做到实时跟踪
活体检测:眨眼、张嘴、头部姿态旋转角变化
人脸语义分割:
左上角的图片是原图,左下角和右下角分别对人脸做了美白和唇彩的处理人脸属性分析:
下面是人脸识别的实际应用场景:
API接入
下面是人脸识别的文档:
https://ai.baidu.com/ai-doc/FACE/xk37c1jn6
人脸库基础介绍
人脸库管理相关接口,要完成1:N或者M:N识别,首先需要构建一个人脸库,用于存放所有人脸特征,相关接口如下:
- 人脸注册:向人脸库中添加人脸
- 人脸更新:更新人脸库中指定用户下的人脸信息
- 人脸删除:删除指定用户的某张人脸
- 用户信息查询:查询人脸库中某个用户的详细信息
- 获取用户人脸列表:获取某个用户组中的全部人脸列表
- 获取用户列表:查询指定用户组中的用户列表
- 复制用户:将指定用户复制到另外的人脸组
- 删除用户:删除指定用户
- 创建用户组:创建一个新的用户组
- 删除用户组:删除指定用户组
- 组列表查询:查询人脸库中用户组的列表
具体细节可查看人脸库管理的官方文档:
https://ai.baidu.com/ai-doc/FACE/7k37c1twu
人脸库操作开发指南
调用方式:请求URL数据格式
向API服务地址使用POST发送请求,必须在URL中带上参数access_token,可通过后台的API Key和Secret Key生成,具体方式请参考“Access Token获取”。
代码示例(python):
# encoding:utf-8
import requests
# client_id 为官网获取的AK, client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'
response = requests.get(host)
if response:
print(response.json())
注意:access_token的有效期为30天,切记需要每30天进行定期更换,或者每次请求都拉取新token;
解决方案Demo演示
进入控制台并找到人脸识别:
下面是官方提供的方案架构:
文字识别
文字识别基础介绍及应用场景
OCR基本概念:
OCR (Optical Character Recognition) :图像文字识别,是让计算机和人一样看图识字的人工智能技术
OCR功能介绍:
文字识别API接入介绍
OCR功能:
下面是技术文档:
https://ai.baidu.com/ai-doc/OCR/Ek3h7xypm
自定义模板文字识别基础介绍
自定义模版文字识别
用户痛点:
现有的通用OCR技术无法找到"字段名”和"字段值"的对应关系
方案:
使用字段之间的相对位置关系,结合百度强大的NLP技术,实现"字段名"和"字段值"的匹配输出
优势:
- 全场景:用户自助定义识别模版,轻轻松松适配所有场景(各类金融票据、医疗票据、证照类)
- 简单易用:界面化的模版制作过程, 5min即可完成一个模版的制作
- 更智能:对旋转、扭曲的图片进行智能的图像矫正
自定义模板文字识别实际操作演示
进入链接即可打开:
https://ai.baidu.com/iocr