0
点赞
收藏
分享

微信扫一扫

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)


学习要求:理解图像识别技术的原理和应用场景、API开发应用项目并完成部署

该课程分为三大块:

  1. 通用图像通用图像识别技术与应用
    细粒度图像理解技术与应用
  2. 人脸识别技术与应用
    API接入
    人脸库基础介绍
    人脸库操作开发指南
    解决方案Demo演示
  3. 文字识别文字识别基础介绍及应用场景
    文字识别API接入介绍
    自定义模板文字识别基础介绍
    自定义模板文字识别实际操作演示

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_视觉技术

通用图像

通用图像识别技术与应用

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_02


根据场景的不同,图像识别有三个分类:分类、检测与回归 通用图像分类


百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人脸识别_03

图像检测


百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_AI_04

图像分割


百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_视觉技术_05

图像问答


百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人工智能_06


图像特征表示:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_视觉技术_07

细粒度图像理解技术与应用

什么是细粒度图像分析?

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_08


在普通的图像分类里,这三张图都是豆腐,但是在细粒度分析里,第一和第三张会被分成麻婆豆腐

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人工智能_09


对于细粒度图像分类,我们需要识别更多信息

难点:

  1. 类内部的差异性比类与类之间的差异性大
  2. 需要识别的种类很多
  3. 数据收集与数据标注

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_视觉技术_10

人脸识别

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_11

技术与应用

人脸检测:

人脸检测对图片中的人脸进行定位,图示为国际数据集FDDB的检测结果,红色为百度人脸技术的预测结果,蓝色为人工标注结果

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人脸识别_12


关键点、跟踪、活体检测:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_13


人脸跟踪:普通配置的安卓手机可以做到实时跟踪

活体检测:眨眼、张嘴、头部姿态旋转角变化

人脸语义分割:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_14


左上角的图片是原图,左下角和右下角分别对人脸做了美白和唇彩的处理人脸属性分析:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_视觉技术_15


下面是人脸识别的实际应用场景:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_视觉技术_16

API接入

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人工智能_17


下面是人脸识别的文档:

https://ai.baidu.com/ai-doc/FACE/xk37c1jn6

人脸库基础介绍

人脸库管理相关接口,要完成1:N或者M:N识别,首先需要构建一个人脸库,用于存放所有人脸特征,相关接口如下:

  • 人脸注册:向人脸库中添加人脸
  • 人脸更新:更新人脸库中指定用户下的人脸信息
  • 人脸删除:删除指定用户的某张人脸
  • 用户信息查询:查询人脸库中某个用户的详细信息
  • 获取用户人脸列表:获取某个用户组中的全部人脸列表
  • 获取用户列表:查询指定用户组中的用户列表
  • 复制用户:将指定用户复制到另外的人脸组
  • 删除用户:删除指定用户
  • 创建用户组:创建一个新的用户组
  • 删除用户组:删除指定用户组
  • 组列表查询:查询人脸库中用户组的列表

具体细节可查看人脸库管理的官方文档:
https://ai.baidu.com/ai-doc/FACE/7k37c1twu

人脸库操作开发指南

调用方式:请求URL数据格式

向API服务地址使用POST发送请求,必须在URL中带上参数access_token,可通过后台的API Key和Secret Key生成,具体方式请参考“Access Token获取”。

代码示例(python):

# encoding:utf-8
import requests 

# client_id 为官网获取的AK, client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'
response = requests.get(host)
if response:
    print(response.json())

注意:access_token的有效期为30天,切记需要每30天进行定期更换,或者每次请求都拉取新token;

解决方案Demo演示

进入控制台并找到人脸识别:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人脸识别_18


下面是官方提供的方案架构:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人工智能_19

文字识别

文字识别基础介绍及应用场景

OCR基本概念:
OCR (Optical Character Recognition) :图像文字识别,是让计算机和人一样看图识字的人工智能技术

OCR功能介绍:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_20

文字识别API接入介绍

OCR功能:

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_python_21


下面是技术文档:

https://ai.baidu.com/ai-doc/OCR/Ek3h7xypm

自定义模板文字识别基础介绍

自定义模版文字识别

用户痛点:
现有的通用OCR技术无法找到"字段名”和"字段值"的对应关系

方案:
使用字段之间的相对位置关系,结合百度强大的NLP技术,实现"字段名"和"字段值"的匹配输出

优势:

  • 全场景:用户自助定义识别模版,轻轻松松适配所有场景(各类金融票据、医疗票据、证照类)
  • 简单易用:界面化的模版制作过程, 5min即可完成一个模版的制作
  • 更智能:对旋转、扭曲的图片进行智能的图像矫正

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人脸识别_22

自定义模板文字识别实际操作演示

进入链接即可打开:
https://ai.baidu.com/iocr

百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_AI_23


百度AI产品与应用学习路线之视觉技术(百度云智学院学习笔记)_人脸识别_24


举报

相关推荐

0 条评论