数据
具体方法的采用,要综合成本和效率
1,数据收集
○ 爬取
网页爬取 -利用云 开多个实例比如100个,
○ 采集
2.数据标注
○ 半监督
○ 众包
○ 弱监督 基于一些规则的处理
这三种方法可以组合使用
3.数据探索
pandas 读取文本数据,建议采用.zip压缩格式,加快读取速度(从磁盘读取的速度)。
○ 值
无值
空值
Nan
○ 类型
○ 分布
■ 特别是和目标相关特征的数据分布
○ 相关性
4.数据清理
提升数据质量。
○ 问题数据训练出来的模型,性能会逐渐退化(模型迭代循环)
○ 数据错误
■ 值 不在正常分布区间内 outlier
■ 规则冲突 rule
■ 语法,语义(货币单位,拼写)-pattern
检测错误:类型数据(拼写),值数据(看分布),直接的映射关系等等
5.数据变形 格式变化
平衡大小(存储),读取速度和数据质量
○ 表数据
■ Normalization
● Min-Max Normalization
● Z-score Normalization :0 mean 1 stand deviation
● Decimal scaling 全部转化为小数 -1~1。之间
● log 压缩分布区间 log的加减等于源值乘除
○ Image Transformations
爬数据不是问题,关键是数据的存储(成本很高)及之后的处理
■ Downsampling and Cropping 下采样
● ML is good at kow-resolution images
● Be aware of jpeg qulity 80%~90% —》1% acc。drop
■ image whitening
○ 视频
■ 大小,质量,loading速度
■ 短视频 <10s(切割) 实际机器学习时,也是采样一些帧。这个比较耗机器,一般用GPU。存和读要综合考虑
■ 存储 压缩算法。
ML只能看 注相对短,(聚焦) 有用的片段,看不了太长的视频
○ Text Transformations
■ 词根化,语法化(针对英语,中文不存在)。机器学习不怎么关注语法
● Eg。car,cars,cas’s —》car ,Eg am,are,is—>be
■ Tokenization 词元化
word ,char,subwords
6.特征工程
- 深度学习,通过算法自动抽取特征。特征和参数一起学。(耗资源和金钱)<