华为云“云上先锋”生活垃圾图片分类-CFANZ编程社区

机器学习AI算法工程公众号：datayx

在2020.12-2021.1这段时间和师兄参加了华为云“云上先锋”·AI主题赛（垃圾分类），最后拿到了第7名（7/1405）的成绩，在最终榜单上分数为96.64

赛题描述

本赛题采用深圳市垃圾分类标准，赛题任务是对垃圾图片进行分类，即首先识别出垃圾图片中物品的类别（比如易拉罐、果皮等），然后查询垃圾分类规则，输出该垃圾图片中物品属于可回收物、厨余垃圾、有害垃圾和其他垃圾中的哪一种。

模型输出格式示例：

{undefined
" result ": “可回收物/易拉罐”
}

数据说明

本次比赛提供的训练集中包含了43类生活中常见垃圾，参赛者可自行划分用于模型调优用的验证集和测试集。

datasets

|- train_data ( 训练集目录，包含垃圾图片和对应的标签文件（.txt))

|- garbage_classify_rule.json (垃圾分类规则字典，key值是id，value是“垃圾种类/具体物品名”。

例如训练数据标签文件img1.txt的内容是“img_1.jpg, 0”，表示img_1.jpg这张图中的垃圾是“其他垃圾/一次性快餐盒”。)

评分标准

如上文模型输出格式示例中，模型预测的物品类别是“易拉罐”，如果图片的真实类别是易拉罐，则这张图片预测正确，否则预测错误。评价指标的计算方式是：

识别准确率 = 识别正确的图片数 / 图片总数

识别准确率的数值即为最终的模型评分。

代码获取方式：

关注微信公众号 datayx 然后回复垃圾分类即可获取。

数据分析

这次也是属于图像分类的一种，但是官方要求不能使用多模型融合和TTA，只能看单模型的泛化能力，所以要在单模型上挖掘出最大潜能。图像训练集总共包含43类，2.1W张，这个比赛在2019年已经有过类似的了，当时是40类，为了增强泛化，我们把上一届比赛某获奖方案中自行添加的4K数据也加了进来。后续结果证明，因为这个附加数据已经经过筛选，加入后会带来0.2左右的提升。

下面是做一个数据可视化分析：

类别说明：

{undefined

“0”: “其他垃圾/一次性快餐盒”,

“1”: “其他垃圾/污损塑料”,

“2”: “其他垃圾/烟蒂”,

“3”: “其他垃圾/牙签”,

“4”: “其他垃圾/破碎花盆及碟碗”,

“5”: “其他垃圾/竹筷”,

“6”: “厨余垃圾/剩饭剩菜”,

“7”: “厨余垃圾/大骨头”,

“8”: “厨余垃圾/水果果皮”,

“9”: “厨余垃圾/水果果肉”,

“10”: “厨余垃圾/茶叶渣”,

“11”: “厨余垃圾/菜叶菜根”,

“12”: “厨余垃圾/蛋壳”,

“13”: “厨余垃圾/鱼骨”,

“14”: “可回收物/充电宝”,

“15”: “可回收物/包”,

“16”: “可回收物/化妆品瓶”,

“17”: “可回收物/塑料玩具”,

“18”: “可回收物/塑料碗盆”,

“19”: “可回收物/塑料衣架”,

“20”: “可回收物/快递纸袋”,

“21”: “可回收物/插头电线”,

“22”: “可回收物/旧衣服”,

“23”: “可回收物/易拉罐”,

“24”: “可回收物/枕头”,

“25”: “可回收物/毛绒玩具”,

“26”: “可回收物/洗发水瓶”,

“27”: “可回收物/玻璃杯”,

“28”: “可回收物/皮鞋”,

“29”: “可回收物/砧板”,

“30”: “可回收物/纸板箱”,

“31”: “可回收物/调料瓶”,

“32”: “可回收物/酒瓶”,

“33”: “可回收物/金属食品罐”,

“34”: “可回收物/锅”,

“35”: “可回收物/食用油桶”,

“36”: “可回收物/饮料瓶”,

“37”: “有害垃圾/干电池”,

“38”: “有害垃圾/软膏”,

“39”: “有害垃圾/过期药物”,

“40”: “可回收物/毛巾”,

“41”: “可回收物/饮料盒”,

“42”: “可回收物/纸袋”

}

华为云“云上先锋”生活垃圾图片分类_特征工程

上图可以看到类别还是不太平衡的，后续结果表明，虽然类似于3,20,40,41,42的数据较少，但在这些类别上的正确率还不错，没有表现出很恶劣的情况。我们在训练时把数据划分为9-1格式，90%train，10%val，最后也尝试过全部数据进行训练，但是结果一直不太好，还没能超越9-1划分最高分。

做数据增强的时候，发现很多垃圾图片都是对称的，还有轻微的旋转角度，所以也没有加入过多的数据增强。

华为云“云上先锋”生活垃圾图片分类_特征工程_02

最终选择的训练数据增强操作如下：

华为云“云上先锋”生活垃圾图片分类_深度学习_03

这里的 input_size / 0.934 是针对 tf_efficientnet_b5_ns 模型456输入的cropt_pct，对应普通的224输入就是 input_size/0.875 。

模型训练

1.网络选择

最开始用resnet50跑了一个baseline，提交后再换不同模型，这些操作都比较无脑，就是加大分辨率大模型了，因为之前ACCV细粒度分类比赛第2名使用了efficientnet的ns模型，这次延续了上次的做法，改为timm库中的tf_efficientnet_bx_ns 系列,这个在imagent上的Top1准确率表现很不错

华为云“云上先锋”生活垃圾图片分类_特征工程_04