算法工程师面试题十三交叉熵函数-CFANZ编程社区

总结

代码见我GitHub

1.怎么来的？

2.用作什么？

常用于为模型计算损失。

3.交叉熵的公式

L = − ∑ i = 1 n y i ⋅ l o g ( y ^ i ) L=-{\sum_{i=1}^{n} y_i \cdot log (\hat y_i)} L=−i=1∑nyi⋅log(y^i) 其中 y y y是真实标签， y ^ i \hat y_i y^i是第i类标签的预测概率。

3.二分类中的交叉熵

3.1 公式

L o s s = − ( y ⋅ l o g ( y ^ ) + ( 1 − y ) ⋅ l o g ( 1 − y ^ ) ) Loss=-(y\cdot log(\hat{y})+(1-y) \cdot log(1-\hat{y})) Loss=−(y⋅log(y^)+(1−y)⋅log(1−y^))

这个公式也是从上面这个公式推导而来。

4. 多分类中的交叉熵

5 交叉熵计算损失时，是需要计算整个标签，还是只计算对应有值的两个标签？

理论上：需要对所有的one-hot 向量做交叉熵运算；但是如果是0-1分类，那么只需要计算对应的值就行了，因为有0的那部分计算无效。

6.动手计算交叉熵

数据集和标签定义如下
算法工程师面试题十三交叉熵函数_算法

直接使用交叉熵函数计算
算法工程师面试题十三交叉熵函数_深度学习_02

手动计算交叉熵
pytorch中CrossEntropyLoss的实现是LogSoftmax + NLLLoss，这样我们可以手动实现一下：

"""
2.手动计算交叉熵
"""
m = nn.LogSoftmax(dim=-1)
b = m(logits) # 得到归一化后的值
print(b)
nl = nn.NLLLoss() # 实例化对象时，可以选择使用weight,size_average 等参数
n_loss = nl(b,label) # 这里面是要和 NLLLoss 类中forward() 方法中的参数保持一致，也就是需要传入 input 和 target 
print(n_loss)

执行结果就是：

算法工程师面试题十三交叉熵函数_深度学习_03