KNN的K如何取值

决策树的三种算法及其优劣

在这里插入图片描述

小尺寸的卷积代替大尺寸的卷积，可减少网络参数、增加网络深度、扩大感受野（例如：3 个 3 x 3 的卷积层的叠加可以替代7*7的卷积），网络深度越深感受野越大性能越好
- —why?为啥小尺寸代替大尺寸好啊？奥奥奥，如果是3个3×3的卷积，参数也才27，但一个7×7就49个参数了
对于分类任务来说，最后一层特征图的感受野大小要大于等于输入图像大小，否则分类性能会不理想？？这又是为啥
对于目标检测任务来说，若感受野很小，目标尺寸很大，或者目标尺寸很小，感受野很大，模型收敛困难，会严重影响检测性能；所以一般检测网络anchor的大小的获取都要依赖不同层的特征图，因为不同层次的特征图，其感受野大小不同，这样检测网络才会适应不同尺寸的目标

降维（ dimension reductionality ）——减少参数。比如，一张500 * 500且厚度depth为100 的图片在20个filter上做11的卷积，那么结果的大小为500500*20。
升维，用最少的参数提升通道数
加入非线性。卷积层之后经过激励层，1*1的卷积在前一层的学习表示上添加了非线性激励（ non-linear activation ），提升网络的表达能力；

首先，二分类里的概率公式是 $\hat{y}$ $P(y=0|x)=1-\hat{y}$
总结一下就是 $P(y|x)=\hat{y}^y\cdot (1-\hat{y})^{1-y}$
由于log函数是单调函数，所以 $P (y ∣ x)$ 和 $\log(P)$ 默认是一样的效果，而且log能将乘法转成加法，比较适合求导
和逻辑斯蒂的损失函数一致，为 $L\left(\hat{y}_{i}, y_{i}\right)=-\left[y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right]$
把样本量考虑进去，就是： $b)=\frac{1}{m} \sum_{i=1}^{m} L\left(\hat{y}_{i}, y_{i}\right)=-\frac{1}{m} \sum_{i=1}^{m}\left[y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right]$
疑问：为啥有log，log的底呢？