如图所示上面的图结构,网络相对于下面图结构网络来说收敛的速度慢一些,但是评估结果会高一些
而下面结构网络相对于上面的评估结果显示收敛速度会高一些,但是最后评估结果会低一些。
上面测定条件都是相同学习率轮数的对比。
可以多层堆叠,实验的时候是5层堆叠,可以根据不同的数据集和数据结构不断的尝试
还有就是,embeding层是决定最后评估结果的关键一般任务而言,如果该层被冻结,改变其他层基本是没有可能更大的上升空间。
所以embeding 必须随着网络的结构变化而变化才能,达到最好的结果
其实还有一点就是数据集,和最后是怎么评估的,对如nlp任务,评估不能使用数学公式实现,要使用逻辑代码加数学计算才可以评估,而且要使用已知信息进行合理关联,和相应的打分。
就如同一个人写的作文是没法给一个0分的。但是给满分也是极少数。
但是大多数都会有几个参考点。
所以找到不同nlp任务的不同参考和评估的点,再结合大量的文本信息关联,才能更好的评估网路结构的有效性。
不同的网络结构带来的是不同数学通用公式,任意结构的神经网络可写成任意数学公式。但是要将其表达为最接近的数学公式才能最好的推测和推导出,对任务的适配情况,不过即使不那么接近,只要通过公式推演并同时改变相应结构,带来的结果变化,也会慢慢的将网络结构和你想要表达的数学公式或者是目标结果接近。