8thFeb.2023

Last updated on February 8, 2023 pm

距离开学只有四天的时间了

今天接着把代码的问题解决一下,弄不清楚为什么所有的视频都会收敛到同一句话

看了一下一般的处理是要用mask把padding的单词都覆盖掉然后再用crossentrophy,还有embedding的部分也是,可能就是因为这个才导致有问题,还是没有搞清楚torch.reshape对梯度的传递到底会不会有影响

查了一下资料如果是用 torch.reshape(input,out_size)的这种写法应该是没问题的,因为auto_grad会记录来自于reshape的梯度改变,但是如果用data.reshape()的这种方式会造成问题。我的理解是这中间产生了一个临时变量用来存放reshape的值,而这个临时变量不属于计算图中的一部分所以就会导致出现问题。

所以建议还是使用torch封装好的函数,而不是调用tensor的方法