本文讲述了在深度学习和LLM中实现可复现性的挑战,特别是使用Nvidia GPU时,浮点运算的非结合性以及硬件差异会导致结果不一致。文章分享了通过重写GEMM CUDA kernel,避免使用Tensor Cores,并确保运算顺序的确定性来解决这一问题,最终在不同硬件上实现了模型输出的一致性。