该文档描述了concrete.ml.torch.compile模块,该模块提供了将 PyTorch 和 ONNX 模型编译为 FHE 等效形式的功能。
concrete.ml.torch.compile
本文讲述了在深度学习和LLM中实现可复现性的挑战,特别是使用Nvidia GPU时,浮点运算的非结合性以及硬件差异会导致结果不一致。文章分享了通过重写GEMM CUDA kernel,避免使用Tensor Cores,并确保运算顺序的确定性来解决这一问题,最终在不同硬件上实现了模型输出的一致性。