Pesos e precisão do modelo (FP32, FP16, INT8) afetam o desempenho de inferência.
O uso do formato FP32 resultaria na distribuição completa do peso e é conhecido como um único ponto flutuante de precisão.
Enquanto isso, os formatos FP16 e INT8 são formatos de peso comprimido, onde são espremidos para serem menores de tamanho. A troca dessas compressões é a precisão do modelo ou também conhecida como erro de quantização.
Quando mais bits alocados para representar dados, maior a faixa que eles podem representar e, potencialmente, a melhor precisão do modelo. No entanto, dados maiores exigem espaço de memória maior para seu armazenamento, largura de banda de memória mais alta necessária para transferi-lo e mais recursos de computação e tempo sendo usados.
Os Distribuição Intel® do kit de ferramentas OpenVINO™ de benchmark mostram diferenças óbvias em termos de desempenho entre diferentes formatos de peso ou precisão.