Ir para o conteúdo principal
Base de conhecimentos do Suporte

Por que o formato do modelo quantizado permaneceu FP32 em vez de INT8?

Tipo de conteúdo: Documentação e informações do produto   |   ID do artigo: 000095064   |   Última revisão: 13/06/2023

Descrição

  • Modelo ONNX quantizado com formato de precisão FP32.
  • Executei a compress_model_weights para reduzir o tamanho do arquivo bin após a realização da quantização pós-treinamento.
  • Compilei o modelo e notei que a saída do modelo está no FP32 em vez do INT8.

Resolução

Durante a quantização, apenas as operações necessárias em perspectiva de desempenho estavam sendo quantificadas. As operações restantes permanecerão como FP32 na saída.

Outras informações

Produtos relacionados

Este artigo aplica-se a 3 produtos.
Software do processador Intel® Xeon Phi™ OpenVINO™ toolkit Bibliotecas de desempenho

Avisos legais

O conteúdo desta página é uma combinação de tradução humana e por computador do conteúdo original em inglês. Este conteúdo é fornecido para sua conveniência e apenas para informação geral, e não deve ser considerado completo ou exato. Se houver alguma contradição entre a versão em inglês desta página e a tradução, a versão em inglês prevalecerá e será a determinante. Exibir a versão em inglês desta página.