A expectativa é o formato FP16 executar inferência mais rápida quando comparado ao mesmo modelo no formato FP32. Usando os benchmark_app para executar inferência com as configurações padrão do aplicativo para ambos os formatos, mas não há melhoria de desempenho (FPS mais alto) ao comparar o modelo de formato FP16 com o modelo de formato FP32.
Para executar o modelo FP32 como formato F32 usando o benchmark_app, adicione -infer_precision f32 para o dispositivo escolhido.
Por exemplo:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
Para o plug-in GPU, a precisão de ponto flutuante de uma GPU primitiva é selecionada com base na precisão da operação no IR OpenVINO, exceto pela <compressão f16 OpenVINO forma IR, que é executada na f16 precisão.
Para o plug-in da CPU, a precisão de ponto flutuante padrão de uma CPU primitiva é f32. Para suportar o ir OpenVINO™ f16, o plugin converte internamente todos os valores f16 para f32 e todos os cálculos são executados usando a precisão nativa de f32. Em plataformas que suportam nativamente cálculos bfloat16 (têm a extensão AVX512_BF16 ou AMX), o tipo bf16 é usado automaticamente em vez de f32 para obter um desempenho melhor (consulte a Dica de modo de execução).
Para mais informações sobre os tipos de dados para plugins de CPU/GPU, consulte: