A latência mede o tempo de inferência necessário para processar uma única entrada se inferir de forma síncrona.
Ao executar OpenVINO™ Benchmark com parâmetros padrão, ele está inferindo no modo assíncrono. Portanto, a latência resultado mede o tempo total de inferência necessário para processar o número de solicitações de inferência.
Além disso, ao executar o Aplicativo benchmark na CPU com parâmetros padrão, são criadas 4 solicitações de inferência, enquanto 16 solicitações de inferência são criadas ao executar o Aplicativo benchmark na GPU com parâmetros padrão. Assim, a latência de inferência na GPU é maior do que na CPU.
Especifique o mesmo número de solicitações de inferência ao executar o aplicativo benchmark na CPU e na GPU para uma comparação justa:
benchmark_app.exe -m model.xml -d CPU -nireq 4
benchmark_app.exe -m model.xml -d CPU -nireq 4