Carregar a Representação Intermediária (IR) de um modelo de entrada para a GPU leva mais tempo do que carregar o mesmo modelo para uma CPU.
Crie manualmente cl_cache diretório no diretório de trabalho de sua aplicação.
O driver usará este diretório para armazenar as representações binárias dos kernels compilados. Isso funcionará em todos os OSes suportados.
Como alternativa, defina a variável de ambiente:
export INTEL_OPENCL_CACHE=1
Consulte este artigo para obter a visão geral de cache de modelo para otimizar a latência.
O carregamento do seu modelo de entrada no formato de Representação Intermediária (IR) para a GPU leva mais tempo do que carregar o mesmo modelo em uma CPU porque a pilha de GPU é baseada em OpenCL*. O tempo de carregamento depende do tempo de compilação dos kernels OpenCL*.
Quando você ativa a cl_cache, a primeira vez que você carrega o modelo, ainda levará muito tempo, porque o kernel openCL* será compilado. No entanto, cada carga subsequente do mesmo modelo será muito mais rápida.
Para configuração de cache programático no OpenVINO™ 2026.0:
core.set_property("GPU", {"CACHE_DIR": "./cl_cache"})