Fluxo de otimização de modelos com OpenVINO
No último parágrafo do Guia de otimização de baixa precisão, é mencionado o treinamento consciente de quantização. Ele diz que isso permite que um usuário obtenha um modelo otimizado preciso que pode ser convertido em IR. No entanto, não são fornecidos outros detalhes.
O treinamento com conhecimento de quantização, usando OpenVINO™ estruturas de treinamento compatíveis, suporta modelos escritos em TensorFlow QAT ou PyTorch NNCF, com extensões de otimização.
O NNCF é uma estrutura baseada em PyTorch que suporta uma ampla variedade de modelos de Deep Learning para vários casos de uso. Ele também implementa treinamentos com reconhecimento de quantização que suportam diferentes modos e configurações de quantização e suporta vários algoritmos de compressão, incluindo quantização, binarização, esparsidade e podagem de filtros.
Quando o ajuste fino terminar, o modelo otimizado precisa pode ser exportado para o formato ONNX, que pode ser usado pelo Otimizador de Modelos para gerar arquivos de Representação Intermediária (IR) e posteriormente inferir com o mecanismo de inferência OpenVINO™.