Intel Labs avança no desenvolvimento de visão computacional com dois novos modelos de IA

Os modelos de IA de código aberto VI-Depth 1.0 e MiDaS 3.1 melhoram a estimativa de profundidade para visão computacional e agora estão disponíveis no GitHub.

Notícias

  • 23 de março de 2023

  • Entre em contato com o PR da Intel

  • Siga a redação da Intel nas redes sociais:

    Logotipo do Twitter
    Ícone do YouTube

author-image

Por

A estimativa de profundidade é uma tarefa desafiadora de visão computacional necessária para criar uma ampla variedade de aplicações em robótica, realidade aumentada (AR) e realidade virtual (VR). As soluções existentes muitas vezes se esforçam para estimar corretamente as distâncias, o que é um aspecto crucial para ajudar a planejar o movimento e evitar obstáculos quando se trata de navegação visual. Pesquisadores da Intel Labs estão abordando este problema lançando dois modelos de IA1 para estimativa de profundidade monocular: um para estimativa de profundidade visual-inercial e outro para estimativa de profundidade relativa robusta (RDE).

O modelo RDE mais recente, MiDaS versão 3.1, prevê profundidade relativa robusta usando apenas uma única imagem como entrada. Devido ao seu treinamento em um conjunto de dados grande e diversificado, ele pode executar com eficiência em uma ampla gama de tarefas e ambientes. A versão mais recente do MiDaS melhora a precisão do modelo para RDE em cerca de 30% com seu conjunto de treinamento maior e backbones codificadores atualizados.

O MiDaS foi incorporado em muitos projetos, mais notavelmente difusão estável 2.0, onde permite o recurso profundidade à imagem que infere a profundidade de uma imagem de entrada e, em seguida, gera novas imagens usando as informações de texto e profundidade. Por exemplo, o criador digital Scottie Fox usou uma combinação de Difusão Estável e MiDaS para criar um ambiente VR de 360 graus. Esta tecnologia pode levar a novas aplicações virtuais, incluindo a reconstrução da cena do crime para casos tribunais, ambientes terapêuticos para cuidados de saúde e experiências imersivas em jogos.

Intel apresenta MiDaS 3.1 para visão computacional

No final de 2022, a Intel Labs lançou o MiDaS 3.1, adicionando novos recursos e melhorias ao modelo de aprendizagem profunda de código aberto para estimativa de profundidade monocular na visão computacional. Treinado em conjuntos de dados de imagens grandes e diversificados, o MiDaS é capaz de fornecer profundidade relativa em domínios internos e externos, tornando-o um backbone versátil para muitas aplicações. (Crédito: Intel Corporation)

Embora o RDE tenha boa generalização e seja útil, a falta de escala diminui sua utilidade para tarefas downstream que requerem profundidade métrica, tais como mapeamento, planejamento, navegação, reconhecimento de objetos, reconstrução 3D e edição de imagens. Pesquisadores dos Laboratórios Intel estão abordando este problema lançando VI-Depth, outro modelo de IA que fornece uma estimativa precisa de profundidade.

VI-Depth é um duto de estimativa de profundidade visual-inercial que integra a estimativa de profundidade monocular e a odometria visual-inercial (VIO) para produzir estimativas densas de profundidade com uma escala métrica. Esta abordagem fornece uma estimativa precisa de profundidade, que pode ajudar na reconstrução da cena, mapeamento e manipulação de objetos.

A incorporação de dados inerciais pode ajudar a resolver a ambiguidade de escala. A maioria dos dispositivos móveis já contém unidades de medição inerciais (IMUs). O alinhamento global determina a escala global adequada, enquanto o alinhamento de escala densa (SML) opera localmente e empurra ou empurra regiões em direção à profundidade métrica correta. A rede SML aproveita o MiDaS como um backbone codificador. No pipeline modular, o VI-Depth combina a estimativa de profundidade orientada por dados com o modelo de previsão de profundidade relativa do MiDaS, juntamente com a unidade de medição do sensor de IMU. A combinação de fontes de dados permite que o VI-Depth gere profundidade métrica mais confiável e densa para cada pixel em uma imagem.

O MiDaS 3.1 e o VI-Depth 1.0 estão disponíveis sob uma licença de MIT de código aberto no GitHub.

Mais: Transformadores de visão para predição densa | Para uma estimativa robusta de profundidade monocular: mistura de conjuntos de dados para transferência de conjuntos de dados cruzados de tiro zero | Estimativa de profundidade visual-inercial monocular