Como o Visual SLAM cria câmaras que conseguem ver

5 mín.
Uma ilustração em 3D de um armazém, com prateleiras à esquerda e à direita que contêm caixas de cartão castanhas empilhadas. No centro, entre as prateleiras, está um robô plano amarelo e preto a transportar uma caixa pelo corredor.

Como consegue o robô ver quando está prestes a bater contra algo? Bem, tecnicamente não consegue, porque os robôs não têm olhos, tontinho. Mas têm a capacidade de calcular onde estão no espaço através de uma combinação de tecnologias. Por isso, embora não seja uma visão real, está bastante perto de o ser e, se pensar no assunto, é também incrivelmente interessante. Afinal de contas, sem qualquer tipo de visão, até o robô mais inteligente é inútil, não é?

E é por isto que a robótica continua a ser um dos maiores desafios tecnológicos da atualidade. Requer uma combinação de muitas áreas de especialização diferentes, desde várias disciplinas da engenharia robótica, de controlo, mecânica e elétrica, a competências em desenvolvimento de software, materiais, mecatrónica e muito mais. Cada elemento deve funcionar sem problemas dentro do sistema completo e isso cria um equilíbrio delicado. A forma como o robô se move, por exemplo, é ditada pelos materiais utilizados para o construir e pela forma como cada um destes componentes funciona em conjunto, como se movem e como são alimentados. No entanto, se quiser que ele se mova de forma independente, como é que o robô o conseguirá fazer se não tiver uma forma de "ver" para onde está a ir?

Naturalmente, as tecnologias óticas e de imagem são a nossa especialidade, por isso, não é surpreendente que a Canon já esteja a trabalhar nesta área específica da robótica há bastante tempo. Há mais de trinta anos, na verdade. Atualmente, chama-se Visual SLAM, o que é irónico, considerando que "slamming", ou em português "colidir", contra algo é precisamente o que a tecnologia evita. A SLAM ou "Localização e mapeamento simultâneos" (um nome que é menos cativante, mas certamente mais preciso) é uma tecnologia que calcula, em simultâneo, a posição e a estrutura da área circundante de um robô. O sistema Visual SLAM original foi criado para unir os mundos real e virtual num dispositivo de realidade virtual, que agora conhecemos como a realidade mista. Atualmente, o Visual SLAM pode ser utilizado em todos os tipos de tarefas automatizadas de várias indústrias, desde o fabrico e a hotelaria aos cuidados de saúde e à construção.

Um quarto de hospital que contém uma cama médica. Ao lado da cama encontra-se uma haste de soro. No outro lado, está um armário azul de plástico com uma gaveta. Um telefone está pousado sobre o armário. À esquerda da cama está uma janela de grandes dimensões que deixa a luz entrar.

"O Visual SLAM pode ser utilizado em instalações médicas para servir alimentos e medicamentos a pacientes de alto risco que, por motivos de segurança, precisam de ter o mínimo de contacto possível"

Como funciona o Visual SLAM?

Os robôs móveis, tais como os AGV (veículos guiados automaticamente) e os AMR (robôs móveis autónomos) já são comuns em armazéns e operações logísticas e, muitas vezes, são guiados através de um percurso de fitas magnéticas afixadas no chão. Como se pode imaginar, este método é dispendioso, a instalação é demorada e, acima de tudo, cria inflexibilidade. Se os AGV e os AMR apenas funcionarem num percurso fixo, o que acontece quando o percurso precisar de ser alterado? Ou se um negócio precisar de mudar as suas operações rapidamente? Por isso, uma abordagem "sem percurso fixo" é altamente desejável num mundo onde, sejamos realistas, as coisas mudam.

A resposta é utilizar um dos dois tipos de SLAM. O primeiro é o LiDAR, que significa "deteção e alcance de luz" e utiliza impulsos de laser para medir as distâncias e as formas das estruturas circundantes. Apesar de os sistemas LiDAR serem excelentes, uma vez que funcionam em áreas pouco iluminadas, geralmente utilizam sensores que apenas realizam digitalização horizontal, o que limita imediatamente a informação que um robô pode obter em superfícies bidimensionais. Isto não ocorre porque é impossível obter informação de três dimensões, é apenas incrivelmente caro. O outro problema do LiDAR é que, se não existirem objetos suficientes para o robô "ver", terão de ser instalados objetos 3D ao redor do percurso.

Em vez de lasers, o Visual SLAM da Canon utiliza câmaras como sensores, o que é mais barato do que o LiDAR, mas continua a proporcionar uma medição de alta precisão. A combinação das imagens de vídeo com uma técnica de análise proprietária identifica as formas 3D das estruturas e, em conjunto, estas informações criam a "localização" presente no nome SLAM. Surpreendentemente, isto abrange até objetos com superfícies planas, como pósteres na parede, pelo que não necessita de instalar quaisquer objetos 3D adicionais, como faz o LiDAR. Isto também significa que pode ser utilizado em muitos mais locais e situações e, uma vez que também pode ser utilizado para o reconhecimento de imagens, existem outras formas de utilizar o Visual SLAM, como drones ou robôs de serviços.

A Canon já trabalha nesta área específica da robótica há bastante tempo. Há mais de trinta anos, na verdade."

Como é que compreende a mudança?

Uma vez que o espaço em que os AGV e os AMR funcionam é altamente mutável, o Visual SLAM precisa também de ser inteligente. As imagens obtidas pelas câmaras estéreo esquerda e direita são continuamente processadas pelo "software de navegação com base na visualização para AGV" da Canon, que transforma, em tempo real, as imagens em mapas 3D e atualiza-os automaticamente. É uma grande quantidade de informação de precisão para processar, mas foi concebido para funcionar em tempo real, mesmo num computador básico. A natureza constante de captura e processamento significa que os robôs que utilizam o Visual SLAM podem, essencialmente, "navegar" de forma autónoma.

Isto torna-o ideal para robôs em todos os tipos de espaços, especialmente naqueles onde os seres humanos podem ser expostos a perigos. Por exemplo, o transporte de materiais perigosos dentro de instalações de produtos químicos ou em qualquer lugar onde o movimento de produtos sem contacto é necessário para a segurança humana. Sugere-se até que os robôs que utilizam o Visual SLAM podem ser utilizados em instalações médicas para servir alimentos e medicamentos a pacientes de alto risco que, por motivos de segurança durante o tratamento, precisam de ter o mínimo de contacto possível. Estes ambientes são dinâmicos e mudam rapidamente, pelo que a capacidade de um robô "aprender" durante o funcionamento é essencial.

Tal como acontece com todas as tecnologias interdisciplinares, à medida que um elemento avança, abre oportunidades para os outros e, naturalmente, podemos esperar o mesmo da visão do robô. Afinal de contas, as nossas técnicas óticas, de sensor e de processamento de imagem foram aperfeiçoadas através do desenvolvimento das nossas câmaras e objetivas. Criar "olhos" de robô económicos e acessíveis a todas as indústrias é apenas mais um passo que nos aproxima do tipo de soluções automatizadas que tornam o dia a dia mais seguro, mais confortável e mais conveniente para todos.

Descubra mais sobre as tecnologias Visual SLAM da Canon no Website Global da Canon.

Relacionado