Stefan Wilson descartou Indy 500 após treino
Mar 06, 2023Todos os fãs da F1 pensaram a mesma coisa sobre o shunt Q2 dos companheiros de equipe da Mercedes
Mar 08, 2023[Mais recente] Tamanho/participação do mercado global (SST) de transformadores de estado sólido no valor de US$ 240 milhões até 2030 a um CAGR de 16%: Insights de mercado personalizados (análise, perspectivas, líderes, relatório, tendências, previsão, segmentação, crescimento, taxa de crescimento, valor )
Mar 10, 2023Mercado de transformadores de corrente óptica para atingir US $ 60,07 milhões até 2029, crescendo a um CAGR de 8,2% e previsão (2023
Mar 12, 2023Revisão de Transformers: A Ascensão das Feras
Mar 14, 2023Vision Transformers superam desafios com o novo 'Patch'
Publicados
sobre
Por
As tecnologias de inteligência artificial (IA), particularmente os Vision Transformers (ViTs), mostraram-se imensamente promissoras em sua capacidade de identificar e categorizar objetos em imagens. No entanto, sua aplicação prática tem sido limitada por dois desafios significativos: os altos requisitos de poder computacional e a falta de transparência na tomada de decisões. Agora, um grupo de pesquisadores desenvolveu uma solução inovadora: uma nova metodologia conhecida como "Atenção Patch-to-Cluster" (PaCa). O PaCa visa aprimorar os recursos dos ViTs na identificação, classificação e segmentação de objetos de imagem, ao mesmo tempo em que resolve os problemas de longa data de demandas computacionais e clareza na tomada de decisões.
Os transformadores, devido às suas capacidades superiores, estão entre os modelos mais influentes no mundo da IA. O poder desses modelos foi estendido para dados visuais por meio de ViTs, uma classe de transformadores treinados com entradas visuais. Apesar do tremendo potencial oferecido pelos ViTs na interpretação e compreensão de imagens, eles foram impedidos por alguns problemas importantes.
Primeiro, devido à natureza das imagens que contêm grandes quantidades de dados, os ViTs requerem poder computacional e memória substanciais. Essa complexidade pode ser esmagadora para muitos sistemas, especialmente ao lidar com imagens de alta resolução. Em segundo lugar, o processo de tomada de decisão dentro dos ViTs costuma ser complicado e opaco. Os usuários acham difícil compreender como os ViTs diferenciam entre vários objetos ou recursos em uma imagem, o que é crucial para inúmeras aplicações.
No entanto, a metodologia inovadora PaCa oferece uma solução para esses dois desafios. "Enfrentamos o desafio relacionado às demandas computacionais e de memória usando técnicas de agrupamento, que permitem que a arquitetura do transformador identifique e foque melhor os objetos em uma imagem", explica Tianfu Wu, autor correspondente de um artigo sobre o trabalho e professor associado da Engenharia Elétrica e de Computação na North Carolina State University.
O uso de técnicas de agrupamento em PaCa reduz drasticamente os requisitos computacionais, transformando o problema de um processo quadrático em um linear gerenciável. Wu explica ainda mais o processo: "Ao agrupar, podemos tornar isso um processo linear, em que cada unidade menor só precisa ser comparada a um número predeterminado de agrupamentos".
O agrupamento também serve para esclarecer o processo de tomada de decisão em ViTs. O processo de formação de clusters revela como o ViT decide quais recursos são importantes para agrupar as seções dos dados da imagem. Como a IA cria apenas um número limitado de clusters, os usuários podem entender e examinar facilmente o processo de tomada de decisão, melhorando significativamente a interpretabilidade do modelo.
Por meio de testes abrangentes, os pesquisadores descobriram que a metodologia PaCa supera outras ViTs em várias frentes. Wu elabora: "Descobrimos que o PaCa superou o SWin e o PVT em todos os aspectos". O processo de teste revelou que PaCa se destacou na classificação e identificação de objetos dentro de imagens e segmentação, delineando com eficiência os limites dos objetos nas imagens. Além disso, verificou-se ser mais eficiente em termos de tempo, realizando tarefas mais rapidamente do que outros ViTs.
Incentivado pelo sucesso do PaCa, a equipe de pesquisa pretende promover seu desenvolvimento treinando-o em conjuntos de dados fundamentais maiores. Ao fazer isso, eles esperam ultrapassar os limites do que é atualmente possível com a IA baseada em imagens.
O trabalho de pesquisa, "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", será apresentado na próxima Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões. É um marco importante que pode abrir caminho para sistemas de IA mais eficientes, transparentes e acessíveis.
Líderes de tecnologia destacam os riscos da IA e a urgência de uma regulamentação robusta da IA
Alex McFarland é um escritor brasileiro que cobre os últimos desenvolvimentos em inteligência artificial. Ele trabalhou com as principais empresas e publicações de IA em todo o mundo.