Este trabalho introduz uma estratégia de execução consciente semântica para cargas de trabalho em GPU que reduz o uso de memória em 82,31% por meio de um pipeline de otimização centrada em dados. A abordagem reestrutura grafos de execução usando dependências semânticas em vez de escalonamento estático, permitindo reutilização controlada de memória, redução da pressão de alocação e melhoria no rendimento computacional sem a necessidade de hardware especializado. O método proposto demonstra que cargas de trabalho em GPU em larga escala—tradicionalmente dependentes de placas de alta memória—podem ser executadas em dispositivos com menos recursos ao reconstruir o modelo de execução em torno do significado, em vez de alocação à força bruta. Este trabalho esboça o algoritmo de execução, o modelo de memória, os resultados experimentais e implicações para a democratização da computação de alto desempenho. Esta pré-impressão faz parte da Divisão de Pesquisa Node Zero, focada em computação de IA soberana e otimização acessível de GPU.
Emmanuel Sánchez Pache (Terça,) estudou esta questão.