Este trabalho apresenta o VerifEval, um pipeline de avaliação de ponta a ponta para ambientes de verificação de hardware gerados por IA. O VerifEval mede a qualidade estática, fidelidade executável, cobertura estrutural, cobertura baseada em rastreio e sensibilidade à mutação em testbenches de SystemVerilog/UVM e cocotb/pyuvm. Avaliamos múltiplas linhas de base de grandes modelos de linguagem em cinco designs do OpenCores e mostramos que a cobertura estrutural e a qualidade de verificação são métricas complementares, com lacunas significativas restantes em planejamento e completude.
Razzaque et al. (Ter,) estudaram esta questão.