RESUMEN Presentamos un enfoque para el modelado de temas con covariables a nivel de documento que sigue siendo manejable ante grandes corpus de texto. Esto se logra al desestimar el papel de la estimación de parámetros en un modelo probabilístico subyacente, asumiendo en cambio que los datos provienen de una distribución fija pero desconocida cuyos funcionales estadísticos son de interés. Proponemos combinar una formulación convexa de la factorización de matriz no negativa con técnicas de regresión estándar como una estimación rápida y útil de dicho funcional. La cuantificación de incertidumbre se puede lograr mediante métodos de remuestreo no paramétricos sobre este esquema. Esto contrasta con los paradigmas populares de modelado de temas, que postulan un modelo generativo complejo y a menudo difícil de ajustar de los datos. Argumentamos que el enfoque simple y no paramétrico aquí defendido es más rápido, más interpretable y goza de una mejor justificación inferencial que dichos modelos generativos. Finalmente, nuestros métodos son demostrados con una aplicación que analiza los efectos de covariables en el discurso de los sabores atribuidos a cervezas canadienses.
Phelan et al. (Jue,) estudiaron esta cuestión.