Los puntos clave no están disponibles para este artículo en este momento.
Las evaluaciones numéricas con comparaciones a líneas base juegan un papel central al juzgar la investigación en sistemas de recomendación. En este trabajo, mostramos que ejecutar líneas base correctamente es difícil. Demostramos este problema en dos conjuntos de datos estudiados exhaustivamente. Primero, mostramos que los resultados para líneas base que se han utilizado en numerosas publicaciones durante los últimos cinco años para el benchmark Movielens 10M son subóptimos. Con una configuración cuidadosa de una línea base de factorization matricial vanilla, no solo somos capaces de mejorar los resultados reportados para esta línea base, sino que incluso superamos los resultados reportados de cualquier método propuesto recientemente. En segundo lugar, recapitulamos el tremendo esfuerzo que se requirió por parte de la comunidad para obtener resultados de alta calidad para métodos simples en el Premio Netflix. Nuestros resultados indican que los hallazgos empíricos en artículos de investigación son cuestionables a menos que se obtengan en benchmarks estandarizados donde las líneas base hayan sido ajustadas extensivamente por la comunidad de investigación.
Rendle et al. (Sat,) estudiaron esta cuestión.