Los puntos clave no están disponibles para este artículo en este momento.
¿Cómo y hasta qué punto BERT codifica información jerárquica sensible a la sintaxis o información lineal sensible a la posición? Trabajos recientes han mostrado que las representaciones contextuales como BERT funcionan bien en tareas que requieren sensibilidad a la estructura lingüística. Presentamos aquí dos estudios que tienen como objetivo proporcionar una mejor comprensión de la naturaleza de las representaciones de BERT. El primero de estos se centra en la identificación de elementos definidos estructuralmente utilizando clasificadores diagnósticos, mientras que el segundo explora la representación de BERT del acuerdo entre sujeto y verbo y las dependencias antecesente-anáfora a través de una evaluación cuantitativa de los vectores de autoatención. En ambos casos, encontramos que BERT codifica bien la información posicional sobre los tokens de palabras en sus capas inferiores, pero cambia a una codificación orientada jerárquicamente en capas superiores. Concluimos que las representaciones de BERT sí modelan aspectos lingüísticamente relevantes de la estructura jerárquica, aunque no parecen mostrar la aguda sensibilidad a la estructura jerárquica que se encuentra en el procesamiento humano de la anáfora reflexiva.
Lin et al. (Tue,) estudiaron esta cuestión.