Key points are not available for this paper at this time.
Wir stellen einen neuen großangelegten NLI-Maßstabsdatensatz vor, der durch ein iteratives, adversariales Verfahren mit Mensch und Modell in der Schleife gesammelt wurde. Wir zeigen, dass das Training von Modellen mit diesem neuen Datensatz zu einer Spitzenleistung bei einer Vielzahl beliebter NLI-Maßstäbe führt, während es mit seinem neuen Testset eine schwierigere Herausforderung darstellt. Unsere Analyse wirft Licht auf die Schwächen aktueller Spitzenmodelle und zeigt, dass Nicht-Expertenannotatoren erfolgreich deren Schwächen aufspüren können. Die Methode zur Datensammlung kann in einem endlosen Lernszenario angewendet werden, das zu einem sich bewegenden Ziel für NLU wird, anstatt ein statischer Maßstab zu sein, der schnell saturiert.
Nie et al. (Do,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: