Key points are not available for this paper at this time.
Dieses Papier führt UnSeenTimeQA ein, eine neuartige zeit-sensitive Fragestellung (TSQA) Benchmark, die sich von traditionellen TSQA Benchmarks unterscheidet, indem sie faktische und webbasiert suchbare Anfragen vermeidet. Wir präsentieren eine Reihe von zeit-sensitive Ereignisszenarien, die von realen faktischen Informationen entkoppelt sind. Es erfordert, dass große Sprachmodelle (LLMs) sich an echtem zeitlichen Denken beteiligen, sich von dem Wissen zu lösen, das während der Vortrainingsphase erworben wurde. Unsere Evaluierung von sechs Open-Source LLMs (von 2B bis 70B in der Größe) und drei Closed-Source LLMs zeigt, dass die Fragen von UnSeenTimeQA erhebliche Herausforderungen darstellen. Dies deutet auf die Schwierigkeiten der Modelle im Umgang mit komplexen zeitlichen Denk-Szenarien hin. Darüber hinaus präsentieren wir mehrere Analysen, die Licht auf die Leistung der Modelle bei der Beantwortung zeit-sensitive Fragen werfen.
Uddin et al. (Mittw,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: