February 18, 2026Open Access

DAPFAM: Ein domänenbewusster Datensatz auf Familienebene zur Benchmarking von patentsübergreifender Retrieval

Key Points

Key points are not available for this paper at this time.

Abstract

Die Retrieval von Patent-Vorarbeiten wird besonders herausfordernd, wenn relevante Offenlegungen technologische Grenzen überschreiten. Vorhandene Benchmarks weisen keine expliziten Domänenpartitionen auf, was die Beurteilung, wie Retrieval-Systeme mit solchen Verschiebungen umgehen, erschwert. Wir führen DAPFAM ein, einen Benchmark auf Familienebene mit expliziten IN-Domain- und OUT-Domain-Partitionen, die durch ein neues IPC3-Überlappungsschema definiert werden. Der Datensatz enthält 1247 Abfragetypen und 45.336 Zieltypen, aggregiert auf Familienebene, um internationale Redundanzen zu reduzieren, mit zitationsbasierten Relevanzurteilen. Wir führen 249 kontrollierte Experimente durch, die lexikalische (BM25) und dichte (Transformer) Backends, Dokument- und Passage-retrieval, multiple Abfrage- und Dokumentdarstellungen, Aggregationsstrategien und hybride Fusion über Reciprocal Rank Fusion (RRF) umfassen. Die Ergebnisse zeigen eine ausgeprägte Domänenschwelle: Die OUT-Domain-Leistung bleibt in allen Konfigurationen ungefähr fünfmal niedriger als die IN-Domain. Passage-retrieval übertrifft durchgehend das Dokumenten-retrieval, und dichte Methoden bieten bescheidene Verbesserungen gegenüber BM25, aber keine schließt die OUT-Domain-Lücke. Das Dokumenten-retrieval mittels RRF bietet starke Effektivitäts-Effizienz-Abwägungen mit minimalem Overhead. Indem DAPFAM die anhaltende Herausforderung des cross-domain Retrieval aufzeigt, bietet es ein reproduzierbares, berechnungsbewusstes Testbed zur Entwicklung robusterer Patent-IR-Systeme. Der Datensatz ist öffentlich verfügbar auf huggingface in diesem Repository.

Bookmark

View Full Paper