July 2, 2024Open Access

Statistische Vorteile von schrägen randomisierten Entscheidungsbäumen und -wäldern

Key Points

Key points are not available for this paper at this time.

Abstract

Diese Arbeit untersucht die statistischen Vorteile der Verwendung von Merkmalen, die aus allgemeinen linearen Kombinationen von Kovariaten bestehen, um die Daten in randomisierten Entscheidungsbaum- und Waldregressionsalgorithmen zu partitionieren. Mithilfe der Theorie der zufälligen Tessellation in der stochastischen Geometrie bieten wir eine theoretische Analyse einer Klasse von effizient generierten zufälligen Baum- und Waltschätzern, die schräge Splits entlang solcher Merkmale ermöglichen. Wir nennen diese Schätzer schräge Mondrian-Bäume und -Wälder, da die Bäume erzeugt werden, indem zuerst eine Menge von Merkmalen aus linearen Kombinationen der Kovariaten ausgewählt wird und dann ein Mondrian-Prozess durchgeführt wird, der die Daten hierarchisch entlang dieser Merkmale partitioniert. Allgemeine Fehlergrenzen und Konvergenzraten werden für die flexible Dimensionsreduktion Modellklasse der Ridge-Funktionen (auch bekannt als Multi-Index-Modelle) ermittelt, wobei angenommen wird, dass der Ausgang von einer niederdimensionalen relevanten Merkmalsunterraum des Eingabedomänen abhängt. Die Ergebnisse heben hervor, wie das Risiko dieser Schätzer von der Wahl der Merkmale abhängt und quantifizieren, wie robust das Risiko hinsichtlich der Fehler in der Schätzung relevanter Merkmale ist. Die asymptotische Analyse liefert auch Bedingungen für die ausgewählten Merkmale, entlang welcher die Daten für diese Schätzer gesplittet werden, um minimax optimale Konvergenzraten in Bezug auf die Dimension des relevanten Merkmalsunterraums zu erreichen. Zusätzlich wird eine Untergrenze für das Risiko von achsenangepassten Mondrian-Bäumen (bei denen die Merkmale auf die Menge der Kovariaten beschränkt sind) ermittelt, was beweist, dass diese Schätzer für diese linearen Dimensionsreduktionsmodelle im Allgemeinen suboptimal sind, unabhängig davon, wie die Verteilung der Kovariaten, die zur Aufteilung der Daten an jedem Baumknoten verwendet wird, gewichtet wird.

Statistische Vorteile von schrägen randomisierten Entscheidungsbäumen und -wäldern

Key Points

Abstract

Cite This Study