February 1, 2000

Probabilistische und statistische Eigenschaften von Wörtern: Ein Überblick

Key Points

Key points are not available for this paper at this time.

Abstract

Im Folgenden wird ein Überblick über die statistischen und probabilistischen Eigenschaften von Wörtern gegeben, wie sie in der Analyse biologischer Sequenzen vorkommen. Häufigkeiten, Häufigkeiten von Clustern und Erneuerungshäufigkeiten werden unterschieden, und genaue Verteilungen sowie Normalapproximationen, Poissonprozess-Approximationen und zusammengesetzte Poissonapproximationen werden abgeleitet. Hier wird eine Sequenz als stationäre ergodische Markovkette modelliert; ein Test zur Bestimmung der geeigneten Ordnung der Markovkette wird beschrieben. Die Konvergenzergebnisse berücksichtigen den Fehler, der durch die Schätzung der markovischen Übergangswahrscheinlichkeiten entsteht. Die Hauptinstrumente sind Momentgenerierungsfunktionen, Martingale, Steins Methode und die Chen-Stein-Methode. Ähnliche Ergebnisse werden für die Vorkommen mehrerer Muster gegeben, und als Beispiel wird das Problem der einzigartigen Wiederherstellbarkeit einer Sequenz aus SBH-Chip-Daten diskutiert. Besonderer Wert wird auf die Entwirrung der komplizierten Abhängigkeitsstruktur zwischen Wortvorkommen gelegt, sowohl aufgrund von Selbstüberlappung als auch aufgrund von Überlappung zwischen Wörtern. Die Ergebnisse können verwendet werden, um ungefähre und konservative Konfidenzintervalle für Tests abzuleiten.

KI fragen

Bookmark