Analyse de régression avec des données manquantes est un problème ancien et complexe, en particulier lorsque de nombreuses variables sont manquantes avec des motifs de manque arbitraires. Les méthodes basées sur la vraisemblance, bien que théoriquement attrayantes, sont souvent inefficaces sur le plan computationnel ou même irréalisables lorsqu'il s'agit d'un grand nombre de variables manquantes. Dans cet article, nous considérons le modèle de régression de Cox avec des covariables incomplètes qui sont manquantes au hasard. Nous développons un algorithme d'attente-maximisation (EM) pour l'estimation de vraisemblance maximale non paramétrique, en utilisant une technique de transformation dans l'étape E afin qu'elle n'implique qu'une intégration unidimensionnelle. Cette innovation rend nos méthodes accessibles computationnellement même lorsque le nombre de variables manquantes est élevé. De plus, pour la sélection de variables, nous étendons l'algorithme EM proposé pour inclure une pénalité de Lasso dans la vraisemblance. Nous démontrons la faisabilité et les avantages des méthodes proposées à travers des études de simulation à grande échelle et appliquons les méthodes proposées à une étude génomique sur le cancer.
Kwok et al. (Sun,) ont étudié cette question.