Key points are not available for this paper at this time.
Les données liées ou en réseau sont omniprésentes dans de nombreuses applications. Parmi les exemples, citons les données Web ou les documents hypertextes connectés via des hyperliens, les réseaux sociaux ou les profils d'utilisateurs connectés par des liens d'amis, les informations de co-auteurs et de citations, les données de blogs, les avis sur les films, etc. Dans ces ensembles de données (appelés "réseaux d'information"), des objets étroitement liés partageant les mêmes propriétés ou intérêts forment une communauté. Par exemple, une communauté dans la blogosphère pourrait être des utilisateurs principalement intéressés par les avis et les actualités sur les téléphones portables. La détection des valeurs aberrantes dans les réseaux d'information peut révéler des comportements anormaux et intéressants importants qui ne sont pas évidents si l'information communautaire est ignorée. Un exemple pourrait être une personne à faible revenu étant amie avec de nombreuses personnes riches bien que son revenu ne soit pas anormalement bas lorsqu'il est considéré sur l'ensemble de la population. Cet article introduit d'abord le concept de valeurs aberrantes communautaires (points intéressants ou étoiles montantes dans un sens plus positif), puis montre que les approches de référence bien connues, sans tenir compte des liens ou de l'information communautaire, ne peuvent pas trouver ces valeurs aberrantes communautaires. Nous proposons une solution efficace en modélisant les données en réseau comme un modèle de mélange composé de plusieurs communautés normales et d'un ensemble de valeurs aberrantes générées aléatoirement. Le modèle probabiliste caractérise à la fois les données et les liens simultanément en définissant leur distribution conjointe basée sur des champs aléatoires de Markov cachés (HMRF). Maximiser la vraisemblance des données et le posterior du modèle donne la solution au problème d'inférence des valeurs aberrantes. Nous appliquons le modèle à la fois sur des données synthétiques et sur des ensembles de données DBLP, et les résultats démontrent l'importance de ce concept, ainsi que l'efficacité et l'efficience de l'approche proposée.
Gao et al. (Sun,) ont étudié cette question.