Classification automatique de réseaux dynamiques avec sous-graphes : étude du scandale Enron

Rawya Zreik, Pierre Latouche, Charles Bouveyron

Résumé


Ces dernières années, de nombreux modèles de graphes aléatoires ont été proposés pour extraire des informations à partir de réseaux dans des domaines variés. Parmi ces modèles, nous considérons les modèles de clustering qui consistent à chercher des groupes de noeuds ayant des profils de connexion homogènes. La majorité de ces modèles est limitée à des réseaux statiques ayant des arêtes binaires ou discrètes et ne prennent donc pas en compte une éventuelle dimension temporelle. Ce travail est motivé par la volonté d’analyser un réseau dynamique décrivant les communications électroniques (emails) entre les employés de l’entreprise Enron, bien connue pour son scandale financier, où nous le verrons, les positions sociales jouent un rôle important. Nous proposons dans cet article une extension au cadre dynamique du modèle de graphe aléatoire RSM (Randon Subgraph Model) qui a été récemment proposé pour modéliser à l’aide de groupes latents des réseaux statiques pour lesquels une partition en sous-graphes est connue. Notre approche est basée sur l’utilisation d’un modèle à espace d’état pour modéliser l’évolution au cours du temps des proportions des groupes latents. Le modèle ainsi obtenu est appelé modèle de sous-graphes aléatoires dynamiques (dRSM) et un algorithme de type VEM (Variational Expectation Maximization) est proposé pour en effectuer l’inférence. Nous montrons que les approximations variationnelles conduisent à un nouveau modèle à espace d’état à partir duquel les paramètres ainsi que les états cachés peuvent être estimés en utilisant le filtre de Kalman et le lisseur de Rauch-Tung-Striebel (RTS). Des données simulées sont considérées pour évaluer l’efficacité de notre approche. La méthodologie est finalement appliquée au jeu des données emails de l’entreprise Enron et permet de mettre en évidence une réaction anticipée des cadres par rapport aux autres employés concernant le scandale à venir.

Texte intégral : PDF


Creative Commons License
Ce travail est autorisé sous licence avec la Licence de paternité Creative Commons 3.0.

SFdS / SMF - Journal de la Société Française de Statistique - ISSN 2102-6238