Coefficient de clustering

Un graphe de fort coefficient de clustering.

En théorie des graphes et en analyse des réseaux sociaux, le coefficient de clustering d'un graphe (aussi appelé coefficient d'agglomération, de connexion, de regroupement, d'agrégation ou de transitivité), est une mesure du regroupement des nœuds dans un réseau. Plus précisément, ce coefficient est la probabilité que deux nœuds soient connectés sachant qu'ils ont un voisin en commun.

C'est l'un des paramètres étudiés dans les réseaux sociaux : les amis de mes amis sont-ils mes amis ?

Définitions

Il existe deux définitions différentes du coefficient de clustering : une version globale et une version locale[1].

Coefficient global

Graphe de coefficient de clustering C = 3 4 {\displaystyle C={\frac {3}{4}}} : c'est la proportion de paires de voisins connectés dans le graphe.

Le coefficient de clustering global est défini comme :

C = 3 × | triangles | | paires de voisins distincts | {\displaystyle C={\frac {3\times |{\mbox{triangles}}|}{|{\mbox{paires de voisins distincts}}|}}}

où un triangle est une clique de trois nœuds.

Le nombre de paires de voisins distincts d'un nœud de degré d {\displaystyle d} étant égal à ( d 2 ) {\displaystyle {d \choose 2}} , on obtient :

C = 3 × | triangles | i V ( d i 2 ) , {\displaystyle C={\frac {3\times |{\mbox{triangles}}|}{\sum _{i\in V}{d_{i} \choose 2}}},}

d i {\displaystyle d_{i}} est le degré du nœud i {\displaystyle i} et V {\displaystyle V} l'ensemble des nœuds du graphe.

On a C 1 {\displaystyle C\leq 1} , avec égalité si et seulement si le graphe est un ensemble de cliques de taille au moins 3 (un graphe complet si le graphe est connecté).

Coefficient local

Noeud de coefficient de clustering 2 3 {\displaystyle {\frac {2}{3}}} (en rouge). C'est la proportion de ses paires de voisins connectés.

Le coefficient de clustering local d'un nœud i {\displaystyle i} est défini comme :

C i = | triangles de sommet  i | | paires de voisins distincts de  i | , {\displaystyle C_{i}={\frac {|{\mbox{triangles de sommet }}i|}{|{\mbox{paires de voisins distincts de }}i|}},}

soit

C i = | triangles de sommet  i | ( d i 2 ) . {\displaystyle C_{i}={\frac {|{\mbox{triangles de sommet }}i|}{d_{i} \choose 2}}.}

C'est la fraction de ses paires de voisins connectés, égale à 0 si d i 1 {\displaystyle d_{i}\leq 1} par convention.

On a C i 1 {\displaystyle C_{i}\leq 1} , avec égalité si et seulement si le nœud i {\displaystyle i} et son voisinage forment une clique d'au moins 3 nœuds.

En prenant la moyenne des coefficients locaux, on obtient le coefficient local moyen :

C ¯ = i V C i | V | {\displaystyle {\bar {C}}={\frac {\sum _{i\in V}C_{i}}{|V|}}} .

On a également C ¯ 1 {\displaystyle {\bar {C}}\leq 1} , avec égalité si et seulement si le graphe est un ensemble de cliques de taille au moins 3.

Propriétés et variantes

Relation entre les deux versions et interprétation

Le coefficient global C {\displaystyle C} s'exprime à partir des coefficients locaux comme  :

C = i V ( d i 2 ) C i i V ( d i 2 ) . {\displaystyle C={\frac {\sum _{i\in V}{d_{i} \choose 2}C_{i}}{\sum _{i\in V}{d_{i} \choose 2}}}.}

C'est donc une moyenne pondérée des coefficients locaux, qui diffère du coefficient local moyen C ¯ {\displaystyle {\bar {C}}} , sauf cas particuliers (graphe régulier par exemple). Les nœuds de fort degré ont donc plus de poids que ceux de faible degré[1]. Les poids reviennent à sélectionner un nœud en proportion du nombre de ses paires de voisins distincts, de sorte que le coefficient de clustering global C {\displaystyle C} s'interprète comme la probabilité que deux nœuds distincts soient connectés sachant qu'ils ont un voisin en commun.

Expression à partir de la matrice d'adjacence

En notant A {\displaystyle A} la matrice d'adjacence du graphe, matrice binaire dont l'entrée i , j {\displaystyle i,j} est égale à 1 si et seulement si les nœuds i , j {\displaystyle i,j} sont voisins, le coefficient de clustering s'écrit :

C = i j k A i j A i k A j k i j k A i j A i k . {\displaystyle C={\frac {\sum _{i\neq j\neq k}A_{ij}A_{ik}A_{jk}}{\sum _{i\neq j\neq k}A_{ij}A_{ik}}}.}

En effet, le numérateur est égal à 6 fois le nombre de triangles et le dénominateur est égal à i V d i ( d i 1 ) {\displaystyle \sum _{i\in V}d_{i}(d_{i}-1)} .

En l'absence de boucles (diagonale de A {\displaystyle A} nulle), le numérateur est la somme des éléments diagonaux de la matrice A 3 {\displaystyle A^{3}} et le dénominateur la somme des éléments non-diagonaux de la matrice A 2 {\displaystyle A^{2}} .

Variantes

Il existe des versions du coefficient adaptées à certains types de graphes, comme les graphes pondérés[2] ou les graphes bipartis[3].

Modèle

Le modèle de Watts-Strogatz permet de générer des graphes aléatoires ayant à la fois un fort coefficient de clustering et la propriété dite de petit monde[4],[5]. Ces deux propriétés sont caractéristiques des grands graphes réels, comme ceux formés par les réseaux sociaux[6].

Historique

Le coefficient global est souvent attribué[7] à Barrat et Weigt pour l'article On the properties of small-world network models publié en 2000[4]. Le coefficient moyen local est attribué à Watts et Strogatz, pour l'article Collective dynamics of ‘small-world’ networks de 1998[5].

Voir aussi

Notes et références

  1. a et b Mark E.J. Newman, « The structure and function of complex networks », SIAM review, SIAM, vol. 45, no 2,‎ , p. 167-256
  2. A. Barrat, M. Barthelemy, R. Pastor-Satorras et A. Vespignani, « The architecture of complex weighted networks », Proceedings of the National Academy of Sciences, vol. 101, no 11,‎ , p. 3747-3752 (PMID 15007165, PMCID 374315, DOI 10.1073/pnas.0400087101, arXiv cond-mat/0311416)
  3. M. Latapy, C. Magnien et N. Del Vecchio, « Basic Notions for the Analysis of Large Two-mode Networks », Social Networks, vol. 30, no 1,‎ , p. 31-48 (DOI 10.1016/j.socnet.2007.04.006)
  4. a et b Alain Barrat et Martin Weigt, « On the properties of small-world network models », The European Physical Journal B-Condensed Matter and Complex Systems, Springer, vol. 13, no 3,‎ , p. 547-560
  5. a et b Duncan J. Watts et Steven H Strogatz, « Collective dynamics of ‘small-world’networks », Nature, Nature Publishing Group, vol. 393, no 6684,‎ , p. 440-442
  6. Albert-Laszlo Barabasi, Network Science,
  7. Par exemple dans (Newman 2003) et (Porter 2014)

Bibliographie

  • (en) Mark E.J. Newman, « The structure and function of complex networks », SIAM review, SIAM, vol. 45, no 2,‎ , p. 167-256
  • (en) Mason A. Porter, « Small-world network », dans Scholarpedia, (lire en ligne)

Liens externes

  • Sriram Pemmaraju (scribes : Geoffrey Fairchild and Jason Fries), « Lecture Notes: Social Networks: Models, Algorithms, and Applications », sur Université d'Iowa,
  • icône décorative Portail des mathématiques
  • icône décorative Portail de l'informatique théorique