Tutoriel K-means
Completion requirements
Étape 1 : Entrée des Données
-
Ouvrez un fichier Excel vierge.
-
Entrez les données dans une feuille en suivant le tableau ci-dessous :
-
ID Client Âge Fréquence d'Achat Montant Dépensé (en €) Type de Produit Préféré 1 25 10 1500 Accessoires 2 45 5 3000 Vêtements 3 35 20 500 Soin 4 50 7 2000 Accessoires 5 28 15 800 Vêtements 6 40 3 4000 Soin 7 33 8 2500 Accessoires 8 52 12 1200 Vêtements 9 29 6 3500 Soin 10 48 2 4500 Accessoires
-
Étape 2 : Normalisation des Données
La normalisation met les données sur la même échelle pour éviter que les valeurs élevées (comme le montant dépensé) dominent les autres.
-
- Ajoutez trois nouvelles colonnes à droite de votre tableau, appelées Âge (Normalisé), Fréquence d’Achat (Normalisé) et Montant Dépensé (Normalisé).
- Dans la cellule de normalisation pour l’âge (par exemple, F2 pour ID Client 1), entrez la formule suivante pour normaliser l’âge :
- =(B2-MOYENNE($B$2:$B$11))/ECARTYPE.STANDARD($B$2:$B$11)
- Répétez cette étape pour chaque colonne de données :
- Pour Fréquence d’Achat : remplacez B par C dans la formule.
- Pour Montant Dépensé : remplacez B par D dans la formule.
- Copiez les formules vers le bas pour toutes les lignes de clients (ID Client 1 à 10) dans les trois colonnes.
Étape 3 : Initialisation des Centroïdes
- Choisissez le nombre de clusters (k). Ici, nous allons utiliser k=3.
- Ajoutez trois colonnes appelées Centroïde 1, Centroïde 2 et Centroïde 3.
- Initialisez les centroïdes en utilisant des valeurs aléatoires pour chaque cluster (ou en prenant les valeurs de clients aléatoires pour commencer).
- Exemple : dans la cellule F13 pour Centroïde 1, entrez les valeurs normalisées de l’un des clients (par exemple, les valeurs d'ID Client 1)
Étape 4 : Calcul de la Distance Euclidienne
Pour chaque client, calculez la distance entre les données normalisées du client et chaque centroïde en utilisant la formule de distance euclidienne.
- Dans une nouvelle colonne (par exemple, K2), entrez la formule de la distance pour le Centroïde 1 :
-
- =RACINE((F2-F$13)^2 + (G2-G$13)^2 + (H2-H$13)^2)
-
- Copiez cette formule pour chaque centroïde.
- Répétez pour tous les clients dans chaque cluster.
Étape 5 : Assigner Chaque Client au Cluster le Plus Proche
- Pour chaque client, identifiez la distance la plus courte parmi les trois distances aux centroïdes.
- Assignez le client au cluster correspondant au centroïde le plus proche.
- Exemple : dans une colonne de Cluster Assigné pour chaque client, utilisez une formule comme
=SI(K2<=L2;1;SI(L2<=M2;2;3))
pour assigner un client au cluster 1, 2 ou 3 en fonction de la distance minimale.
- Exemple : dans une colonne de Cluster Assigné pour chaque client, utilisez une formule comme
Étape 6 : Calculer les Nouveaux Centroïdes
- Pour chaque cluster, recalculer le centroïde en prenant la moyenne des valeurs normalisées de chaque client assigné à ce cluster.
- Remplacez les valeurs initiales des centroïdes par ces moyennes.
- Répétez l’étape 4 à l’étape 6 jusqu’à ce que les centroïdes ne changent plus de manière significative (c’est-à-dire que les assignations de clusters se stabilisent).
Étape 7 : Analyse des Résultats
- Une fois les clusters stabilisés, notez la composition de chaque cluster en fonction des caractéristiques des clients.
- Réfléchissez aux implications stratégiques de chaque cluster pour l'expérience client.
Last modified: Monday, 29 September 2025, 3:49 PM