Accueil > Technologies > Tutoriels outils et langages data > Deep Learning : le Réseau neuronal convolutif (CNN)

Tutoriels outils et langages data

TUTORIEL | Deep Learning : le Réseau neuronal convolutif (CNN)

26 janvier 2021 Modifié le 18 avril 2023

Nous vous avons expliqué dans notre précédents articles la descente de gradient et son utilisation dans la régression linéaire, le fonctionnement et l’intérêt d’un réseau de neurones, mais aussi son apprentissage, nous allons voir cette fois un réseau de neurones particulier appelé le réseau neuronal convolutif ou « réseau neuronal à convolution » (CNN – Convolution Neural Network). Ce type d’algorithme est particulièrement utilisé afin de classifier des images.

[TUTORIEL] Deep Learning : le Réseau neuronal convolutif

Le réseau neuronal convolutif est un type d’algorithme particulièrement utilisé afin de classifier des images, par exemple :

Machine Learning : comprendre ce qu'est un réseau de neurones - Illustration 1 — Cette image représente-t-elle un chien ou un chat ?

Actions utilisées dans un CNN

Un CNN applique généralement 3 types d’opérations différentes à une image afin d’en extraire les informations pertinentes.

Ces 3 types d’opérations sont les suivantes :

La convolution
Le pooling
La fonction d’activation de type ReLU

Nous allons nous intéresser à chacune de ses opérations.

La convolution

Avant d’expliquer en détails ce qu’est une convolution, nous allons comparer ces 2 images.

Réseau neuronal convolutif - Images constituées de 81 pixels

Ces 2 images sont constituées de 81 pixels (9×9). En codant la couleur des pixels par une valeur entre -1 (pixel noir) et +1 (pixel blanc), nous obtenons les images suivantes.

Réseau neuronal convolutif - Comparaison pixels

En comparant pixel par pixel¸ nous voyons qu’il y a des pixels différents entre les 2 images.

Réseau neuronal convolutif - Différence entre images

Pourtant, certains morceaux de l’image sont identiques entre les 2 images.

Réseau neuronal convolutif - Eléments identiques

Ces morceaux sont au nombre de 3.

Réseau neuronal convolutif - 3 éléments identiques

Nous appellerons désormais ces morceaux des features.

Considérons désormais des features de taille 3×3, nous allons voir comment la machine peut les trouver au moyen de calculs très simples.

Voici donc les nouvelles features que nous souhaitons que la machine trouve.

Réseau neuronal convolutif - Caractéristiques

Nous allons commencer par rechercher cette feature sur cette image.

Réseau neuronal convolutif - Caractéristiques image 1

Pour cela, nous allons comparer cette feature en la faisant « glisser » sur l’image comme suit :

Réseau neuronal convolutif - Comparaison des caractéristiques

Réseau neuronal convolutif - Comparaison des caractéristiques 2

Réseau neuronal convolutif - Comparaison des caractéristiques 3

Réseau neuronal convolutif - Comparaison des caractéristiques 4

Etc.

Concrètement, pour comparer cette feature avec une partie de l’image, nous allons :

1/ multiplier les 9 valeurs des pixels de la caractéristique avec les 9 valeurs des pixels du morceau de l’image à trouver,
2/ additionner ces 9 résultats
3/ diviser par le nombre de pixels (ici 9)
4/ conclure (si le résultat est égal à 1, alors la feature a été identifiée dans l’image)

Voici un exemple :

1/ Multiplions les 9 valeurs des pixels de la feature avec les 9 valeurs des pixels du morceau de l’image à trouver.

Réseau neuronal convolutif - Valeur des pixels

2/ Additionnons ces 9 résultats :

Réseau neuronal convolutif - Addition des résultats

3/ Divisons par le nombre de pixels :

7 / 9 = 0,78

4/ Concluons :

0,78 est différent de 1, alors la caractéristique n’a pas été trouvée dans cette partie de l’image.

Nous pouvons refaire ces calculs pour le reste de l’image.

Réseau neuronal convolutif - Matrice de valeurs part1

Réseau neuronal convolutif - Matrice de valeurs part2

Réseau neuronal convolutif - Matrice de valeurs part3

…

Réseau neuronal convolutif - Matrice de valeurs fin

Pour information, voici les paramètres utilisés pour réaliser cette convolution : taille = 3×3, stride = 1 (i.e. la zone comparée bouge d’un seul pixel entre chaque comparaison).

Réseau neuronal convolutif - Paramètres convolution

Sur cette nouvelle matrice, on y voit nos features « diagonales haut gauche vers bas droit » (les cellules égales à 1, entourées de violet ci-dessus). Ce qui est tout à fait cohérent au regard de notre image initiale.

Réseau neuronal convolutif - Caractéristiques de la diagonale

Cette méthode fonctionne également si l’on inverse les couleurs (le résultat sera seulement égal à -1 et non à 1).

Réseau neuronal convolutif - Inversion des couleurs

Ce que nous avons fait s’appelle une « convolution ».

Réseau neuronal convolutif - Convolution

En refaisant ce même travail avec 2 autres features, nous obtenons 3 convolutions que l’on peut schématiser de la manière suivante.

Réseau neuronal convolutif - 3 convolutions

La fonction ReLU (Unité de rectification linéaire)

La fonction ReLU permet tout simplement :

de transformer en 0 toutes les valeurs négatives
de conserver les valeurs positives

Voici un exemple.

Réseau neuronal convolutif - Fonction ReLU

Appliquée à nos 3 matrices précédemment calculées, voici ce que ça donne.

Nous pouvons schématiser cette action ReLU de la manière suivante.

Réseau neuronal convolutif - Schématisation action ReLU

Le pooling

2 techniques existent, le max-pooling ou le mean-pooling. Généralement, c’est le max-pooling qui est choisi.

Le max-pooling prend la valeur maximale de chaque « morceau de l’image ».

Réseau neuronal convolutif - Max-pooling

Appliquée à nos matrices précédemment calculées, voici ce que ça donne.

Pour information, les paramètres utilisés sont :
taille = 2×2, stripe = 1, valeurs des cellules absentes = 0.

Nous pouvons représenter ces actions de la manière suivante.

Réseau neuronal convolutif - Représentation des actions

Le flattening (mise à plat)

Cela consiste tout simplement à prendre la totalité des valeurs de nos matrices précédemment calculées, et à les empiler, en vue de les exploiter dans la couche d’entrée d’un réseau de neurones.

Le réseau de neurones fully connected

Comme notre réseau de neurones présenté précédemment, nous utilisons dans la couche d’entrée les valeurs calculées précédemment, nous ajoutons ensuite de 1 à une infinité de couches cachées à notre réseau, enfin, nous ajoutons en couche de sortie le nombre de neurones adéquats (ex. 2 neurones si nous souhaitons que notre réseau prédise la probabilité que l’image appartienne à la classe 1 ou à la classe 2).

Réseau neuronal convolutif - Ajout d'une couche de sortie

Synthèse

Voici une synthèse des actions précédemment décrites (rem : le réseau de neurones est constitué de 3 couches cachées, la couche de sortie est composée de 2 neurones).

Apprentissage d’un CNN

Notre dataset

Pour la suite de cet article, nous allons utiliser ces 2 images (respectivement une croix et un rond), mettre en place un CNN, puis l’entraîner afin qu’il minimise la fonction coût. Ce cas d’usage est pédagogique, dans la réalité, il n’aurait aucun intérêt à classer 2 images dont on connaît le label (càd ce qu’elles représentent).

Variables à ajuster

Dans un CNN, 3 types de variables seront ajustés à chaque itération afin de minimiser notre fonction coût, à savoir :

Les poids des couches du réseau de neurones fully connected
Les biais des couches du réseau de neurones fully connected
Les valeurs des pixels de notre filtre (exemple ci-dessous)

L’architecture de notre réseau

Si besoin, cliquer sur l’image pour l’agrandir :

Réseau neuronal convolutif - Architecture du réseau 1

A chacune des itérations, nous allons utiliser nos 2 images dans 2 réseaux identiques, partageant les mêmes poids, biais et valeurs pour le filtre et les neurones artificiels, seules les données d’entrées seront bien entendu différentes (ie. la valeur des pixels étant différentes entre les 2 images).

Voici ce que ela donne (si besoin, cliquer sur l’image pour l’agrandir).

Réseau neuronal convolutif - Architecture du réseau 2

Objectif

Notre objectif est le suivant, entraîner le réseau jusqu’à ce que les 2 images soient correctement classées et donc :

E_total soit le plus proche possible de 0

donc

E_total-image1 et E_total-image2 soient également le plus proche possible de 0

donc

o_1-image1soit le plus proche possible de 1
o_2-image1soit le plus proche possible de 0
o_1-image2soit le plus proche possible de 0
o_2-image2soit le plus proche possible de 1

Rappelez-vous, l’image 1 appartient à la classe 1, et l’image 2 à la classe 2. (Si besoin, cliquer sur l’image pour l’agrandir)

Réseau neuronal convolutif - Objectif : entraîner le réseau

Comme pour nos précédents réseaux de neurones, nous allons utiliser la méthode de la descente de gradient afin d’optimiser nos différentes variables :

f₁₁
f₁₂
f₂₁
f₂₂
w_x11-h1
w_x11-h2
w_x12-h1
w_x12-h2
w_x21-h1
w_x21-h2

w_x22-h1
w_x22-h2
b_h1
b_h2
w_h1-o1
w_h1-o2
w_h2-o1
w_h2-o2
b_o1
b_o2

Pour cela, comme expliqué également dans nos précédents articles, il va falloir trouver les formules de ∂E_total par rapport à chacune de ces 24 variables.

Certaines formules ont déjà été expliquées dans ces mêmes précédents articles, à savoir :

∂E_total / ∂w_x11-h1
∂E_total / ∂w_x11-h2
∂E_total / ∂w_x12-h1
∂E_total / ∂w_x12-h2
∂E_total / ∂w_x21-h1
∂E_total / ∂w_x21-h2
∂E_total / ∂w_x22-h1
∂E_total / ∂w_x22-h2

∂E_total / ∂b_h1
∂E_total / ∂b_h2
∂E_total / ∂w_h1-o1
∂E_total / ∂w_h1-o2
∂E_total / ∂w_h2-o1
∂E_total / ∂w_h2-o2
∂E_total / ∂b_o1
∂E_total / ∂b_o2

Si besoin, nous vous invitons à consulter notre article dédié à la mise en place de l’apprentissage d’un réseau de neurones.

Il nous manque donc les formules des dérivées suivantes :

∂E_total / ∂f₁₁
∂E_total / ∂f₁₂

∂E_total / ∂f₂₁
∂E_total / ∂f₂₂

Rappel Théorème de dérivation des fonctions composées

Nous vous avons déjà présenté le théorème de dérivation des fonctions composées, on sait donc que :

Réseau neuronal convolutif - Dérivation des fonctions composées

∂X / ∂F

Intéressons-nous dans un premier temps à ∂X / ∂F.

Pour rappel, voici les calculs effectués durant la convolution :

x₁₁ = i₁₁*f₁₁ + i₁₂*f₁₂ + i₂₁*f₂₁ + i₂₂*f₂₂
x₁₂ = i₁₂*f₁₁ + i₁₃*f₁₂ + i₂₂*f₂₁ + i₂₃*f₂₂
x₂₁ = i₂₁*f₁₁ + i₂₂*f₁₂ + i₃₁*f₂₁ + i₃₂*f₂₂
x₂₂ = i₂₂*f₁₁ + i₂₃*f₁₂ + i₃₂*f₂₁ + i₃₃*f₂₂

Développons nos différentes dérivées (∂X / ∂F).

(E_total / ∂X) * (∂X / ∂F)

Intéressons-nous désormais à (∂E_total / ∂X) * (∂X / ∂F).

X et F sont 2 matrices, les règles de dérivations matricielles nous permettent d’utiliser la formule suivante.

Nous avons ici 4 f (f₁₁, f₁₂, f₂₁, f₂₂), nous aurons donc 4 formules.

En utilisant les dérivées calculées précédemment, nous obtenons les formules suivantes.

Représentation visuelle de ∂Etotal / ∂F

les 4 formules ont toutes la même « forme » (a*x + b*y + c*z + d*w),
les 4 formules font toutes appel aux mêmes éléments (∂E_total / ∂x₁₁, ∂_Etotal / ∂x₁₂, ∂_Etotal / ∂x₂₁, ∂E_total / ∂x₂₂),
la totalité des valeurs i des pixels de notre image en entrée sont utilisées (i₁₁, i₁₂, i₁₃, i₂₁, i₂₂, i₂₃, i₃₁, i₃₂, i₃₃).

Cela ressemble à une convolution.

Pour rappel, voici notre convolution initiale :

Exemple : x₁₁ = i₁₁ * f₁₁ + i₁₂ * f₁₂ + i₂₁ * f₂₁ + i₂₂ * f₂₂

Voici la convolution permettant d’obtenir les formules mathématiques des dérivées « ∂E_total / ∂F ».

Nous vous invitons à vérifier par vous-même cette convolution, vous obtiendrez les mêmes résultats qu’indiqués précédemment.

∂E_total / ∂X

Il ne nous reste désormais plus qu’à trouver les formules « ∂E_total / ∂X ».

En prenant par exemple x₁₁, et en faisant appel au théorème de dérivations des fonctions composées, ∂E_total / ∂x₁₁

Nous pouvons ainsi de la même manière trouver les formules des autres dérivées ∂E_total / ∂X, à savoir :

∂E_total / ∂x₁₂
∂E_total / ∂x₂₁
∂E_total / ∂x₂₂

Au travers de cet article, nous vous avons présenté les réseaux neuronaux convolutifs. Nous vous avons présenté les principales opérations utilisées dans ce type de réseau, puis vous avez pu voir comment il apprenait à corriger ses erreurs de prédiction. Vous pouvez trouver ici un fichier exploitant ces éléments afin de construire un modeste CNN.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Business & Decision

Je suis tout particulièrement intéressé par l’innovation technologique au service de l’expérience d’achat.

Commentaires (9)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Hamidouche Le 23 juin 2021 à 12h06

Merci. Très pédagogique

jean-claude Le 15 octobre 2021 à 4h58

Merci. Le cours m'a permi de mieux percevoir les reseaux de neurones convolutif.

bougherira nadia Le 03 juin 2022 à 16h59

Merci, contenu très enrichissant

ferid Le 15 décembre 2022 à 5h30

Merci , c'est très utile

TOH BI Le 17 juillet 2023 à 0h12

Super ce cours, j'ai passé des mois et des semaines pour pouvoir comprendre le CNN mais en vain. Juste une heure de suivi de votre guide, je peux affirmer que le départ pour la réussite de mon projet est donné.
Merci expert

Business & Decision Le 26 juillet 2023 à 11h03

Merci pour votre retour ! Nous sommes ravis que cet article vous ait aidé !

MAALMI Ramzi Le 11 août 2023 à 18h21

Merci , Monsieur pour cette explication claire

pierre Le 26 juin 2024 à 18h43

Votre article pédagogique est vraiment exceptionnel. Sachez qu'enseignant en Master je fais référence à cet article !

Business & Decision Le 28 juin 2024 à 11h58

Merci Pierre pour ce retour !

Intégrer l'IA et la Data Science

Le Machine Learning en action sur l'hyperscaler Google Cloud Plateform

Précédemment, nous vous avons fait découvrir les différents services Google. Aujourd’hui, nous allons nous mettre en ordre de marche pour tester ces outils de Machine Learning grandeur nature, en utilisant...

Intégrer l'IA et la Data Science

IA à l'échelle : le Machine Learning à portée de clics grâce aux Cloud providers

L’arrivée des cloud providers, avec les volumes gigantesques de données désormais à leur disposition, a fait émerger et démocratiser des modèles déjà entrainés (Chat GPT, Gemini, etc.). Dans cet article...

Premium

Intégrer l'IA et la Data Science

LIVRE BLANC | Flux Vision : Mieux dimensionner les offres de mobilité grâce aux données mobiles

Selon l’Union Internationale des Transports Publics (UITP), la question de la mobilité urbaine revêt une importance prioritaire pour les entreprises du secteur. L’utilisation efficiente des données mobiles permet une adaptation...

Intégrer l'IA et la Data Science

Du ML au MLOps en IaaS

Le Mlops reste un sujet chaud de cette année. En effet, de nombreux défis demeurent à surmonter pour aller vers une chaîne d’industrialisation de l’IA complètement automatisée. Le MLOps est...

Premium

Sécurité des données

REPLAY | IA de confiance : l'enjeu majeur des organisations responsables

Le potentiel de gains de performance et de valeur avec l'IA Générative est exceptionnel ! Toutes les organisations veulent s'en saisir et déployer les meilleures applications pour obtenir un maximum...

Premium

Transformation digitale

REPLAY | CSRD : de l'Excel à l'Excellence

La CSRD (Corporate Sustainability Reporting Directive) transforme la façon dont les entreprises doivent rendre compte de leur impact environnemental et sociétal. Les premiers rapports CSRD vont être publiés dans les...

Premium

Transformation digitale

LIVRE BLANC | Le rôle moteur du CFO dans les stratégies Sustainability et RSE

Dans un contexte de dérèglement climatique et de crise énergétique, il devient urgent pour les organisations de mettre en place une stratégie de « sustainability », ou durabilité, afin d'évaluer...

Actualités Data et IA

Revue de presse Data & IA – Septembre 2024

Quelles sont les actualités qu’il ne fallait pas manquer cet été dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : la nomination de Clara Chappaz...

IoT et objets connectés

[Data Rider] Booster Mario Kart à l'IoT et à l'IA – Étape 3 : écoconduite et consommation électrique

Un circuit électrique de petites voitures électriques, une IA qui peut piloter une voiture et que l’on peut défier dans un concours de vitesse… C'est le projet DataRider, que nous...

Fondamentaux technologiques data

Misez sur l'approche Mixture of Experts pour des LLMs plus rapides et plus efficaces

La course est lancée pour construire des modèles de langage de plus en plus grands et meilleurs ! Mais à mesure que les LLMs grandissent, ils deviennent de plus en plus...

Actualités Data et IA

Revue de presse Data & IA – Août 2024

Quelles sont les actualités qu’il ne fallait pas manquer cet été dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : la Chine en tête des...

Tutoriels outils et langages data