Accueil > Technologies > Tutoriels outils et langages data > MongoDB : les possibilités d’agrégation

Tutoriels outils et langages data

TUTORIEL | MongoDB : les possibilités d’agrégation

20 mars 2018 Modifié le 4 mai 2023

Pour ce quatrième et dernier volet de notre série de tutoriels pour vous faire découvrir MongoDB. Nous abordons aujourd'hui les possibilités d'agrégation.

Nous arrivons à notre quatrième et dernier volet de notre série de tutoriels destinés à vous faire découvrir MongoDB. Je vous propose aujourd’hui d’aborder les possibilités d’agrégation. C’est parti !

Agrégation simple

Pour illustrer l’agrégation, nous allons travailler sur une collection zips qui contient les villes des États-Unis. Le niveau de granularité est le code postal (ZIP: Zoning Improvement Plan). Outre ce code ZIP, chaque document contient la population de la zone considérée, les coordonnées GPS, la ville et l’état de rattachement.

Nous pouvons commencer par calculer la population de chaque Etat en utilisant la fonction aggregate , le mot clé $group pour regrouper sur les Etats, le mot clé $sum pour sommer les éléments de population.

db.zips.aggregate({$group:{_id:"$state",population:{$sum:"$pop"}}})

Replay

Optimiser, gérer et contrôler ses coûts avec la Plateforme Data Cloud Snowflake

Examinons plus en détail la syntaxe.

$group indique un regroupement. La clé de regroupement est indiquée par id.

Dans notre cas, nous lui passons le code de l’Etat $state(le $ précise qu’il faut reprendre le champ state de notre collection zip.

$sum: ” $pop “ indique que l’on va additionner les populations de chaque code postal.

MongoDB : Agrégation - zip-aggregate-sum

Nous pouvons faire des additions. Nous pouvons aussi faire des moyennes.

MongoDB : Agrégation - zip-aggregate-avg

MongoDB propose plusieurs opérateurs d’agrégation ($min, $max, $first, $last, $push, $addToSet, $stdDevPop, $stdDevSamp).

Vous trouverez plus de précisions sur ces opérateurs dans la documentation MongoDB.

Calculer, c’est bien. Trier c’est mieux !

Comment faire si nous souhaitons trouver les villes les plus peuplées des Etats-Unis ? Nous aimerions calculer la population de chaque ville puis trier les villes par ordre décroissant de leur population.

C’est possible grâce au mot clé $sort.

db.zips.aggregate({$group:{_id:"$city",population:{$sum:"$pop"}}},{$sort:{population:-1}})

Dans notre cas, la fonction aggregate prend en deuxième argument le tri des données qui sont traités séquentiellement. On parle ici d’étape ou de stage dans le traitement d’agrégation.

MongoDB : Agrégation - zip-aggregate-sum-sort

Rajoutons maintenant un filtre pour ne conserver que les villes de Californie. On pourrait le placer n’importe où dans notre chaîne de traitement. Néanmoins, le plus efficace est de le placer en début de chaîne pour limiter les calculs ultérieurs.

Cela se fait avec le mot clé $match.

db.zips.aggregate({$match:{state:"CA"}},{$group:{_id:"$city",population:{$sum:"$pop"}}},{$sort:{population:-1}})

MongoDB : Agrégation - zip-match-sum-sort

Dans nos exemples précédents, nous avons toujours utilisé un champ de la collection (dans notre cas, « pop ») pour faire nos calculs (somme ou moyenne). Néanmoins, ce n’est pas une obligation.

La commande suivante permet ainsi de compter le nombre de codes postaux par état.

db.zips.aggregate({$group:{_id:"$state",nb_zip:{$sum:1}}},{$sort:{nb_zip:-1}})

Cette approche nous permet ainsi d’avoir l’équivalent d’un count en SQL.

Le pipeline d’agrégation

Lorsque nous avons fait notre requête d’agrégation sur les villes les plus peuplées de Californie, nous avons en fait créer un enchaînement de 3 étapes (filtre, agrégation, tri). MongoDB appelle cette approche le pipeline d’agrégation.

Les étapes peuvent être multiples. Ainsi, imaginons qu’au lieu de compter les codes postaux par Etat, nous désirions comptabiliser le nombre de villes par état.

Comment faire ?

Nous allons simplement faire un premier regroupement par Etat et ville (pour éviter de regrouper des villes situées dans des états différents mais portant le même nom) puis comptabiliser ensuite le nombre de villes par état.

La première étape consiste donc à opérer un regroupement sur 2 champs.

db.zips.aggregate({$group:{_id:{state:"$state",city:"$city"}}})

Puis, on regroupe maintenant les villes par Etat. Le champ « état » s’appelle maintenant _id.state.

db.zips.aggregate({$group:{_id:{state:"$state",city:"$city"}}},{$group:{_id:"$_id.state",nb_villes:{$sum:1}}})

Amusons-nous alors un peu. Imaginons maintenant que nous souhaitions afficher les états ayant le plus de villes à plus de 100 000 habitants. Nous allons alors intercaler dans notre traitement un filtre sur le nombre d’habitants et rajouter à la fin un tri par ordre décroissant. Bien sûr, il ne faut pas oublier dans la première étape de calculer la population de chaque ville puisque nous allons en avoir besoin dans notre filtre à l’étape 2.

db.zips.aggregate({$group:{_id:{state:"$state",city:"$city"},population:{$sum:"$pop"}}},{$match:{population:{$gt:100000}}},{$group:{_id:"$_id.state",nb_villes:{$sum:1}}},{$sort:{nb_villes:-1}})

Encore d’autres possibilités

Nous avons donc vu les types d’étape suivants :

$group: groupement des données
$match: filtre des données
$sort: tri des données

MongoDB propose de nombreux autres types. Citons par exemple, sans que cette liste soit exhaustive :

$project: pour sélectionner les champs que l’on souhaite conserver dans le résultat
$limit: pour limiter les résultats
$skip: pour sauter n résultats
$unwind: pour opérer une transposition sur un champ contenant un tableau
$out: pour enregistrer le résultat dans une nouvelle collection

Mais aussi des limitations

La documentation précise que les étapes d’agrégation ne doivent pas consommer plus de 100 Mo en mémoire sous peine de générer une erreur.
Cette limitation pouvant être rapidement contraignante, on peut l’outrepasser en passant le paramètre allowDiskUse à true.
Le passage de paramètre se fait en fin de commande après les stages. Pour différencier les stages des paramètres, il faut veiller à mettre les stages dans un tableau.

db.zips.aggregate([{$group:{_id:{state:"$state",city:"$city"},population:{$sum:"$pop"}}},{$match:{"_id.state":"CA"}},{$sort:{population:-1}}],{allowDiskUse:true})

Bien évidemment, si cela permet de dépasser la limitation, les performances vont s’en ressentir.

Dans tous les cas, n’oublions pas que MongoDB est une solution scalable permettant de répondre à un grand nombre de requêtes concurrentes. Pour des besoins d’agrégation sur un historique profond, privilégiez plutôt Hadoop ou Spark.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Business & Decision

Plus de 20 ans d’expérience dans la mise en place d’architectures dédiées à la valorisation de vos données grâce aux technologies BI et Big Data.

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Tendances Data

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

« On peut faire dire ce qu’on veut aux chiffres » Vous avez déjà sûrement entendu cette phrase, et vous vous dites peut-être que ce n’est pas possible, que non, un chiffre...

Premium

Intégrer l'IA et la Data Science

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

LVMH a bâti sa stratégie Data & IA autour des solutions DataGalaxy et Dataiku, eux-mêmes accompagnés par Orange. Cap sur un retour d’expérience inspirant présenté au cours d’une table-ronde dédiée...

Premium

Intégrer l'IA et la Data Science

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Comment appréhender concrètement toutes les facettes de la révolution technologique des intelligences artificielles ? Réponses avec Microsoft et nos experts Orange Business / Business & Decision. L’occasion de revivre la Matinée...

Tutoriels outils et langages data

Snowflake : pourquoi et comment coder directement en Python ?

Snowflake, la plateforme d’hébergement de données dans le cloud est reconnue pour sa puissance, sa flexibilité et sa sécurité. Elle offre un large éventail de services pour stocker, analyser, partager...

Actualités Data et IA

Revue de presse Data & IA – Juin 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : le mode d’emploi de la...

Premium

Transformation digitale

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

En s'appuyant sur des algorithmes d'intelligence artificielle et d'apprentissage automatique, le Captcha Invisible d’Orange Business analyse les comportements des utilisateurs (utilisation de la souris ou du clavier, réputation de l'adresse...

Tutoriels outils et langages data

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Après toutes les annonces de Snowflake lors du Summit et Snow Day de l'année dernière, les nouvelles fonctionnalités arrivent progressivement en General Availibility. C’est désormais au tour des Dynamic Tables,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : ce qu'il faut retenir (ou...

Tendances Data

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

Qui a déjà vécu des débats enflammés, sur des sujets variés du quotidien ou d’actualité, lors de repas du dimanche en famille ? Où chacun avance des affirmations sans pouvoir complètement...

Premium

Solutions technologiques

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Marketplace & e-Commerce, Intranet & Extranet, Partenaires & Fournisseurs, modules de Marketing Analytics ou Relationnels… Orange Business a placé Liferay au cœur de sa stratégie Digitale et réalisé de nombreux...

Actualités Data et IA

Revue de presse Data & IA – Avril 2024

Quelles sont les actualités qu’il ne fallait pas manquer ce mois-ci dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'opportunité pour l'Europe de devenir...

Parcours client

IA et Expérience utilisateur : stratégies, défis et opportunités

L’évolution du rapport entre l’homme et la machine a connu une accélération spectaculaire ces dernières années. De l’avènement des ordinateurs encombrants aux dispositifs personnels tels que les smartphones et les...

Premium

Parcours client

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

La région Bretagne a développé son projet de relation usager avec Orange et a présenté lors d’une conférence dédiée avec les experts Orange Business comment ce projet a été préparé....

Tutoriels outils et langages data

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

« J’ai le plaisir de vous annoncer que j’ai obtenu une nouvelle certification XX (insérer ici un éditeur ;) ) » est devenu un post récurent sur les réseaux sociaux comme LinkedIn....

TUTORIEL | MongoDB : les possibilités d’agrégation

Agrégation simple

Calculer, c’est bien. Trier c’est mieux !

Le pipeline d’agrégation

Comment faire ?

Encore d’autres possibilités

Mais aussi des limitations

Découvrez aussi

Le Dashboard Design relève-t-il du niveau olympique ? Réponse en Dataviz

REPLAY | Comment LVMH a réussi à déployer une IA de confiance ?

REPLAY | IA génératives : la puissance des technologies Microsoft pour votre entreprise

Snowflake : pourquoi et comment coder directement en Python ?

Revue de presse Data & IA – Juin 2024

REPLAY | Captcha invisible : se protéger des attaques de robots malveillants tout en préservant la fluidité du parcours digital

Snowflake : les Dynamic Tables peuvent-elles remplacer les ETL/ELT ?

Revue de presse Data & IA – Mai 2024

L'Eurovision : concours de la chanson et géopolitique ? Réponse en Dataviz

REPLAY | Une plateforme pour réunir tous vos portails : Liferay, la solution de vos expériences digitales

Revue de presse Data & IA – Avril 2024

IA et Expérience utilisateur : stratégies, défis et opportunités

REPLAY | Retour d'expérience : le projet de relation usager de la Région Bretagne

Certification éditeur : vos projets, vos clients et vous avez tout à y gagner

Informations sur la gestion de vos données et vos droits

Newsletter