Tutoriels outils et langages data

Comment développer et bien exploiter les fonctionnalités des outils et langages Data ?

Requêtage, indexation, agrégation, mise à jour, analyse, etc. Nos experts mettent à votre disposition une approche concrète des possibilités d'application et de déploiements des principaux outils et langages Data, à travers une série de tutoriels.

Utiliser Power BI pour monitorer… Power BI !

Utiliser Power BI pour monitorer… Power BI !

Vous êtes responsable de la gestion d’un environnement Power BI ? Des statistiques sur vos rapports Power BI vous aideraient à démontrer votre impact, à prioriser la mise en avant de...

Cas d'usage : créer un accélérateur de migration Data As Code

Cas d'usage : créer un accélérateur de migration Data As Code

Dans le cadre d’une migration/standardisation d’un patrimoine applicatif de Cloudera v6 vers Cloudera Data Platform v7, et au vu du nombre de projets (~70) écrits en Spark-Scala ou PySpark-Python à...

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

EL, ELT et ETL : savez-vous différencier ces processus de traitement de données ?

Dans le monde de la Data, on rencontre régulièrement les termes EL, ELT et ETL. Ce sont 3 acronymes qui se ressemblent, et signifient : Extract and Load (EL), Extract, Load,...

Supervision opérationnelle d'une plateforme Big Data Hadoop : les 5 étapes du processus

Supervision opérationnelle d'une plateforme Big Data Hadoop : les 5 étapes du processus

Dans ce nouvel article dédié à la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Horton Works (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data...

Supervision opérationnelle d'une plateforme Big Data Hadoop : périmètres et grands principes

Supervision opérationnelle d'une plateforme Big Data Hadoop : périmètres et grands principes

Dans cet article, nous allons aborder la question du monitoring technique et opérationnel d’une plateforme Big Data Hadoop, sous Hortonworks (HDP) ou Cloudera (CDH), et désormais avec Cloudera Data Platform...

Spark Structured Streaming : les tests de performance

Spark Structured Streaming : les tests de performance

Spark est un framework open source de calcul distribué. Plus performant qu'hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s'est rapidement taillé une place de choix au sein...

Apache Kafka expliqué à mes grands-parents

Apache Kafka expliqué à mes grands-parents

Quand on travaille dans le secteur des nouvelles technologies (souvent abstraites et complexes), ce n'est pas toujours simple d'expliquer le travail que nous réalisons ou encore le fonctionnement d'un programme....

Spark Structured Streaming : de la transformation des données aux tests unitaires

Spark Structured Streaming : de la transformation des données aux tests unitaires

Spark est un framework open source de calcul distribué. Plus performant qu'Hadoop, disponible avec trois langages principaux (Scala, Java, Python), il s'est rapidement taillé une place de choix au sein...

BigQuery et Data quality testing : comment centraliser vos tests et les industrialiser

BigQuery et Data quality testing : comment centraliser vos tests et les industrialiser

Les utilisateurs de la Data ont besoin de données fiables, et pour les satisfaire nous pouvons être amenés à créer des requêtes SQL tous azimuts. On prend alors le risque...

Spark Structured Streaming : de la gestion des données à la maintenance des traitements

Spark Structured Streaming : de la gestion des données à la maintenance des traitements

Spark est un framework open source de calcul distribué. Depuis sa version 2.0, il propose une nouvelle approche pour le streaming : Structured Streaming.

Les vues matérialisées avec BigQuery

Les vues matérialisées avec BigQuery

En arrivant dans le monde de la Big Data en tant que consultant, j’ai été tout de suite confronté à l’un des problèmes majeurs de cette discipline : l’optimisation des requêtes...

Deep Learning : le Réseau neuronal convolutif (CNN)

Deep Learning : le Réseau neuronal convolutif (CNN)

Nous vous avons expliqué dans notre précédents articles la descente de gradient et son utilisation dans la régression linéaire, le fonctionnement et l’intérêt d’un réseau de neurones, mais aussi son...

Machine Learning : comment mettre en place l'apprentissage d'un réseau de neurones ?

Machine Learning : comment mettre en place l'apprentissage d'un réseau de neurones ?

Nous allons aborder aujourd'hui l’apprentissage d’un réseau de neurones. Cet article fait suite à notre précédent tutoriel "Comprendre ce qu'est un réseau de neurones et en créer un !". Vous...

Machine Learning : comprendre ce qu’est un réseau de neurones et en créer un !

Machine Learning : comprendre ce qu’est un réseau de neurones et en créer un !

Dans ce nouvel article, nous allons voir ce qu’est un réseau de neurones en Machine Learning, à quoi il sert, comment il fonctionne et enfin comment il apprend. Comme pour...

Machine Learning : développez votre première régression linéaire avec la descente de gradient

Machine Learning : développez votre première régression linéaire avec la descente de gradient

Comment une machine peut-elle apprendre ? Telle est l’une des questions à laquelle nous allons répondre dans cette série d’articles. Vous découvrirez ainsi les principaux algorithmes utilisés en Machine Learning, et...

Comment utiliser Python dans PowerBI ?

Comment utiliser Python dans PowerBI ?

L'intégration de Python dans Power BI est un grand pas en avant de la part de Microsoft. Cela ouvre un large éventail de possibilités en termes d'extraction et de nettoyage...