Questionnaire Entretien Embauche

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 21

1.

Parlez-moi de vous
Merci pour l’opportunité que vous me donnez pour m’exprimer sur cette
question. Je suis de nationalité burkinabé. J’ai fait mes études au Burkina où j’ai
obtenu un baccalauréat série D. Après l’obtention de mon BAC j’ai opté pour
des études en télécommunications à l’ESMT Ouaga qui est une succursale de
l’ESMT Dakar. J’ai obtenu le diplôme de Technicien Supérieur en
Télécommunications (DTS). J’ai par la suite poursuivi mes études au Sénégal à
l’ESMT pour le cycle d’Ingénieur de Conception en Télécommunications pour
me spécialiser en Ingénierie des données et Intelligence Artificielle (INDIA).
Voici un bref résumé de mon parcours académique. Je suis une personne
attentionnée, sociable, dynamique dans la réalisation de projets, un peu timide
mais très optimiste dans les moments difficiles.

*****************************************************************
*****************************************************************
Thank you for the opportunity to share about myself. I am of Burkinabe
nationality. I completed my studies in Burkina Faso, where I obtained a high
school diploma in the D series. After obtaining my high school diploma, I opted
to study in the field of telecommunications at ESMT Ouaga, which is a branch
of ESMT Dakar. I obtained a Higher Technician Diploma in Telecommunications
(DTS). Subsequently, I continued my studies in Senegal at ESMT for the
Engineering degree program in Telecommunications to specialize in Data
Engineering and Artificial Intelligence (INDIA). This is a brief summary of my
academic background. I am a caring, sociable person, dynamic in project
implementation, a bit shy but very optimistic in difficult times.
2. C’est quoi l’ingénierie des données et l’intelligence artificielle pour vous ?
L'ingénierie des données et l'intelligence artificielle sont deux domaines
complémentaires dans le champ de la science des données.
L'ingénierie des données concerne la conception, la construction et la gestion
des systèmes et des infrastructures qui permettent de collecter, stocker, traiter
et rendre accessible de grandes quantités de données. Elle inclut des tâches
comme l'intégration de données provenant de sources variées, la mise en place
de pipelines de données, la gestion de bases de données et l'optimisation des
flux de données pour l'analyse.
L'intelligence artificielle (IA), quant à elle, implique le développement de
systèmes capables de réaliser des tâches qui nécessitent normalement
l'intelligence humaine. Cela inclut le machine Learning, le traitement du
langage naturel, la vision par ordinateur et d'autres techniques permettant aux
machines d'apprendre à partir des données, de reconnaître des motifs, de
prendre des décisions et d'automatiser des processus complexes.

En résumé, l'ingénierie des données fournit les bases nécessaires pour gérer et
préparer les données, tandis que l'intelligence artificielle utilise ces données
pour créer des modèles et des systèmes intelligents capables d'exécuter des
tâches avancées et de fournir des insights précieux.

3. C’est quoi le machine Learning et le traitement automatique du Language ?


Le machine Learning est une branche de l'intelligence artificielle qui permet
aux ordinateurs d'apprendre à partir des données, sans être explicitement
programmés pour chaque tâche. Il repose sur le développement d'algorithmes
et de modèles statistiques qui identifient des modèles et des structures dans
les données, leur permettant de prendre des décisions, de faire des prédictions
ou de générer des recommandations. Le processus d'apprentissage implique la
présentation d'un ensemble de données à un modèle, qui ajuste ses
paramètres pour minimiser une fonction de coût, afin de produire des résultats
optimaux. Les types de machine Learning comprennent l'apprentissage
supervisé, non supervisé et par renforcement.
Le traitement automatique du langage naturel (TALN), ou natural language
processing (NLP) en anglais, est une branche de l'intelligence artificielle qui se
concentre sur l'interaction entre les ordinateurs et le langage humain. Il vise à
permettre aux ordinateurs de comprendre, d'interpréter et de générer un
langage humain de manière naturelle. Les tâches de TALN comprennent la
compréhension du langage naturel, la génération de langage naturel, la
traduction automatique, l'extraction d'informations, la classification de texte et
bien d'autres. Les techniques de TALN combinent souvent des approches
statistiques, linguistiques et informatiques pour traiter efficacement le langage
humain.
4. Donnez-moi les différences entre l’apprentissage supervisé, non supervisé,
semi-supervisé et par renforcement.
Voici les principales différences entre l'apprentissage supervisé, non supervisé,
semi-supervisé et par renforcement :
1. Apprentissage supervisé:
- Dans l'apprentissage supervisé, le modèle est entraîné sur un ensemble de
données étiquetées, où chaque exemple de données est associé à une
étiquette ou à une sortie désirée.
- L'objectif est de prédire la sortie correcte pour de nouvelles entrées en
généralisant à partir des données d'entraînement.
- Les exemples incluent la classification (prédire une catégorie) et la
régression (prédire une valeur numérique).
2. Apprentissage non supervisé :
- Contrairement à l'apprentissage supervisé, l'apprentissage non supervisé
traite des ensembles de données non étiquetés, où le modèle doit trouver des
structures et des motifs intrinsèques dans les données.
- Les techniques courantes incluent le clustering (regrouper des données
similaires) et la réduction de dimensionnalité (représentation des données dans
un espace de dimension inférieure).
3. Apprentissage semi-supervisé :
- L'apprentissage semi-supervisé combine des éléments des deux approches
précédentes en utilisant à la fois des données étiquetées et non étiquetées.
- Il vise à tirer parti des données non étiquetées pour améliorer les
performances des modèles, ce qui peut être particulièrement utile lorsque
l'étiquetage des données est coûteux ou difficile.
4. Apprentissage par renforcement :
- Dans l'apprentissage par renforcement, un agent apprend à interagir avec
un environnement pour atteindre un objectif donné en maximisant une
récompense cumulative.
- L'agent prend des décisions séquentielles dans un environnement
dynamique, recevant des récompenses ou des pénalités en fonction de ses
actions.
- Il apprend par essais et erreurs, en ajustant sa politique d'action pour
maximiser la récompense attendue.
En résumé, ces différentes approches de l'apprentissage machine varient selon
la manière dont les données sont présentées et utilisées pour former les
modèles, ainsi que selon les objectifs et les types de tâches qu'ils visent à
accomplir.

5. Qu'est-ce que le nettoyage des données et comment le procédez-vous ?


Le nettoyage des données est le processus consistant à détecter, corriger ou
supprimer les incohérences, les erreurs, les duplications et les données
manquantes dans un ensemble de données. Voici comment je procède
généralement au nettoyage des données :

1. Évaluation initiale : Je commence par examiner attentivement les données


pour identifier les problèmes potentiels tels que les valeurs manquantes, les
valeurs aberrantes, les doublons et les erreurs de saisie.
2. Traitement des valeurs manquantes : Je décide de la manière de traiter les
valeurs manquantes en fonction du contexte et de l'impact sur l'analyse. Cela
peut impliquer de les supprimer, de les remplacer par des valeurs par défaut ou
d'utiliser des techniques d'imputation pour estimer les valeurs manquantes.
3. Détection et correction des valeurs aberrantes : J'identifie les valeurs
aberrantes qui se situent en dehors de la plage attendue et je décide de les
corriger, de les supprimer ou de les conserver en fonction du contexte et de
leur impact sur l'analyse.
4. Élimination des doublons : Je détecte et supprime les enregistrements
dupliqués dans les données pour éviter toute distorsion dans les résultats de
l'analyse.
5. Normalisation et standardisation: Si nécessaire, je normalise ou standardise
les variables pour mettre toutes les données sur la même échelle et faciliter la
comparaison entre elles.
6. Validation des données : Je vérifie la cohérence et l'intégrité des données
après le nettoyage en effectuant des contrôles supplémentaires et des
validations croisées.
7. Documentation des modifications : Je documente toutes les étapes du
processus de nettoyage des données, y compris les décisions prises et les
actions effectuées, pour assurer la traçabilité et la transparence.
En adoptant une approche systématique et méthodique, je m'assure que les
données sont propres, fiables et prêtes à être utilisées pour l'analyse ou le
développement de modèles.

6. C’est quoi la différence entre la normalisation et la standardisation ?


La normalisation et la standardisation sont deux techniques utilisées pour
mettre à l'échelle les données, mais elles diffèrent dans leur méthode et leur
résultat :
1. Normalisation:
- En normalisation, les données sont transformées de manière à ce qu'elles se
situent dans une plage spécifique, généralement entre 0 et 1.
- Cette technique est utile lorsque les caractéristiques des données ont des
plages de valeurs différentes et que l'échelle des valeurs est importante pour
l'analyse.
- La formule de normalisation la plus courante est :

2. Standardisation:
- En standardisation, les données sont transformées de manière à ce qu'elles
aient une moyenne nulle et un écart-type égal à 1.
- Cette technique est souvent utilisée lorsque la distribution des données est
normale ou presque normale, et lorsque l'écart-type est important pour
l'analyse.
- La formule de standardisation la plus courante est :

En résumé, la normalisation met à l'échelle les données entre 0 et 1, tandis que


la standardisation les transforme pour avoir une moyenne nulle et un écart-
type de 1. Le choix entre les deux dépend du contexte de l'analyse et de la
distribution des données.

7. Quelles sont vos connaissances statistiques pour l’analyse des données ?

1. Écart-type: L'écart-type est une mesure de la dispersion des valeurs d'un


ensemble de données autour de leur moyenne. Il indique à quel point les
valeurs individuelles d'un ensemble de données sont proches ou éloignées de
la moyenne.
2. Variance: La variance mesure la dispersion des valeurs d'un ensemble de
données par rapport à leur moyenne. Elle est calculée en prenant la moyenne
des carrés des écarts entre chaque valeur et la moyenne.
3. Régression : La régression est une technique statistique utilisée pour étudier
la relation entre une variable dépendante et une ou plusieurs variables
indépendantes. Elle permet de prédire la valeur d'une variable dépendante en
fonction des valeurs des variables indépendantes.
4. Taille de l'échantillon : La taille de l'échantillon fait référence au nombre
d'observations ou d'individus inclus dans un échantillon de données. Une taille
d'échantillon adéquate est importante pour garantir la fiabilité et la validité des
résultats d'une étude statistique.
5. Statistiques descriptives et inférentielles : Les statistiques descriptives sont
utilisées pour décrire et résumer les caractéristiques d'un ensemble de
données, telles que la moyenne, la médiane, l'écart-type, etc. Les statistiques
inférentielles sont utilisées pour tirer des conclusions sur une population à
partir d'un échantillon de données, en utilisant des techniques telles que les
tests d'hypothèses et les intervalles de confiance.
6. Moyenne : La moyenne est une mesure de tendance centrale qui représente
la valeur moyenne d'un ensemble de données. Elle est calculée en faisant la
somme de toutes les valeurs et en divisant par le nombre total de valeurs.
Ces concepts statistiques sont fondamentaux pour l'analyse des données et
sont largement utilisés pour explorer, interpréter et prendre des décisions
basées sur les données.
Voici un aperçu de mes connaissances sur les concepts que vous avez
mentionnés :

1. Distribution normale : La distribution normale, également appelée


distribution gaussienne, est une distribution statistique qui est symétrique
autour de sa moyenne. Elle est caractérisée par sa forme de cloche et est
souvent utilisée dans de nombreux domaines pour modéliser des phénomènes
naturels.
2. Gestion des données : La gestion des données englobe les processus et les
méthodes utilisés pour collecter, stocker, organiser, nettoyer et analyser les
données de manière efficace et fiable. Cela comprend également la
sécurisation et la protection des données contre les pertes ou les accès non
autorisés.
3. Méthode d'imputation KNN : La méthode d'imputation KNN est une
technique utilisée pour remplacer les valeurs manquantes dans un ensemble
de données en se basant sur les valeurs des voisins les plus proches dans un
espace multidimensionnel. KNN signifie "k plus proches voisins", où k est un
paramètre défini par l'utilisateur indiquant le nombre de voisins à considérer.
4. Regroupement : Le regroupement, également connu sous le nom de
clustering, est une technique d'apprentissage non supervisé qui consiste à
diviser un ensemble de données en groupes homogènes ou clusters, où les
membres d'un même cluster sont similaires les uns aux autres selon certains
critères prédéfinis.
5. Valeur aberrante: Une valeur aberrante, ou outlier en anglais, est une
observation qui se distingue significativement du reste des données dans un
ensemble donné. Les valeurs aberrantes peuvent être le résultat d'erreurs de
mesure, de données corrompues ou de phénomènes inhabituels.
6. N-grammes : Les n-grammes sont des séquences contiguës de n éléments
(généralement des mots ou des caractères) qui sont extraits d'un texte ou
d'une séquence de données. Les n-grammes sont largement utilisés dans le
traitement automatique du langage naturel pour modéliser la structure et les
relations entre les mots dans un texte.
7. Modèle statistique: Un modèle statistique est une représentation
mathématique simplifiée d'un phénomène ou d'un processus basée sur des
données observées. Les modèles statistiques sont utilisés pour décrire,
expliquer et prédire le comportement des variables dans un système donné, en
utilisant des méthodes et des techniques statistiques appropriées.

8. Pouvez-vous expliquer la différence entre ces termes ?


Bien sûr, voici les explications sur les différences entre ces termes :
1. Données quantitatives ou qualitatives :
- Les données quantitatives sont des données numériques mesurables qui
représentent des quantités ou des grandeurs. Elles peuvent être continues
(comme la température, le poids) ou discrètes (comme le nombre d'étudiants
dans une classe).
- Les données qualitatives, également appelées catégorielles, sont des
données non numériques qui décrivent des caractéristiques ou des attributs.
Elles sont souvent descriptives et peuvent être ordinales (comme le niveau
d'éducation) ou nominales (comme la couleur, le genre).

2. Profilage de données vs exploration de données :


- Le profilage de données consiste à examiner les données pour en
comprendre la structure, la qualité, les modèles et les tendances. Il vise à
identifier les erreurs, les valeurs aberrantes et les schémas de distribution.
- L'exploration de données, également appelée data mining, consiste à
rechercher des modèles, des relations et des tendances intéressantes dans les
données. Cela implique souvent l'utilisation de techniques statistiques et
d'algorithmes d'apprentissage automatique pour extraire des informations
précieuses à partir des données.

3. Rejoindre ou mélanger dans Tableau :


- Rejoindre dans Tableau fait référence à la combinaison de deux sources de
données différentes, généralement basée sur une clé commune, comme un
identifiant unique. Cela permet de combiner les données de manière à pouvoir
les analyser ensemble.
- Mélanger dans Tableau, quant à lui, consiste à fusionner des données
provenant de la même source en utilisant des règles de fusion spécifiques. Cela
peut être utile lorsque les données sont stockées dans plusieurs tables ou
feuilles de calcul et doivent être combinées en une seule pour l'analyse.

4. Variance vs covariance:
- La variance mesure la dispersion des valeurs d'une seule variable par
rapport à sa moyenne. Elle indique à quel point les valeurs d'une variable sont
dispersées.
- La covariance mesure la relation linéaire entre deux variables. Elle indique la
variation conjointe des deux variables par rapport à leurs moyennes
respectives. Une covariance positive indique que les variables augmentent ou
diminuent ensemble, tandis qu'une covariance négative indique une relation
inverse.

9. Définir un terme SQL


Voici les définitions des termes SQL que vous avez mentionnés :
1. Index clusterisé ou non clusterisé :
- Un index clusterisé est une structure de données utilisée pour organiser
physiquement les enregistrements d'une table sur le disque selon l'ordre de
l'index. Dans un index clusterisé, les données de la table sont stockées dans
l'ordre de tri de l'index, ce qui permet de récupérer rapidement les
enregistrements en fonction des valeurs de l'index.
- Un index non clusterisé, en revanche, est une structure de données où les
enregistrements de la table et les valeurs de l'index sont stockés séparément
sur le disque. Dans ce cas, l'index contient simplement une liste d'adresses ou
de pointeurs vers les enregistrements correspondants dans la table.

2. Contraintes :
- En SQL, les contraintes sont des règles ou des conditions appliquées aux
données dans une table pour garantir l'intégrité et la cohérence des données.
Les contraintes peuvent inclure des contraintes d'intégrité référentielle (clé
étrangère), des contraintes de clé primaire, des contraintes de clé unique, des
contraintes de vérification, etc.
3. Le curseur :
- En SQL, un curseur est un mécanisme permettant de parcourir
séquentiellement un ensemble de résultats retournés par une requête. Il
permet de naviguer dans les résultats de la requête ligne par ligne,
généralement pour traiter chaque ligne individuellement à des fins de
manipulation ou de traitement.

4. SGBD vs SGBDR:
- Un SGBD (Système de Gestion de Base de Données) est un logiciel utilisé
pour stocker, gérer et manipuler des bases de données. Il fournit des
fonctionnalités pour créer, modifier et interroger des données dans une base
de données.
- Un SGBDR (Système de Gestion de Base de Données Relationnelle) est un
type spécifique de SGBD conçu pour gérer des bases de données relationnelles,
où les données sont organisées et manipulées sous forme de tables reliées les
unes aux autres par des clés.

5. ETL :
- ETL signifie Extraction, Transformation et Chargement. C'est un processus
utilisé pour récupérer des données à partir de différentes sources, les
transformer en un format cohérent et les charger dans une base de données
cible. Il est couramment utilisé dans les entrepôts de données pour intégrer
des données provenant de multiples sources hétérogènes.
6. Indice :
En SQL, un indice, également appelé index, est une structure de données
utilisée pour accélérer la récupération des données dans une table. Un indice
est créé sur une ou plusieurs colonnes d'une table pour permettre une
recherche rapide des enregistrements en fonction de la valeur de ces colonnes.
Lorsqu'une requête contient une clause de recherche basée sur les colonnes
indexées, le SGBD utilise l'index pour localiser rapidement les enregistrements
correspondants, ce qui améliore les performances des requêtes. Les indices
peuvent être clusterisés ou non clusterisés, selon la façon dont les données
sont organisées physiquement sur le disque. Les indices sont essentiels pour
optimiser les performances des requêtes, en particulier dans les bases de
données contenant de grandes quantités de données.

10.Avec quels logiciels de data analyse êtes-vous familier ?


Je suis familier avec plusieurs logiciels et outils de data analyse, parmi lesquels :
Excel : J'ai utilisé Excel pour des analyses de données simples, des tableaux
croisés dynamiques.
SQL : J'utilise SQL pour interroger des bases de données relationnelles, extraire
et manipuler des données, créer des rapports et optimiser des requêtes pour
des performances améliorées.
Python : En utilisant des bibliothèques comme Pandas, NumPy, Matplotlib et
Seaborn, j'ai pu effectuer des analyses de données approfondies, du nettoyage
de données à la visualisation en passant par l'analyse statistique.
Power BI : J'utilise Power BI pour des rapports et des visualisations interactives,
intégrant des sources de données variées et appliquant des transformations
pour nettoyer et préparer les données.
Google Looker Studio (anciennement Data Studio) : J'utilise Google Looker
Studio pour créer des rapports dynamiques et des tableaux de bord interactifs.
Cet outil me permet de connecter diverses sources de données, de visualiser
les tendances et les performances et de partager des insights de manière
accessible et visuellement attrayante.
11.Comment faites-vous lorsque vous comprenez qu’un projet ne pourra pas
être terminé à temps ?
Lorsque je comprends qu'un projet ne pourra pas être terminé à temps,
j'évalue rapidement les raisons du retard et leur impact, puis j'informe
immédiatement les parties prenantes avec transparence. Je propose des
solutions et un nouveau calendrier réaliste, en identifiant et demandant des
ressources supplémentaires si nécessaire. Je gère les attentes en expliquant les
implications des retards et en alignant tout le monde sur les nouvelles dates.
Ensuite, je mets en place un suivi régulier pour assurer le respect du plan
ajusté. Enfin, une fois le projet terminé, je mène une rétrospective pour tirer
des leçons et améliorer les processus futurs.

12.Pouvez-vous me parler du projet qui vous a le plus marqué dans votre


cursus universitaire ?
Le projet qui m’a le plus marqué dans mon cursus universitaire c’est la
réalisation d’un Dashboard qui propose des visualisations de rapport de ventes
et de livraisons sur Google Looker Studio. Lors de ce projet j’ai beaucoup appris
la notion de filtre de données et commenter designer un tableau de bord pour
qu’il soit le plus attrayant possible. Ce projet m’a beaucoup marqué à la fin de
mon cursus universitaire.

13.Pouvez-vous m’expliquer en quoi consiste le SQL ?


SQL, (Structured Query Language), est un langage de programmation
standardisé utilisé pour gérer et manipuler des bases de données
relationnelles. Voici en quoi consiste SQL :

1. Interrogation des données : SQL permet de récupérer des données


spécifiques d'une base de données en utilisant des requêtes. Par exemple, la
commande `SELECT` permet de sélectionner des données dans une table.
2. Manipulation des données : SQL permet d'insérer, de mettre à jour, de
supprimer et de modifier les données d'une base de données avec des
commandes telles que `INSERT`, `UPDATE`, `DELETE`, et `MERGE`.
3. Gestion des bases de données: SQL comprend des commandes pour créer,
modifier et supprimer des bases de données et des tables. Par exemple,
`CREATE DATABASE` et `CREATE TABLE` permettent de créer une nouvelle base
de données ou table, tandis que `DROP DATABASE` et `DROP TABLE`
permettent de les supprimer.
4. Contrôle des accès et de la sécurité : SQL offre des commandes pour gérer
les permissions et les accès des utilisateurs à la base de données, comme
`GRANT` et `REVOKE`, qui permettent de donner ou de retirer des droits
d'accès.
5. Transactions : SQL permet de gérer les transactions, garantissant que les
opérations sur les données sont exécutées de manière sûre et fiable. Les
commandes `BEGIN TRANSACTION`, `COMMIT`, et `ROLLBACK` permettent de
contrôler les transactions.
6. Fonctions et procédures stockées: SQL permet de créer des fonctions et des
procédures stockées qui encapsulent des séquences de commandes SQL pour
être réutilisées, ce qui aide à automatiser et à standardiser les opérations
courantes sur les données.
En résumé, SQL est un outil puissant et polyvalent pour interagir avec les bases
de données relationnelles, permettant aux utilisateurs de définir, manipuler,
contrôler et interroger des données de manière efficace et sécurisée.

14.Que faites-vous lorsque vous n’avez pas assez d’informations pour une
analyse de données ?
Lorsque je n'ai pas assez d'informations pour une analyse de données, je
commence par identifier clairement les informations manquantes et leur
impact sur l'analyse. Ensuite, je consulte les parties prenantes pour obtenir des
données supplémentaires ou des éclaircissements. Si les informations restent
insuffisantes, j'explore des sources de données alternatives ou des méthodes
indirectes pour obtenir les insights nécessaires. Parallèlement, je documente
les limitations et les hypothèses faites, afin de communiquer clairement les
incertitudes et les impacts potentiels sur les résultats de l'analyse.
15.Un client vous rapporte que votre analyse est incorrecte. Comment gérez-
vous la situation ?
Lorsqu’un client rapporte que mon analyse est incorrecte, je commence par
écouter attentivement ses préoccupations pour bien comprendre les points
spécifiques de désaccord. Ensuite, je revisite l'analyse pour identifier
d'éventuelles erreurs ou malentendus. Je communique rapidement avec le
client pour discuter des découvertes, apporter des corrections si nécessaire et
expliquer les ajustements effectués. Enfin, je mets en place des mesures pour
éviter que ce type d'erreur ne se reproduise, tout en assurant le client de mon
engagement à fournir des analyses précises et fiables.

16.Pouvez-vous m’expliquer la différence entre le data mining et le data


profiling ?
Le data mining et le data profiling sont deux processus distincts dans l'analyse
des données. Le data mining consiste à explorer de grands ensembles de
données pour découvrir des motifs, des relations et des tendances cachées à
l'aide de techniques statistiques et de machine Learning. En revanche, le data
profiling se concentre sur l'évaluation de la qualité des données en analysant
leur structure, leur contenu et leurs relations pour identifier les anomalies, les
redondances et les incohérences. En résumé, le data mining cherche à extraire
des connaissances utiles à partir des données, tandis que le data profiling vise
à assurer la qualité et l'intégrité des données.

17.Pouvez-vous décrire le projet le plus complexe sur lequel vous avez dû


travailler ? Quelles étaient les principales difficultés et comment avez-vous
réussi à les surmonter ?
Le projet le plus complexe sur lequel j’ai dû travailler était un projet de data
Engineering qui m’a causé beaucoup de soucis du à l’allocation de la mémoire
de ma machine. Je n’ai vraiment pas pu exécuter les tâches principales du
projet j’ai confié les tâches aux autres membres de l’équipe du projet pendant
que moi je développais l’application et la partie théorique que j’ai dû gérer. Ça
portait sur les pipelines de données sur la plateforme AWS.
18. Pour vous, quelles sont les trois grandes qualités d’un bon analyste de
données ?
Un bon analyste de données se distingue par trois qualités essentielles. Tout
d'abord, il possède des compétences techniques solides, maîtrisant les outils et
les méthodes d'analyse de données. Ensuite, il fait preuve d'une pensée
analytique aiguisée, lui permettant d'identifier les problèmes, de formuler des
hypothèses pertinentes et de proposer des solutions efficaces. Enfin, il excelle
dans la communication claire et efficace des résultats, adaptant son discours
pour rendre les concepts complexes accessibles à un large public et favoriser
une compréhension approfondie des conclusions tirées de l'analyse de
données.

19.Qu’est-ce qui vous plaît dans l’analyse de données ? Pourquoi avoir choisi
cette carrière ?
Ce que j'apprécie particulièrement dans l'analyse de données, c'est la capacité
à découvrir des modèles et des tendances cachées dans les données, et à
utiliser ces informations pour résoudre des problèmes concrets et prendre des
décisions éclairées. L'analyse de données offre une approche systématique
pour comprendre le monde qui nous entoure à travers les données, qu'il
s'agisse de comprendre les comportements des clients, d'optimiser les
opérations commerciales ou de faire avancer la recherche scientifique.
J'ai choisi cette carrière car elle me permet de combiner ma passion pour la
résolution de problèmes avec mon intérêt pour la technologie et les
mathématiques. J'apprécie le défi intellectuel de transformer des ensembles de
données brutes en informations utiles et significatives, ainsi que le potentiel de
l'analyse de données pour avoir un impact réel et positif sur les organisations et
la société dans son ensemble. En fin de compte, contribuer à la prise de
décision fondée sur les données et à l'innovation me motive chaque jour dans
ma carrière d'analyste de données.

C’est quoi une API ?


L’API (Application Programming Interface)
Une API ou, interface de programmation d’application, est un ensemble de
définitions et de protocoles qui facilite la création et l’intégration des
applications.
Parce que les API simplifient la façon dont les développeurs intègrent de
nouveaux composants d’applications dans une architecture existante, elles
facilitent la collaboration entre les équipes informatiques et métier.

Comment fonctionnent les API ?


Nous avons d’abord le Backend du système. Les applications que nous voulons
utilisés dans notre système. Il y’a plusieurs types d’applications (mobiles, IOT
devices) que nous pouvons utiliser dans notre Backend. Nous pouvons par
exemple créer une requête qui permet de collecter tous les éléments de ma
base de données sous forme d’URL et cette URL possède des permissions pour
permettre la transmission des informations. Dès qu’une application a besoin
d’un service via l’API, elle va utiliser l’URL stockée dans la documentation.
Les types d’API :
Les API privées, partenaires, publiques
L’API privée est une API où on garde totalement le contrôle. Elle est
généralement plus utilisée dans les entreprises.
L’API partenaire est une API que l’on développe et nous pouvons l’étendre à
d’autres entreprises ou particuliers.
L’API publique peut être une source d’innovation. On développe l’API et on la
rend publique. Donc tout le monde peut développer l’API. C’est open source.
Les API Web utilisent en général le protocole HTTP pour leurs messages de
requête et fournissent une définition de la structure des messages de réponse.
Les messages de réponses se présentent la plupart du temps sous la forme d’un
fichier XML ou JSON. Ces deux formats sont les plus utilisés.
Différences entre SOAP et REST
Les API conçues d’après le protocole SOAP utilisent le format XML pour leurs
messages et reçoivent des requêtes via HTTP ou SMTP. SOAP a pour objectif
de simplifier l’échange des informations entre les applications qui s’exécutent
dans les environnements différents ou qui ont été écrites dans des langues
différentes.
REST (Representational State Transfert) est une autre tentative de
normalisation.
SOAP est un protocole alors que REST est un style d’architecture. Les
applications web qui respectent les contraintes de l’architecture REST sont
appelées API RESTful.
Quelle est la différence entre les bases de données relationnelles (SGBDR) et
les bases de données non relationnelles (SGBDNR) ?
Les SGBDR stockent les données sous forme de tableaux, tandis que les
SGBDNR les stockent sous forme de documents ou de paires clé-valeur.
Quelle est la différence entre une clé primaire et une clé étrangère ?
Clé primaire : Identifie de manière unique chaque enregistrement dans une
table et ne peut pas être nulle.
Clé étrangère : Établit une relation entre deux tables en référant à la clé
primaire d'une autre table et peut être nulle.
A quoi sert une clé étrangère dans une base de données relationnelle ?
La clé étrangère est un élément crucial des bases de données relationnelles
pour maintenir l'intégrité des données, faciliter les requêtes complexes,
améliorer l'organisation et la gestion des données, et assurer des actions
cohérentes lors des mises à jour et des suppressions.
Elle sert à lier deux tables sur la base d’une colonne commune.

Qu'est- ce qu'un modèle de machine Learning?


Un modèle de machine Learning est un système informatique qui utilise des
algorithmes pour analyser et apprendre à partir de données afin de faire des
prédictions ou prendre des décisions sans être explicitement programmé pour
effectuer ces tâches. Il fonctionne en étant entraîné sur un ensemble de
données d'entraînement, où il identifie des motifs et des relations. Une fois
entraîné, le modèle peut appliquer ce qu'il a appris pour traiter de nouvelles
données et fournir des résultats pertinents. Les modèles de machine Learning
sont utilisés dans divers domaines, tels que la reconnaissance d'image, la
traduction automatique, la détection de fraude et bien d'autres.

Voici quelques exemples de modèles de machine Learning :


1. Régression linéaire : Utilisé pour les prédictions continues, comme prévoir
les prix de l'immobilier en fonction de divers facteurs.
2. Forêts aléatoires (Random Forest) : Utilisées pour les tâches de classification
et de régression, comme la détection de fraude ou la prédiction des ventes.
3. Réseaux de neurones artificiels (ANN) : Utilisés pour une variété de tâches
complexes comme la reconnaissance d'image, la reconnaissance vocale, et la
prédiction de séries temporelles.
4. Machines à vecteurs de support (SVM) : Utilisées principalement pour la
classification, comme le filtrage de spam ou la classification de texte.
5. K-moyennes (K-means) : Un algorithme de clustering utilisé pour regrouper
des données similaires, comme la segmentation de clientèle.
6. Algorithmes de gradient boosting (e.g. , XGBoost, LightGBM) : Utilisés pour
améliorer les performances des modèles de classification et de régression en
combinant plusieurs modèles faibles.
7. Réseaux neuronaux convolutifs (CNN) : Spécialisés dans la reconnaissance
et le traitement des images, utilisés dans des applications comme la vision par
ordinateur.
8. Réseaux de neurones récurrents (RNN) : Utilisés pour les données
séquentielles ou temporelles, comme la traduction automatique et la
génération de texte.

Le déploiement d'un modèle de machine Learning comprend plusieurs étapes


clés :
1. Préparation des données : Collecter, nettoyer et préparer les données
nécessaires pour entraîner le modèle.
2. Entraînement du modèle : Choisir un algorithme approprié et entraîner le
modèle sur les données préparées.
3. Évaluation du modèle: Tester le modèle sur des données de validation pour
évaluer sa performance et ajuster les hyperparamètres si nécessaire.
4. Optimisation du modèle : Améliorer le modèle en utilisant des techniques
comme la régularisation ou l'optimisation des hyperparamètres.
5. Exportation du modèle : Sauvegarder le modèle entraîné dans un format
approprié pour le déploiement (par exemple, en utilisant des formats comme
ONNX ou PMML).
6. Déploiement du modèle : Intégrer le modèle dans un environnement de
production, tel qu'un serveur web ou une application mobile, en utilisant des
outils comme Docker, Kubernetes ou des services Cloud.
7. Surveillance et maintenance : Surveiller les performances du modèle en
production et le mettre à jour régulièrement pour s'adapter aux nouvelles
données ou aux changements de conditions.

La différence entre un Datawarehouse et un Data Lake réside principalement


dans la façon dont les données sont stockées, structurées et utilisées. Voici un
résumé concis :
Datawarehouse :
- Structure des données: Les données sont structurées et organisées dans des
schémas prédéfinis (par exemple, en tables et colonnes) pour faciliter les
requêtes et les analyses.
- Type de données : Principalement des données relationnelles et
transactionnelles, souvent nettoyées et transformées avant le stockage.
- Cas d'utilisation : Utilisé pour des analyses avancées, des rapports, et des
requêtes complexes nécessitant une haute performance.
- Utilisateurs : Destiné aux analystes de données, aux professionnels de la BI
(Business Intelligence), et aux gestionnaires.
Data Lake:
- Structure des données : Les données sont stockées dans leur format brut et
peuvent être structurées, semi-structurées ou non structurées.
- Type de données : Peut stocker une grande variété de types de données, y
compris des fichiers de log, des images, des vidéos, des flux de données en
temps réel, etc.
- Cas d'utilisation : Utilisé pour l'exploration de données, le big data,
l'apprentissage automatique et l'analyse avancée sans la nécessité d'une
structure rigide.
- Utilisateurs : Conçu pour les data scientists, les ingénieurs de données et les
chercheurs qui nécessitent un accès flexible et extensible aux données.
En résumé, un Datawarehouse est optimisé pour les analyses structurées et les
requêtes rapides, tandis qu'un Data Lake est conçu pour stocker de vastes
quantités de données diverses, prêtes à être explorées et analysées de manière
flexible.

Voici quelques exemples de Datawarehouse et de Data Lake :


Exemples de Datawarehouse :
1. Amazon Redshift: Un service de Datawarehouse entièrement géré par
Amazon Web Services (AWS), conçu pour traiter des requêtes analytiques
complexes sur de grands ensembles de données.
2. Google BigQuery: Une plateforme de Datawarehouse sans serveur,
entièrement gérée par Google Cloud, permettant des analyses ultra-rapides sur
des ensembles de données massifs.
3. Snowflake : Une solution de Datawarehouse en cloud offrant des capacités
de stockage et de calcul élastiques, permettant un traitement analytique rapide
et scalable.
4. Microsoft Azure Synapse Analytics : Anciennement connu sous le nom
d'Azure SQL Data Warehouse, ce service combine l'entreposage de données et
l'analyse big data en une seule plateforme intégrée.
5. IBM Db2 Warehouse: Une solution de Datawarehouse en cloud ou sur site,
optimisée pour les analyses et les requêtes complexes.

Exemples de Data Lake :


1. Amazon S3 (Simple Storage Service) : Utilisé fréquemment comme Data
Lake en raison de sa capacité à stocker des données non structurées et semi-
structurées de manière économique et scalable.
2. Azure Data Lake Storage : Un service de Microsoft Azure conçu pour le
stockage de données de big data, offrant une intégration avec des services
d'analyse et de machine Learning.
3. Google Cloud Storage : Utilisé pour construire des Data Lakes, ce service
permet de stocker et d'accéder à des données non structurées et semi-
structurées à grande échelle.
4. Apache Hadoop : Un écosystème open-source souvent utilisé pour créer des
Data Lakes, capable de stocker et de traiter des volumes massifs de données
structurées et non structurées.
5. Databricks Lakehouse : Une plateforme unifiant les capacités de Data Lake
et de Datawarehouse, permettant à la fois le stockage flexible des données et
des analyses performantes.

5 questions à poser durant un entretien :


Dans l’entreprise DATABEEZ quel est votre plus gros défi?
Quelles sont vos attentes pour le poste?
Quelle est votre vision de l’équipe à court, long et moyen terme?
Quel genre de manager êtes-vous ?
Qu’est-ce que vous aimez le moins dans l’entreprise.

Vous aimerez peut-être aussi