TP 3 Hive v0.1
TP 3 Hive v0.1
TP 3 Hive v0.1
Activité 1 :
1. On commence par le téléchargement des médias d’installation depuis le site officiel
d’Apache :
wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
export HIVE_HOME=/home/hadoop/apache-hive-3.1.2-bin
export PATH=$PATH:/home/hadoop/apache-hive-3.1.2-bin/bin
source ~/.bashrc
rm apache-hive-3.1.2-bin/lib/guava-19.0.jar
cp hadoop/share/hadoop/hdfs/lib/guava-27.0-jre.jar apache-hive-3.1.2-bin/lib/
5. On vérifie l’existence du répertoire “tmp” sous HDFS et on ajoute les autorisations nécessaires
:
7. On utilise l’outil “schematool” pour instancier la base de données « Derby » pour le stockage
des métadonnées de Hive :
hive
Activité 2 :
1. Démarrez « Hive » pour charger l’environnement de travail :
hive
!clear ;
show databases ;
show tables ;
6. Affichez les bases de données pour vérifier la création de la nouvelle base de données:
show databases ;
use test1 ;
show tables ;
11. Affichez une description de la tables « movies » pour voir la structure de la table ainsi que le
chemin d’accès sur HDFS:
describe movies
describe extended movies
12. Affichez le contenu de la base de données « test1.db » sur Hive Warehouse ‘HDFS’ :
13. Maintenant, essayez de charger des données (HDFS) erronées sur la table:
NB: La commande va déplacer les données du répertoire HDFS désigné vers Hive Warehouse.
14. Affichez le contenu de la table avec la commande:
NB: Pour charger des données depuis votre serveur local, on utilise la commande suivante :
18. Maintenant, vérifiez que les données ont été déplacés du répertoire HDFS vers Hive
warehouse:
hive
create external table users(
user_id INT,
age INT,
gender INT,
occupation STRING,
zip_code STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
STORED AS TEXTFILE
LOCATION '/user/input/userinfo';
show tables ;
describe formatted users ;
4. Effectuez un affichage des 10 première ligne de la table pour vérifier qu’elle pointe vers le
fichier externe HDFS :
5. Vous pouvez examiner que le tableau est rempli avec des valeurs nuls, pour cette raison
vérifier le contenu du fichier « u.info » :
NB: On peut içi toucher que Hive ne vérifie pas le contenu des éléments que durant la lecture.
7. Effectuez un affichage des 10 première ligne de la table pour vérifier qu’elle pointe vers le
bon fichier externe HDFS :
8. On peut voir que le troisième champ (gender) est rempli par des valeurs nul à cause du type de
champ que nous avons déclaré comme « INT ». Modifiez le type de ce champ et réaffichez le
contenu de la table :
alter table users change gender gender string;
select * from users limit 10 ;
9. Maintenant, utilisez Hive pour sélectionnez le nombre des utilisateurs qui travaillent comme
« occupation=artist » :
NB: vous pouvez voir maintenant que Hive invoque Hadoop MapReduce pour exécuter la requête et
cela peut prendre un moment sous une installation « Standalone ».
Il faut s’assurer que le gestionnaire des ressources YARN est bien démarré (start-yarn.sh).
10. On peut créer une table à partir d’une requête de séléctionne :
NB: vous pouvez voir que la création d’une table avec « like » crée une table similaire de structure
mais vide.