Cours Hbase Polycopie

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 49

Apache HBase : un SGBD NoSQL orienté colonne

Jonathan Lejeune

Sorbonne Université/LIP6-INRIA

CODEL – Master 2 SAR 2018/2019

c Jonathan Lejeune (Sorbonne Univ.) Hbase 1 / 49


Motivations

Le stockage de données dans l’Eco-système Hadoop


HDFS :
stockage de grand volume de données
Accès séquentiel aux données :
⇒ accès à une donnée ponctuelle stockée dans un fichier = un scan
complet du cluster
⇒ coûteux en temps et en calcul

Comment indexer et structurer des grandes masses de données pour


un accès direct (random access) ?

Utilisation d’un SGBD

c Jonathan Lejeune (Sorbonne Univ.) Hbase 2 / 49


Apache Hbase

Bref historique
Nov 2006 : Google publie un papier sur BigTable
Oct 2007 : Premier Hbase "utilisable"
Mai 2010 : HBase devient un projet Apache top-level
Fev 2015 : Hbase 1.0.0

c Jonathan Lejeune (Sorbonne Univ.) Hbase 3 / 49


Caractéristiques principales de HBase
Système d’indexation distribué
⇒ répartition de charge

Repose sur un système de fichiers distribué fiable (HDFS par défaut)


⇒ tolérance aux pannes, robustesse des données

Écritures/lectures directes sur un très grands ensemble de données


⇒ accès accélérés

Stockage NoSQL :
orienté colonne :
⇒ adapté aux traitements analytiques en ligne (OLAP)
Schéma clé → valeur
⇒ accès rapide à une valeur par sa clé
triée
⇒ permet de récupérer les valeurs par intervalle de clés

c Jonathan Lejeune (Sorbonne Univ.) Hbase 4 / 49


Caractéristiques principales de HBase

Passage à l’échelle horizontal et linéaire


⇒ nombre de machines x 2 = stockage et puissance de calcul x2

Partitionnement automatique des données en régions


⇒ distribution et répartition des données transparentes pour l’utilisateur

Basculement automatique en cas de serveur de données défaillant


⇒ tolérance aux pannes transparentes pour l’utilisateur

Accès via Map-Reduce


⇒ traitement massivement parallèles

API Java
⇒ intégration naturelle dans l’ecosystème Hadoop

c Jonathan Lejeune (Sorbonne Univ.) Hbase 5 / 49


Organisation logique des données

Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

c Jonathan Lejeune (Sorbonne Univ.) Hbase 6 / 49


Namespaces
Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Definition
Un groupement logique de table
Caractéristiques
Permet d’isoler des tables pour des raisons de quotas, de restrictions
géographiques, de sécurité
Deux namespace existent déjà par défaut
hbase : Contient toutes les tables des méta-données de HBase
default : namespace par défaut lorsque aucun namespace n’est spécifié
à la création d’une table
c Jonathan Lejeune (Sorbonne Univ.) Hbase 7 / 49
Table

Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Élément servant à organiser les données dans HBase
Le nom d’une table est une chaîne de caractère
Désignée de manière non ambiguë en préfixant son nom par le nom de
son namespace séparé par ’ :’
nom_namespace:nom_table

c Jonathan Lejeune (Sorbonne Univ.) Hbase 8 / 49


Row

Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Permet d’organiser les données dans une table
Une ligne est identifiée par une clé unique : RowKey
La Rowkeys n’a pas de type, c’est un tableau d’octets.

c Jonathan Lejeune (Sorbonne Univ.) Hbase 9 / 49


ColumnFamily

Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Regroupe les données au sein d’une ligne
Toutes les lignes de la table ont les mêmes ColumnFamily, pouvant
être peuplée ou pas
Au moins une à la création de la table dans HBase

c Jonathan Lejeune (Sorbonne Univ.) Hbase 10 / 49


Column

Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Permet de subdiviser les columnfamily
Désignée par une chaîne de caractères appelée column qualifier
Spécifiée au moment de l’insertion de la donnée
Non typée, le nom est un tableau d’octets

c Jonathan Lejeune (Sorbonne Univ.) Hbase 11 / 49


Cell

Namespace1
Table1 ColumnFamily ColumnFamily2
Col1 1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Identifiée par la combinaison d’un RowKey, de la Column Family et de
la Column
Les données stockées dans une cellule sont les valeurs de la cellule
on peut stocker différente version de la cellule (ou timestamp)

c Jonathan Lejeune (Sorbonne Univ.) Hbase 12 / 49


Version

Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Les valeurs au sein d’une cellule sont versionnées
Les versions sont identifiées par défaut par un timestamp (de type
long)
Le nombre de version que l’on peut stocker par cellule est paramétrable

c Jonathan Lejeune (Sorbonne Univ.) Hbase 13 / 49


Valeur
Namespace1
Table1 ColumnFamily1 ColumnFamily2
Col1 Col2 Col3 Col4 Col5
vers3 val10
vers2 val1
Rowkey1 vers1 val6 vers1 val7 vers2 val11
vers1 val2 vers1 val12

Rowkey2 vers1 val3 vers1 val13 vers1 val16

Rowkey3 vers1 val5 vers1 val9 vers1 val14 vers1 val15

Définition
Une valeur est une donnée atomique de la base
Non typée et stockée au format binaire
Les valeurs null ne sont pas matérialisées (aucun stockage nécessaire)
Désignée par une clé multi-dimensionnelle :
(rowkey, column family, column, version)

Désignation complète d’une valeur dans HBase


namespace :table(rowkey, column family, column, version) –> val
c Jonathan Lejeune (Sorbonne Univ.) Hbase 14 / 49
Architecture globale

JVM JVM JVM JVM


HMaster RegionServer RegionServer RegionServer

JVM JVM JVM JVM


NameNode DataNode DataNode DataNode

Infrastructure
physique
Machine Machine Machine
esclave esclave esclave
Machine maître

Une architecture maître esclave


Nœud maître = Hmaster, Nœud esclave = RegionServer
Correspondance directe avec le cluster HDFS
c Jonathan Lejeune (Sorbonne Univ.) Hbase 15 / 49
Découpage des données sur le cluster
ColumnFamily1 ColumnFamily2
Table1
Col1 Col2 Col3 Col4 Col5
Rowkey1
Region 1 Rowkey2

RegionServer Rowkey3

Rowkey4
Region 2 Rowkey5

RegionServer Rowkey6

Rowkey7
Region 3 Rowkey8
RegionServer Rowkey9

Région
Sous ensemble contiguë de lignes de la table
Stockée sur un nœud physique esclave et triée selon la rowkey
Identifiée par un rowkey minimum et un rowkey maximum
c Jonathan Lejeune (Sorbonne Univ.) Hbase 16 / 49
RegionServer
HRegionServer
BlockCache

HRegion
WAL Store MemStore Store MemStore
StoreFile StoreFile StoreFile ... ...
HLog
... ...
HFile HFile HFile

... DFS client

Datanode Datanode Datanode Datanode

Caractéristiques principales
Point d’entrée pour accéder à une donnée
Propose les services :
Données (get, put,delete,next, etc.)
Region (splitRegion, compactRegion, etc.)
c Jonathan Lejeune (Sorbonne Univ.) Hbase 17 / 49
RegionServer : BlockCache

HRegionServer
BlockCache

HRegion
WAL Store MemStore Store MemStore
StoreFile StoreFile StoreFile ... ...
HLog
... ...
HFile HFile HFile

... DFS client

Datanode Datanode Datanode Datanode

Caractéristique du BlockCache
Cache LRU activé par défaut pour toutes les tables
⇒ Toute opération de lecture est chargée dans le cache LRU.

c Jonathan Lejeune (Sorbonne Univ.) Hbase 18 / 49


RegionServer : Write Ahead Log (WAL)
HRegionServer
BlockCache

HRegion
WAL Store MemStore Store MemStore
StoreFile StoreFile StoreFile ... ...
HLog
... ...
HFile HFile HFile

... DFS client

Datanode Datanode Datanode Datanode

Caractéristiques des WAL


Loguent les ajouts/mises à jour fait sur le RegionServer
Garantissent la durabilité de la donnée en cas de défaillance
Stockent les informations dans un fichier HDFS HLog
c Jonathan Lejeune (Sorbonne Univ.) Hbase 19 / 49
RegionServer : HRegion

HRegionServer
BlockCache

HRegion
WAL Store MemStore Store MemStore
StoreFile StoreFile StoreFile ... ...
HLog
... ...
HFile HFile HFile

... DFS client

Datanode Datanode Datanode Datanode

Caractéristiques des HRegion


Représente une région
Gére un sous ensemble d’une table Hbase

c Jonathan Lejeune (Sorbonne Univ.) Hbase 20 / 49


RegionServer : Store
HRegionServer
BlockCache

HRegion
WAL Store MemStore Store MemStore
StoreFile StoreFile StoreFile ... ...
HLog
... ...
HFile HFile HFile

... DFS client

Datanode Datanode Datanode Datanode

Caractéristiques des Stores


Représente une columnFamily de la région
Appartient à une seule région
Le cache memStore stocke toutes les écritures relatives à la partition
Stocke les données physiquement dans plusieurs fichiers HDFS.
c Jonathan Lejeune (Sorbonne Univ.) Hbase 21 / 49
Découpage des tables

Résumé
Une table est segmentée en plusieurs partitions
Une partition d’une table est gérée par une Region
Un RegionServer gère plusieurs Region
Une Region contient plusieurs Store
Chaque Store gère une ColomnFamily d’une table
Un Store gère un MemStore et plusieurs StoreFile
Un StoreFile gère un fichier de stockage de la partition

c Jonathan Lejeune (Sorbonne Univ.) Hbase 22 / 49


HMaster

Caractéristiques
Coordonne et surveille les RegionServer : les remplace si besoin
Interface pour tout changement des meta-données du système (table
hbase :meta) :
ex : création/suppression/modif d’une table ou d’une col family
Assure l’équilibre de charge entre RegionServer :
(dé)assigne/déplace les régions
Peut être répliqué

En cas de panne :
un des réplicas prend sa place
pendant la gestion de la panne, HBase peut continuer à fonctionner
car les clients s’adressent directement aux RegionServer

c Jonathan Lejeune (Sorbonne Univ.) Hbase 23 / 49


Zookeeper

Caractéristiques
Logiciel Apache de de
coordination de systèmes
distribués
entrepôt de méta-données
partagées Machine Machine Machine
esclave esclave esclave
Machine maître
surveillance et notification
d’événements

Rôle pour HBase


Notifie le HMaster en cas de
ZooKeeper
panne d’un RegionServer
Stocke la localisation de la table
hbase :meta dans le cluster

c Jonathan Lejeune (Sorbonne Univ.) Hbase 24 / 49


La table hbase :meta

Caractéristiques
Maintien la liste de toutes les régions du système
La localisation des régions est stockée dans ZooKeeper

hbase
meta info
regioninfo server serverstartcode
(nom_table, clé de départ, id_region) <info diverse> <adresseIP:port du <date a laquelle la
serveur> region a été crée sur
le serveur>

c Jonathan Lejeune (Sorbonne Univ.) Hbase 25 / 49


Accès à une donnée depuis un client

ZooKeeper JVM
HMaster

1 : Consulter Machine maître


localisation 2 : Localisation
hbase:meta des régions de
hbase:meta

JVM
Client 3 : accès lecture
hbase:meta JVM
RegionServer
Machine cliente JVM
4 : retour localisation région
démandées RegionServer

JVM
5 : accès RegionServer
lecture/lecture

Machines esclaves

c Jonathan Lejeune (Sorbonne Univ.) Hbase 26 / 49


Cas d’une écriture

HRegionServer
BlockCache

HRegion
WAL Store MemStore

StoreFile StoreFile ...


HLog
...
HFile HFile

Client RegionServer WAL memstore HFile


Put/Delete
Write WAL
Time Write to
memstore
Flush to disk

c Jonathan Lejeune (Sorbonne Univ.) Hbase 27 / 49


Manipuler HBase

les API
un shell dédié en lançant la commande hbase shell
API JAVA native
API externes :
REST
Thrift

c Jonathan Lejeune (Sorbonne Univ.) Hbase 28 / 49


Shell Hbase

Commandes générales
status : retourne l’état des RegionServers du système

version : retourne la version courante de Hbase sur le système

help : affiche une aide sur l’utilisation du shell HBase ainsi que la liste
des commandes possibles

table_help : affiche une aide sur l’utilisation des commandes


manipulant les tables du système

whoami : affiche des information sur l’utilisateur courant

c Jonathan Lejeune (Sorbonne Univ.) Hbase 29 / 49


Shell Hbase
Commandes pour les namespace
Créer un namespace
create_namespace ’my_ns’

Effacer un namespace : le namespace ne doit pas contenir de table


drop_namespace ’my_ns’

Liste des namespace dans le système


list_namespace

Liste des tables présentes dans un namespace


list_namespace_tables ’my_ns’

Modifier les attributs d’un namespace


alter_namespace ’my_ns’, {METHOD=>’set’, ’PROPERTY_NAME’=>’PROPERTY_VALUE’}

Lire les attributs d’un namespace


describe_namespace ’my_ns’

c Jonathan Lejeune (Sorbonne Univ.) Hbase 30 / 49


Shell Hbase

Commandes table
create : créer une table
create ’<table name>’,’<colfam1>’, ’<colfam2>’, ...., ’<colfamN>’

list : Lister les tables dans HBase.


disable et enable : désactiver/activer une table. Désactivation
obligatoire avant suppression
is_disabled et is_enabled : tester la désactivation/l’activation
describe :Afficher les attributs d’une table
scan : Afficher tout le contenu d’une table
drop : effacer une table de Hbase. la table doit être désactivée.
exists : tester si une table existe
count : affiche le nombre de ligne dans la table
truncate : désactive + efface + recrée la table

c Jonathan Lejeune (Sorbonne Univ.) Hbase 31 / 49


Shell Hbase

Modifier les attributs d’une table.


Commande alter
Exemple :
interdire l’écriture sur une table
alter ’t1’, READONLY
effacer une columnFamily
alter ’<table name>’, ’delete’ => ’<column family>’

c Jonathan Lejeune (Sorbonne Univ.) Hbase 32 / 49


Shell Hbase

Manipuler des données dans une table


Ecrire/mettre à jour une donnée :
put ’<table name>’,’<rowid>’,’<colfamily:colname>’,’<value>’

Lire une ligne d’une table :


get ’<table name>’, ’<rowid>’

Lire une colonne spécifique d’une ligne :


get ’<tabname>’, ’<rowid>’, {COLUMN => ’<colfam>:<colname>’}

Effacer une cellule :


delete ’<tabname>’, ’<row>’, ’<colname>’, ’<timestamp>’

c Jonathan Lejeune (Sorbonne Univ.) Hbase 33 / 49


API Java : Connexion/déconnexion à Hbase
Connexion à Hbase
Configuration conf = HBaseConfiguration . create ();
conf . set ( " hbase . zookeeper . quorum " , " server1 . com , server2 . fr " );
Connection c = ConnectionFactory . createConnection ( conf );
... // code client Hbase
c . close (); // fermeture connexion

Connexion/déconnexion à une table


Connection c = ..;
TableName tableName = TableName . valueOf ( " ma_table " );
Table table = c . getTable ( tableName );
...
table . close (); // fermeture desc table

Caractéristiques
"hbase.zookeeper.quorum" = machines serveurs de ZK (par def : localhost)
Recommandation : une unique connexion par JVM cliente
une connexion à ZooKeeper est coûteuse
les données de ZK sont en cache sur la machine cliente
c Jonathan Lejeune (Sorbonne Univ.) Hbase 34 / 49
API Java : le typage des données

RAPPEL
Dans Hbase les données ne sont pas typées et sont stockées au format
binaire :
⇒ Nécessité de convertir toutes les données du programme :
du type java d’origine vers byte[] avant une écriture
de byte[] vers le type Java d’origine après une lecture

La classe utilitaire Bytes


Vers le binaire Depuis le binaire
static byte [ ] toBytes ( String s ) ; static S t r i n g t o S t r i n g ( byte [ ] b y t e s ) ;
static byte [ ] t o B y t e s ( boolean b ) ; static boolean t o B o o l e a n ( byte [ ] b y t e s ) ;
static byte [ ] t o B y t e s ( long v a l ) ; static long t o L o n g ( byte [ ] b y t e s ) ;
static byte [ ] t o B y t e s ( float f ) ; static float t o F l o a t ( byte [ ] b y t e s ) ;
static byte [ ] t o B y t e s ( int v a l ) ; static int t o I n t ( byte [ ] b y t e s ) ;
...
...

c Jonathan Lejeune (Sorbonne Univ.) Hbase 35 / 49


API Java : création/suppression d’une table

Création d’une table


Connection c = .......;
Admin admin = c . getAdmin ();
HTableDescriptor desc = new HTableDescriptor (
TableName . valueOf ( namespace + " : " + nametable ));
desc . addFamily ( new HColumnDescriptor ( " col_fam1 " ));
desc . addFamily ( new HColumnDescriptor ( " col_fam2 " ));
... // add other col families
admin . createTable ( desc );

Suppression d’une table


Connection c = .......;
Admin admin = c . getAdmin ();
HTableDescriptor desc = new HTableDescriptor (
TableName . valueOf ( namespace + " : " + nametable ));
admin . disableTable ( desc . getTableName )
admin . deleteTable ( desc . getTableName )

c Jonathan Lejeune (Sorbonne Univ.) Hbase 36 / 49


API Java : Opération de lecture/écriture sur les tables

Opérations de lecture Opérations d’écriture

c Jonathan Lejeune (Sorbonne Univ.) Hbase 37 / 49


API Java : les mutations Put
Caractéristiques
Objet caractérisant une ou plusieurs écritures/ modifications d’une
ligne
constructeurs : Put(byte[] rowkey) ou Put(byte[] rowkey, long def_ts)
Ajouter une colonne à créer/à modifier :
Put addColumn ( byte [ ] f a m i l y , byte [ ] c o l , byte [ ] v a l ) ;
Put addColumn ( byte [ ] f a m i l y , byte [ ] c o l , long t s , byte [ ] val );

Exemple d’utilisation
T a b l e t a b l e = . . . . ; // c o n n e x i o n à une t a b l e
Put p u t = new Put ( B y t e s . t o B y t e s ( " row1 " ) ) ;
// a j o u t d ’ une v a l e u r v1 d a n s l a c e l l u l e <row1 , c f 1 : c1>
p u t . addColumn ( B y t e s . t o B y t e s ( " c f 1 " ) , B y t e s . t o B y t e s ( " c1 " )
, B y t e s . t o B y t e s ( " v1 " ) ) ;
// a j o u t d ’ une v a l e u r v2 d a n s l a c e l l u l e <row1 , c f 1 : c2>
p u t . addColumn ( B y t e s . t o B y t e s ( " c f 1 " ) , B y t e s . t o B y t e s ( " c2 " )
, B y t e s . t o B y t e s ( " v2 " ) ) ;

t a b l e . p u t ( p u t ) ; // e n v o i de l a r e q u ê t e s u r l a t a b l e
c Jonathan Lejeune (Sorbonne Univ.) Hbase 38 / 49
API Java : les autres Mutations

les Deletes
Objet caractérisant la suppression partielle ou totale des colonnes
d’une ligne
constructeur : Delete(byte[] rowkey)

les Appends
Objet caractérisant une opération atomique de read-modify-write sur
la cellule d’une ligne
constructeur : Append(byte[] row)
méthode : Append add(byte[] family, byte[] col, byte[] value)
⇒ création d’une nouvelle version de la cellule en concaténant
l’ancienne valeur avec la nouvelle valeur

c Jonathan Lejeune (Sorbonne Univ.) Hbase 39 / 49


API Java : les Query Get
Caractéristiques
Objet caractérisant la lecture partielle ou totale d’une ligne
constructeur : Get(byte[] rowkey)
Ajouter des critères de sélections :
Get a d d F a m i l y ( byte [ ] f a m i l y ) ;
Get addColumn ( byte [ ] f a m i l y , byte [ ] q u a l i f i e r ) ;
Get s e t T i m e R a n g e ( long minStamp , long maxStamp ) ;
Get s e t M a x V e r s i o n s ( int m a x V e r s i o n s ) ;
le résultat d’une lecture est un objet de type Result qui contient toute
les cellules qui correspondent aux critères de la requête

Exemple d’utilisation
T a b l e t a b l e = . . . . ; // c o n n e x i o n à une t a b l e
Get g e t = new Get ( B y t e s . t o B y t e s ( " row1 " ) ) ;
g e t . addColumn ( B y t e s . t o B y t e s ( " c f 1 " ) , B y t e s . t o B y t e s ( " c1 " ) ) ;

R e s u l t r e s = t a b l e . g e t ( g e t ) ; // e n v o i de l a r e q u ê t e s u r l a t a b l e
byte [ ] v a l = r e s . g e t V a l u e ( B y t e s . t o B y t e s ( " c f 1 " ) , B y t e s . t o B y t e s ( " c1 " ) ) ;
System . o u t . p r i n t l n ( B y t e s . t o S t r i n g ( v a l ) ) ;
c Jonathan Lejeune (Sorbonne Univ.) Hbase 40 / 49
API Java : les Query Scan

Caractéristiques
Objet caractérisant la lecture séquentielle de plusieurs lignes
constructeurs :
Scan() : toute la table
Scan(byte[] startRowKey) : à partir d’une ligne donnée
Scan(byte[] startRowkey, byte[] stopRowKey) : sur une portion
mêmes méthodes que Get

Exemple d’utilisation
T a b l e t a b l e = . . . . ; // c o n n e x i o n à une t a b l e
Scan s c a n = new Scan ( B y t e s . t o B y t e s ( "rowX" ) , B y t e s . t o B y t e s ( "rowY" ) ) ;
s c a n . addColumn ( B y t e s . t o B y t e s ( " c f z " ) , B y t e s . t o B y t e s ( " c o l " ) ) ;
ResultScanner r e s u l t s = t a b l e . getScanner ( scan ) ;
for ( R e s u l t r e s : r e s u l t s ) {
System . o u t . p r i n t l n ( r e s ) ;
}

c Jonathan Lejeune (Sorbonne Univ.) Hbase 41 / 49


Hbase avec Hadoop MapReduce

Map
Table in task 1

Region 1 Split 1 Map() Reduce


Connexion
task 1 Hbase
+ Table out
Map Reduce() Buffer mutator
Split 2 task 2
Region 2
Table
Table Map() …. Output
…. Input Format
Format
.... …. Reduce
task R
Region N Map Connexion
Hbase
task N Reduce()
+
Split N Buffer mutator
Map()

Interfaçage Hadoop-Hbase
Une région = Un split
Un reduce = Un client Hbase

c Jonathan Lejeune (Sorbonne Univ.) Hbase 42 / 49


Hbase avec Hadoop MapReduce : InputFormat
InputFormat spécifiques à Hbase
TableInputFormat :
type clé : ImmutableBytesWritable, représente le rowkey en binaire
type valeur : Result, résultat issu d’un Scan
deux paramètres nécessaires : le nom d’une table et un scan
MultiTableInputFormat : similaire mais pour plusieurs tables/scans
WALInputFormat : Accéder au WAL de Hbase.

Classe utilitaire pour configurer un TableInputFormat


class T a b l e M a p R e d u c e U t i l {
..
static void i n i t T a b l e M a p p e r J o b ( S t r i n g t a b l e , // nom t a b l e
Scan s c a n , // s c a n de l a t a b l e
C l a s s <? extends TableMapper> mapper , // t y p e mapper
C l a s s <?> o u t p u t K e y C l a s s , // t y p e c l é s o r t i e map
C l a s s <?> o u t p u t V a l u e C l a s s , // t y p e v a l e u r s o r t i e map
Job j o b ) // j o b map r e d u c e
...

c Jonathan Lejeune (Sorbonne Univ.) Hbase 43 / 49


Hbase avec Hadoop MapReduce : Mapper/Reducer

Mapper pour table Hbase


Héritage de la classe TableMapper<KEYOUTMAP, VALOUTMAP>
Redéfinition de la méthode
public void map ( I m m u t a b l e B y t e s W r i t a b l e key , R e s u l t v a l u e
, Context context ) ;

Reducer pour écrire dans une table Hbase


Héritage de la classe TableReducer<KEYIN, VALUEIN, KEYOUT>
La valeur de sortie est une sous classe de Mutation :
Uniquement Put ou Delete

c Jonathan Lejeune (Sorbonne Univ.) Hbase 44 / 49


Hbase avec Hadoop MapReduce : OutputFormat

OutputFormat spécifiques à Hbase


TableoutputFormat :
type clé : ImmutableBytesWritable, représente le rowkey en binaire
type valeur : Mutation
un paramètre nécessaire : le nom d’une table
MultiTableOutputFormat : similaire mais pour plusieurs tables

Configurer un TableOutputFormat
job . g e t C o n f i g u r a t i o n ( ) . s e t ( T a b l e O u t p u t F o r m a t . OUTPUT_TABLE, " tab_out " ) ;
job . s e t O u t p u t F o r m a t C l a s s ( T a b l e O u t p u t F o r m a t . class ) ;
job . s e t O u t p u t K e y C l a s s ( I m m u t a b l e B y t e s W r i t a b l e . class ) ;
job . s e t O u t p u t V a l u e C l a s s (< s o u s c l a s s e de M u t a t i o n >);

ou bien les méthodes statiques initTableReducerJob de la classe


TableMapReduceUtil

c Jonathan Lejeune (Sorbonne Univ.) Hbase 45 / 49


Codage Map-Reduce sur Hbase : squelette

public class HbaseMapper extends TableMapper<KOUTM, VOUTM>{


void map ( I m m u t a b l e B y t e s W r i t a b l e key , R e s u l t v a l u e , C o n t e x t c ) { . . }
}

public class H b a s e R e d u c e r extends T a b l e R e d u c e r <KINR , VINR , KOUTR>{


void r e d u c e ( KINR key , I t e r a b l e <VINR>, C o n t e x t c ) { . . }
}

Configuration conf = HBaseConfiguration . create ( ) ;


//DESACTIVER LA SPECULATION
Job j o b = Job . g e t I n s t a n c e ( c o n f , " j o b " ) ;
// c o n f i g t a b l e e n t r é e
Scan s c a n = . . . . ;
TableMapReduceUtil . i n i t T a b l e M a p p e r J o b ( " t a b l e _ i n " , scan ,
HbaseMapper . class , KOUTM. class , VOUTM. class , Job j o b ) ;
// c o n f i g t a b l e s o r t i e
j o b . g e t C o n f i g u r a t i o n ( ) . s e t ( T a b l e O u t p u t F o r m a t . OUTPUT_TABLE, " t_out " ) ;
j o b . s e t O u t p u t F o r m a t C l a s s ( T a b l e O u t p u t F o r m a t . class ) ;
j o b . s e t O u t p u t K e y C l a s s ( I m m u t a b l e B y t e s W r i t a b l e . class ) ;
j o b . s e t O u t p u t V a l u e C l a s s (< s o u s c l a s s e de M u t a t i o n >);

c Jonathan Lejeune (Sorbonne Univ.) Hbase 46 / 49


Propriétés garanties par HBase

Atomicité
toute mutation est atomique pour une ligne entière et peut être :
soit "success" ⇒ réussite complète
soit "failed" ⇒ échec complet
L’ordre de mutations concurrentes pour une ligne se fait sans
entrelacement.
ex : si "a=1,b=1" k "a=2,b=2" alors soit "a=1,b=1" ou soit "a=2,b=2"

L’atomicité n’est pas garantie sur plusieurs lignes

c Jonathan Lejeune (Sorbonne Univ.) Hbase 47 / 49


Propriétés garanties par HBase

Cohérence
Tout get sur une ligne complète retournera une version de la ligne qui
a existé dans l’histoire de la table :
si 1 get k plusieurs mutations, alors le get retournera une ligne complète qui a existé a
un point donné dans le temps entre les mutations

Un scan n’est pas une vue cohérente de la table


Toute ligne retournée par un scan est cohérente et est au moins aussi
récente que le début du scan

Durabilité
Toute donnée visible est durable ⇒ un read concerne forcément une
donnée stockée sur disque
Toute opération acquittée réussie est durable
Toute opération acquittée échec ne sera pas durable

c Jonathan Lejeune (Sorbonne Univ.) Hbase 48 / 49


Références

[1] http ://hbase.apache.org/book.html

[2] https ://www.tutorialspoint.com/hbase

[3] HBase : The Definitive Guide, 2nd Edition, Lars George, O’Reilly Media,
Inc., ISBN : 9781491905845

c Jonathan Lejeune (Sorbonne Univ.) Hbase 49 / 49

Vous aimerez peut-être aussi