clusterArchitectureInstallation CPera
clusterArchitectureInstallation CPera
clusterArchitectureInstallation CPera
19/01/2016
Sommaire.
De quoi parlons nous ?
Historique.
Definitions
Un modèle d’architecture pour référence.
Que veut on faire et pour qui ?
Composants de l’architecture.
Sécurité et bonnes pratiques.
Créons notre cluster -> adaptation de notre modèle théorique.
Installation (BareMetal, Provisioning, Bootstrap, Image, Config
Management).
Processus d’installation/démarrage d’un OS linux.
Mecanisme d’une description d’installation - kickstart/RHEL
Installation par réseau.
Sans installation - diskless
Automatisation d’une installation.
Exemples Systemes Imager/Clonezilla.
Solution intallation - Cobbler.
Solution Diskless Sidus.
Rocks.
ET le CLOUD ?
Référence
Cluster
Architecture et exploitation.
Quelques infos.
I NTP :
Nœud de
développement/compilation/debug/calcul/simulation
I NTP
Nœud de visualisation
I NTP :
Les services réseaux
Figure:
Le ressource/batch manager 2.
Figure: Exemple de gestion des processus MPI avec et sans batch manager.
Le batch manager - Exemple complet de soumission d’une
tache Matlab.
I Monitorer le cluster.
I Avoir un contact étroit avec les utilisateurs et encourager les retours
après utilisations/problèmes.
I Automatiser les remontées d’alerte et traitement/intervention.
I Sauvegarder (incréments ?).
I Documenter la reprise d’activer après sinistre, interruption, etc.
I Estimer le niveau de perte acceptable (identifier les
éléments/données critiques) et sécuriser.
Retour d’expérience.
I Attaque Brute force sur port SSH.
I Service "abort" + segFault application utilisant Lustre = freeze
kernel.
I DoS/Flood fréquents.
I Vol d’identité pour demande de création de compte.
I Logiciels commerciaux "intrusif" avec des comportement illégaux ...
I Faille de sécurité dans ILO/BMC et son protocole réseau sécurité.
(garder son réseau de management PRIVEE ! ! ! dédié ? ?).
I RAID matériel : /Scratch RAID 6 HS après reconstruction
automatique.
I Ralentissement FS XFS après saturation - 97
I Serveur NFS avec un ralentissement ponctuel : Flush mémoire (190
Go) - mauvaise configuration du noyau.
I Temps d’exécution aléatoire MPI : topologie et "bad pining" des
processus.
I Package standard MPI sans "binding RDMA".
I Zombie/Deadlock de processus utilisateur Lustre (problème
fopen/fortran/timeout lock file ...).
I Compilation trop optimisé -> "instruction illégale sur certains
noeuds.
Étapes essentielles, concevoir l’architecture du cluster.
1 #######################################################################
# This is an installation not an upgrade
3 install
# The location of the RPM files
5 url --url http://emstools2b.cisco.com/pub/rhel/server
key 9a09007d99b6cd00
7 lang en_US
# Use text mode install
9 text
keyboard us
11 xconfig --defaultdesktop kde --resolution 640x480 --depth 8
network --device eth0 --bootproto dhcp --onboot=on
Fichier kickstart.
Figure:
Solution de duplication d’image - Clonezilla
1. Préparation du système.
2. Installation de base (socle Debian, debootstrap).
3. Installation des paquets complémentaires (TOUT Debian-Science).
4. Purge des paquets non désirés.
5. Adaptation du système à l’environnement local.
6. Pointage du système vers les serveurs tiers :authentification et
partages utilisateurs.
7. Création de la séquence de démarrage.
8. Détachement SIDUS du système hôte.
Rppel distribution - ROCKS.
Outils clusters.
I forge.cbp.ens-lyon.fr/redmine/projects/sidus
I xCAT (Extreme Cluster/Cloud Administration Toolkit)
(http ://sourceforge.net/p/xcat/wiki/Main_Page)
I cobbler (http ://www.cobbler.org)
I fai
I foreman
I kickstart
I Ansible : http ://docs.ansible.com/ansible/index.html
I XDMoD : https ://sourceforge.net/projects/xdmod/