Accès direct au contenu

LMT

Version anglaise

aide

LMT > Projets Transversaux

Le Cluster du LMT

Les problématiques très variées du domaine des matériaux et des structures font que le laboratoire a donc opté pour une solution « standard » c'est à dire, basée autant que possible sur des technologies non propriétaires (OS Linux/Debian et logiciels libres), sur des architectures matérielles classiques qui sont les mêmes que celles utilisées pour la plupart des serveurs présents sur le marché (processeur intel).
Ceci permet aux administrateurs du Centre de calcul une maîtrise de l'environnement et des services, de leur mise en place jusqu'à leur utilisation finale. Cette solution est issue d'une réflexion en partenariat avec la société Alinéos qui gère également le suivi du Cluster.

La durée et la complexité des calculs demandent fiabilité et Cluster disponibilité. C'est pourquoi les services critiques sont redondés. Le choix d'une technologie standard, et donc maitrisée d'apporter les modifications nécessaires au maintien et à l'amélioration de la qualité de service et de l'efficacité de la redondance.
Le réseau étant un point très important dans le domaine du calcul scientifique et en particulier dans celui du parallélisme, le choix s'est arrêté sur une technologie là aussi « classique » basée sur Ethernet 1000Base/T qui répond de façon large aux besoins du laboratoire en terme de calcul. Pour améliorer les performances, différents réseaux ont été mis en place afin d'éviter que les tâches d'administration et les accès aux fichiers distants entres les différents nœuds et serveurs n'interfèrent avec les échanges de données générés par des calculs parallélisés.

Commentaires sur la configuration choisie


    Plusieurs types de nœuds spécialisés, partitionnant le cluster de manière naturelle en deux sous-ensembles à vocation distincte :

  • Des nœuds dédiés au calcul de production, gérés par un système de file d'attente PBS.


  • Des nœuds dits graphiques pour les tâches interactives de développement et de post traitement. Ces nœuds équipés de cartes Nvidia compatibles CUDA fournissent les librairies et les outils nécessaires pour l'utilisation de cette technologie permettent aux chercheurs d'effectuer des calculs hyper parallélisés sur GPU.


    Plusieurs réseaux spécialisés

  • Le réseau administration, pour les connexions "rsh" et "ssh" et pour le trafic NFS des zones "usrtmp" via les points de montages "nutmp" on utilise ce réseau quand on définit la machine distante dans la classe d'adresses 192.168.1.xx ou par un nom comme "nodexxx"


  • Le réseau calcul destiné aux transactions inter processus applications parallèles à mémoire distribuée. On utilise ce réseau quand on définit une machine distante dans la classe d'adresses 192.168.2.xx ou par un nom comme "cnodexxx" (on ajoute la lettre c devant le nom du nœud)


  • Le réseau de données, on utilise ce réseau de manière transparente via les montages NFS des containers de la Baie RAID


Configuration Mémoire

Un espace de stockage plus important et à accès plus rapide
Non sauvegardé
Presque 24 To sur la Baie, accessibles via un réseau dédié
12.4 To de zones temporaires locales, /usrtmp partagées en réseau par les montages automatiques via /nutmp
6.6 To de zones temporaires locales uniquement, /tmpscratch
Une redondance des services avec heartbeat pour une haute disponibilité
Les frontaux pour les partages des /homes et des principaux services du cluster
Les serveurs de stockage pour l'accès à la Baie Raid.

L'environnement


La salle du cluster contient une allée chaude et une allée froide séparées par une cloison et six baies contenant les nœuds
Le maintien de la température est assuré par deux armoires à climatisation d'une puissance de 91,6 Kw Frigo. Ces armoires sont pilotées via le protocole snmp afin de s'assurer de leur bon fonctionnement et du maintien d'une température adéquate. La température est aussi surveillée au travers d'une sonde température réseau constituant un deuxième niveau de sécurité et enfin au travers des sondes de température internes des nœuds assurant un troisième niveau de sécurité.
    L'onduleur sécurisant l'installation et situé dans une pièce climatisée, est de conception modulaire permettant d'augmenter la puissance grâce à l'ajout de modules supplémentaires, il fourni 125 Kw (+ 25 Kw supplémentaire pour le démarrage).


Le Cluster


cluster

En savoir plus


Contacter

Christian REY
Professeur à l'ENS Cachan