Changes between Version 1 and Version 2 of ColasPBS


Ignore:
Timestamp:
Dec 13, 2010 2:24:46 PM (12 years ago)
Author:
lluis
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • ColasPBS

    v1 v2  
    1 Meter aquí la parte explicativa de que son, para que sirven, gestión, etc...
     1== Introducción ==
     2
     3Un clúster es una agrupación de unidades de computación el cual permite trabajar con unidades individuales o cualquier subconjunto de ellas. Las unidades de computación pueden ser de muchos tipos y tener muchas características distintas, por lo general con una unidad de cálculo (''core'') y una memória (particular del core o compartida con otros). Un clúster suele tener much@s usuari@s que querrán ejecutar distintas aplicaciones. Un gestor de colas es el software encargado de manejar las aplicaciones que se quieren ejecutar en un determinado clúster.
     4
     5== Gestor de colas ==
     6Para que un clúster funcione adecuadamente para tod@s us usuari@s y el gestor de colas pueda hacer su trabajo, l@s usuari@s sólo tienen que interactuar con el gestor por medio de ''jobs''. Estos ''jobs'' son peticiones de recursos del clúster (número de cores, tiempo de ejecución...) necesarios poder lanzar la aplicación del usuari@. El gestor de colas será el encargado de permitir la ejecución de la petición si hay suficientes recursos disponibles en el clúster. En caso contrario, el trabajo se quedará ''encolado'', a la espera de que haya los recursos suficientes requeridos en el ''job''. De esta manera, todas las peticiones de l@s usuari@s son centralizadas y manejadas automáticamente por el gestor de colas. Este gestor de colas puede a su vez, estar siguiendo unas directrices de prioridades de ejecución determinadas por otros softwares buscando maximizar el rendimiento del clúster.
     7
     8El sistema de colas del clúster del ''Grupo de Meteorología de Santander'' (Diciembre 2010) es el sistema de colas PBS (''Portable Batch System'').
     9
     10== Job ==
     11Un job del clúster tiene unos cuantos requerimientos básicos tales como:
     12 * '''número de cores:''' el número de unidades de cálculo que se requieren para la ejecución del job.
     13 * '''cola de ejecución:''' etiqueta que se le da a un grupo de cores. Determina los cores que tendrán que compartir todos los jobs que se manden en concreto a una cola. Es muy común que un clúster se compartimente en distintas colas a modo de intentar maximizar el rendimiento de un clúster. Estas colas pueden compartir cores entre ellas y estar asignadas a proyectos y/o grupos de usarios distintos.
     14 * '''wall-time:''' determina el tiempo de ejecución del job dentro del clúster. Una vez pasado este tiempo el job y su aplicación seran detenidos forzosamente. Es un muy común que en los clústers se ejectuen antes los jobs con un wall-time pequeño que con uno de grande
     15
     16La pericia de l@s usuari@s en saber escoger adecuadamente los requerimientos de sus jobs, determinará el éxito a la hora de que se ejecuten sus jobs.
     17
     18Las unidades básicas que constituyen un clúster son:
     19 * '''nodos:''' computadoras que contienen una estructura parecida a un ordenador común. Con una o mas cpus que a su vez pueden contener 2, 4, 8, 16 o más cores. Memoria total y espacio de almacenamiento (en uno o varios discos duros).
     20 * '''switch:''' unidad de interconnexión entre nodos
     21 * '''unidad de almacenamiento:''' máquina constituida por un conjunto de discos duros. Suele tener tres espacios básicos:
     22   * {{{HOME}}}: Es un directorio particular de cada usuario al cual se accede al iniciar una sesión/job en el clúster
     23   * datos: datos necesarios para trabajar con las aplicaciones de los usuarios del clúster
     24   * trabajo: espacio en donde se almacenan los resultados de los jobs
     25   * Lo mas común es que todas las unidades de almacenamiento sean visibles des de todos los nodos de un clúster
     26
     27== Partes de un job en una cola PBS ==
     28En esencia los gestores colas son muy parecidos entre sí. Sólo cambia parte de su semántica.
     29
     30En la gestión de colas PBS existen dos términos para referirse a la unidad cálculo: el ''node'' y el ''cpp''. Un ''node'' equivalen a las unidades físicas de cálculo (las cpus) que integran distintas cantidades de cores ''cpp'' (2, 4, 8, 16,...)
     31
     32== Infraestructura del GMS ==
     33
     34La infraestructura del ''Grupo de Meteorología de Santander'' (GMS) es la siguiente (diciembre 2010):
     35
     36 * '''nodos''':
     37   * '''nodos viejos:''' 9 nodos de 1 cpu de 2 cores y 2 GB de memória (nodos [001]-[009])
     38   * '''nodos menos viejos:''' 26 nodos de 2 cpus de 4 cores y 8 GB de memória (nodos [010]-[025])
     39   * '''nodos nuevos:''' 12 nodos de 2 cpus de 8 cores y 16 GB de memória (nodos [031]-[036], [041]-[046])
     40
     41 * Almacenamiento almacenamiento masivo (42 TB) visible desde todos los nodos con:
     42  * {{{/oceano/gmeteo/users/[usario]}}}: ''HOME'' del usuario llamado [usuario]
     43  * {{{/oceano/gmeteo/DATA}}}: almacenamiento de todos los datos (observaciones, GCMs, RCMs, ...)
     44  * {{{/oceano/gmeteo/WORK}}}: directorio de trabajo
     45  * {{{/software}}}: directorio con todas las aplicaciones
     46
     47 * '''colas''' (no accesibles para tod@s):
     48  * {{{grid}}}: nodos [001]-[009]
     49  * {{{estadistica}}}: nodos [010]-[012]
     50  * {{{dinamica}}}: nodos [010]-[025]
     51  * {{{blade}}}: nodos [031]-[036] y [041]-[046]