Changes between Version 59 and Version 60 of ColasPBS


Ignore:
Timestamp:
Dec 16, 2014 11:52:49 AM (7 years ago)
Author:
carlos
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • ColasPBS

    v59 v60  
    8181
    8282=== Comandos ===
    83 Hay distintas instrucciones para gestionar los jobs de un usuario. Si se quiere aundar en el significado y las opciones de estos comandos abrir el manual con la instrucción {{{man [comando]}}}:
    84  * '''qsub [archivo].pbs''' envio del job [archivo].pbs a la cola
     83Hay distintos comandos para gestionar los jobs de un usuario, para mas inforamción sbre ellos abrir el manual con la instrucción {{{man [comando]}}}:
     84 * '''qsub [archivo]''' envio del job [archivo].pbs a la cola
    8585 * '''qdel [jobid]''' terminar forzosamente el job con id [jobid]
    8686 * '''qstat''' permite ver el estado de los jobs gestionados. Tiene también distintos flags (se muestran los mas usuales):
     87  * ''-q'' muestra las colas disponibles y sus principaes caracteristicas.
    8788  * ''-n1'' muestra todos los nodos a los cuales se ha mandado un job (con tantas veces el nombre del nodo, cómo cores cogidos)
    8889  * ''-u [usuario]'' muestra todos los jobs de [usuario]
     
    9899 * '''qalter''' permite alterar algunos de los parámetros de los jobs mientras está en espera
    99100
    100 Un ejemplo de salida de {{{qstat -n1}}}:
    101    {{{
    102 [user@ui ~]$ qstat -n1
    103 encina:
    104                                                                          Req'd  Req'd   Elap
    105 Job ID               Username    Queue    Jobname          SessID NDS   TSK    Memory Time  S Time
    106 -------------------- ----------- -------- ---------------- ------ ----- ------ ------ ----- - -----
    107 476038.encina        gutierjm    estadist STDIN             17506   --     --     6gb   --  R 1664:   wn010/0
    108 539894.encina        solanajr    gtfe     CPSE-Girifalco    22778     1      1    --    --  R 146:0   wn061/0
    109 541194.encina        maru        asna_b3  JID_7757           3032     1     16    --    --  R 10:48   wn031/15+wn031/14+wn031/13+wn031/12+wn031/11+wn031/10+wn031/9+wn031/8+wn031/7+wn031/6+wn031/5+wn031/4+wn031/3+wn031/2+wn031/1+wn031/0
    110 541197.encina        maru        asna_b3  JID_8153          13318     1     16    --    --  R 10:00   wn035/15+wn035/14+wn035/13+wn035/12+wn035/11+wn035/10+wn035/9+wn035/8+wn035/7+wn035/6+wn035/5+wn035/4+wn035/3+wn035/2+wn035/1+wn035/0
    111 541210.encina        maxtuni     amd      JID_284            7537     1      8    --    --  R 14:31   wn037/7+wn037/6+wn037/5+wn037/4+wn037/3+wn037/2+wn037/1+wn037/0
    112 541211.encina        maxtuni     amd      JID_285            7724     1      8    --    --  R 14:30   wn037/15+wn037/14+wn037/13+wn037/12+wn037/11+wn037/10+wn037/9+wn037/8
    113 541217.encina        maxtuni     amd      JID_287            8671     1      8    --    --  R 13:25   wn038/7+wn038/6+wn038/5+wn038/4+wn038/3+wn038/2+wn038/1+wn038/0
    114 541221.encina        maxtuni     amd      JID_288           11002     1      8    --    --  R 12:55   wn038/15+wn038/14+wn038/13+wn038/12+wn038/11+wn038/10+wn038/9+wn038/8
    115 541234.encina        solanajr    gtfe     CPSE-Girifalco    14756     1      1    --    --  R 09:58   wn061/1
    116 541238.encina        maru        asna_b3  JID_7559          22682     1     16    --    --  R 09:17   wn033/15+wn033/14+wn033/13+wn033/12+wn033/11+wn033/10+wn033/9+wn033/8+wn033/7+wn033/6+wn033/5+wn033/4+wn033/3+wn033/2+wn033/1+wn033/0
    117 541239.encina        maru        asna_b3  JID_7823           3491     1     16    --    --  R 09:01   wn043/15+wn043/14+wn043/13+wn043/12+wn043/11+wn043/10+wn043/9+wn043/8+wn043/7+wn043/6+wn043/5+wn043/4+wn043/3+wn043/2+wn043/1+wn043/0
    118 541240.encina        maru        asna_b3  JID_7889          17117     1     16    --    --  R 08:53   wn036/15+wn036/14+wn036/13+wn036/12+wn036/11+wn036/10+wn036/9+wn036/8+wn036/7+wn036/6+wn036/5+wn036/4+wn036/3+wn036/2+wn036/1+wn036/0
    119 541241.encina        maru        asna_b3  JID_8087          21891     1     16    --    --  R 08:32   wn046/15+wn046/14+wn046/13+wn046/12+wn046/11+wn046/10+wn046/9+wn046/8+wn046/7+wn046/6+wn046/5+wn046/4+wn046/3+wn046/2+wn046/1+wn046/0
    120 541242.encina        maru        asna_b3  JID_8351           9854     1     16    --    --  R 08:08   wn034/15+wn034/14+wn034/13+wn034/12+wn034/11+wn034/10+wn034/9+wn034/8+wn034/7+wn034/6+wn034/5+wn034/4+wn034/3+wn034/2+wn034/1+wn034/0
    121 541244.encina        jjunquer    citimac  100.0Bohr_rs10.0  22174     1      1    --    --  R 09:12   citimac05/0
    122 541245.encina        jjunquer    citimac  100.0Bohr_rs10.0  22185     1      1    --    --  R 09:12   citimac05/1
    123  }}}
    124 
    125101=== pbsnodes: Componentes del clúster ===
    126 El comando {{{pbsnodes}}} nos permite examinar todos los componentes que se encuentran en el clúster, sus características y cuál es su estado. Esta información pormenorizada para cada ''nodo'' (''workind node'') tiene la siguiente estructura:
     102El comando {{{pbsnodes}}} nos permite examinar los nodos que se encuentran en el clúster, sus características y cuál es su estado. Esta información pormenorizada para cada ''nodo'' (''workind node'') tiene la siguiente estructura:
    127103   {{{
    128104[nodo]
     
    145121Se muestra una parte de su ejecución para mostrar su contenido (se muestra parcialmente):
    146122  {{{
    147 [user@ui ~]$ pbsnodes
    148 wn002.macc.unican.es
     123[user@ui ~]$ pbsnodes wn002
     124wn002
    149125     state = job-exclusive
    150126     np = 2
    151      properties = ensembles,macc,lcgpro,estadistica
     127     properties = dell,grid
    152128     ntype = cluster
    153      jobs = 0/308594.ce01.macc.unican.es, 1/308606.ce01.macc.unican.es
    154      status = opsys=linux,uname=Linux wn002.macc.unican.es 2.6.32.14-5-16-18-33-36-38-41-60-74-89-103-104 #18 SMP
     129     jobs = 0/308594.encina, 1/encina
     130     status = opsys=linux,uname=Linux wn002 2.6.32.14-5-16-18-33-36-38-41-60-74-89-103-104 #18 SMP
    155131Sat May 29 06:31:42 EDT 2010 x86_64,sessions=10248, 18567, nsessions=2,nusers=1, idletime=26392, totmem=5137992kb,
    156132availmem=4784508kb, physmem=2057808kb, ncpus=2, loadave=1.03, netload=2685739215248,state=free, jobs=308594.ce01.
    157 macc.unican.es  308606.ce01.macc.unican.es, varattr=, rectime=1292346952
    158 }}}
    159 El nodo {{{wn002.macc.unican.es}}} (con 2 cpus y 2GB de memoria, asignado a las colas: 'ensembles', 'macc', 'lcgpro', 'estadistica') está totalmente ocupada con dos trabajos ({{{308594.encina}}} y {{{308606.encina}}}) de un mismo usuario
    160    {{{
    161 wn002.macc.unican.es
    162      state = free
    163      np = 2
    164      properties = ensembles,macc,lcgpro,estadistica
    165      ntype = cluster
    166      status = opsys=linux,uname=Linux wn002.macc.unican.es 2.6.18-194.26.1.el5xen #1 SMP Tue Nov 9 13:35:30 EST
    167 2010 x86_64,sessions=? 0,nsessions=? 0, nusers=0, idletime=111779, totmem=4866040kb, availmem=4694372kb, physme
    168 m=1785856kb, ncpus=2, loadave=0.00, netload=8284314822645, state=free, jobs=, varattr=, rectime=1292346961
    169 }}}
    170 La unidad {{{wn002.macc.unican.es}}} (con 2 unidades de cálculo y 2GB de memoria, asignado a las colas: 'ensembles', 'macc', 'lcgpro', 'estadistica') está libre para admitir trabajos
    171    {{{
    172 wn042.macc.unican.es
    173      state = job-exclusive,busy
    174      np = 16
    175      properties = oper
    176      ntype = cluster
    177      jobs = 0/308629.ce01.macc.unican.es, 1/308629.ce01.macc.unican.es, 2/308629.encina, 3/308629.encina, 4/308629.encina, 5/308629.encina, 6/308629.encina,
    178 7/308629.encina, 8/308630.encina, 9/308630.encina, 10/308630.encina, 11/308630.encina, 12/308630.encina, 13/308630.encina, 14/3086
    179 30.encina, 15/308630.encina
    180      status = opsys=linux, uname=Linux wn042.macc.unican.es 2.6.18-164.15.1.el5 #1 SMP Wed Mar 17 11:30:06 EDT
    181 2010 x86_64, sessions=25810 25872, nsessions=2,nusers=1, idletime=2324174, totmem=19507632kb, availmem=14199848
    182 kb, physmem=16427448kb, ncpus=16, loadave=17.10, netload=640484970867, state=busy, jobs=308629.ce01.macc.unican.
    183 es 308630.ce01.macc.unican.es, varattr=, rectime=1292346966
    184 }}}
    185 La unidad {{{wn042.macc.unican.es}}} (con 16 unidades de cálculo y 16 GB de memoria, asignada a la cola 'oper') está ocupada con 16 trabajos (el job {{{308629.encina}}} está en las cpus de la 0 a 7 y el job {{{308630.encina}}} de la 8 a la 15) de un único usuario.
    186 
    187 == Job ==
     133macc.unican.es  308606.encina, varattr=, rectime=1292346952
     134}}}
     135El nodo {{{wn002}}} (con 2 cpus y 2GB de memoria y está totalmente ocupada con dos trabajos ({{{308594.encina}}} y {{{308606.encina}}}) de un mismo usuario
     136 
     137=== Jobs ===
    188138Un job del clúster tiene unos cuantos requerimientos básicos tales como:
    189139 * '''número de processos:''' el número de cpus que se requieren para la ejecución del job.
     
    191141 * '''wall-time:''' determina el tiempo de ejecución del job dentro del clúster. Una vez pasado este tiempo el job y su aplicación seran detenidos forzosamente. Es un muy común que en los clústers se ejectuen antes los jobs con un wall-time pequeño que con uno de grande.
    192142
    193 La pericia de l@s usuari@s en saber escoger adecuadamente los requerimientos de sus jobs, determinará la rapidez con la que se ejecutaran.
    194 
    195 == Los requerimientos de un job en una cola PBS ==
     143==== Los requerimientos de un job en una cola PBS ====
    196144En esencia los gestores colas son muy parecidos entre sí. Sólo cambia parte de su semántica.
    197145
     
    280228
    281229
    282 == Otras wikis ==
    283 
    284  * Hay una shell script específica para mandar trabajos de matlab wiki:Enviamatlab
    285 
    286 == Ejemplos ==
     230==== Ejemplos ====
    287231
    288232=== Lanzar un job interactivo ===
     
    464408}}}
    465409
     410== Otras wikis ==
     411
     412 * Hay una shell script específica para mandar trabajos de matlab wiki:Enviamatlab
    466413== Monitorización del clúster ==
    467414Por entorno web está instalado el [http://www.meteo.unican.es/ganglia/ ganglia]. En este entorno se muestra toda la actividad de los nodos (consumo de cpu, memoria, disocs duros, etc...) con una interfaz gráfica.