Changes between Version 58 and Version 59 of ColasPBS


Ignore:
Timestamp:
Dec 16, 2014 11:43:06 AM (7 years ago)
Author:
carlos
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • ColasPBS

    v58 v59  
    7676}}}
    7777
    78 == pbsnodes: Componentes del clúster ==
     78== Sistema de colas TORQUE/PBS ==
     79
     80El cluster SMG dispone de un sistema de colas [http://www.adaptivecomputing.com/products/open-source/torque/  TORQUE/PBS] para la gestión de jobs.
     81
     82=== Comandos ===
     83Hay distintas instrucciones para gestionar los jobs de un usuario. Si se quiere aundar en el significado y las opciones de estos comandos abrir el manual con la instrucción {{{man [comando]}}}:
     84 * '''qsub [archivo].pbs''' envio del job [archivo].pbs a la cola
     85 * '''qdel [jobid]''' terminar forzosamente el job con id [jobid]
     86 * '''qstat''' permite ver el estado de los jobs gestionados. Tiene también distintos flags (se muestran los mas usuales):
     87  * ''-n1'' muestra todos los nodos a los cuales se ha mandado un job (con tantas veces el nombre del nodo, cómo cores cogidos)
     88  * ''-u [usuario]'' muestra todos los jobs de [usuario]
     89  Por lo general mestra en lista los trabajos que concidan con los criterios escogidos con la siguiente estructura:
     90   {{{
     91[jobid] [usuario] [queue] [jobname] [SessID] [NDS] [TSK] [Req' Memory] [Req' time] [S] [Time]
     92}}}
     93  * Los estados [S] que puede tener un job en la cola son:
     94   * E el trabajo está saliendo después de finalizar su ejecución.
     95   * H el trabajo está capturado (''Hold'', ej. esperando que termine otro)
     96   * Q el trabajo está en cola, elegible para su ejecución.
     97   * R el trabajo está ejecutándose.
     98 * '''qalter''' permite alterar algunos de los parámetros de los jobs mientras está en espera
     99
     100Un ejemplo de salida de {{{qstat -n1}}}:
     101   {{{
     102[user@ui ~]$ qstat -n1
     103encina:
     104                                                                         Req'd  Req'd   Elap
     105Job ID               Username    Queue    Jobname          SessID NDS   TSK    Memory Time  S Time
     106-------------------- ----------- -------- ---------------- ------ ----- ------ ------ ----- - -----
     107476038.encina        gutierjm    estadist STDIN             17506   --     --     6gb   --  R 1664:   wn010/0
     108539894.encina        solanajr    gtfe     CPSE-Girifalco    22778     1      1    --    --  R 146:0   wn061/0
     109541194.encina        maru        asna_b3  JID_7757           3032     1     16    --    --  R 10:48   wn031/15+wn031/14+wn031/13+wn031/12+wn031/11+wn031/10+wn031/9+wn031/8+wn031/7+wn031/6+wn031/5+wn031/4+wn031/3+wn031/2+wn031/1+wn031/0
     110541197.encina        maru        asna_b3  JID_8153          13318     1     16    --    --  R 10:00   wn035/15+wn035/14+wn035/13+wn035/12+wn035/11+wn035/10+wn035/9+wn035/8+wn035/7+wn035/6+wn035/5+wn035/4+wn035/3+wn035/2+wn035/1+wn035/0
     111541210.encina        maxtuni     amd      JID_284            7537     1      8    --    --  R 14:31   wn037/7+wn037/6+wn037/5+wn037/4+wn037/3+wn037/2+wn037/1+wn037/0
     112541211.encina        maxtuni     amd      JID_285            7724     1      8    --    --  R 14:30   wn037/15+wn037/14+wn037/13+wn037/12+wn037/11+wn037/10+wn037/9+wn037/8
     113541217.encina        maxtuni     amd      JID_287            8671     1      8    --    --  R 13:25   wn038/7+wn038/6+wn038/5+wn038/4+wn038/3+wn038/2+wn038/1+wn038/0
     114541221.encina        maxtuni     amd      JID_288           11002     1      8    --    --  R 12:55   wn038/15+wn038/14+wn038/13+wn038/12+wn038/11+wn038/10+wn038/9+wn038/8
     115541234.encina        solanajr    gtfe     CPSE-Girifalco    14756     1      1    --    --  R 09:58   wn061/1
     116541238.encina        maru        asna_b3  JID_7559          22682     1     16    --    --  R 09:17   wn033/15+wn033/14+wn033/13+wn033/12+wn033/11+wn033/10+wn033/9+wn033/8+wn033/7+wn033/6+wn033/5+wn033/4+wn033/3+wn033/2+wn033/1+wn033/0
     117541239.encina        maru        asna_b3  JID_7823           3491     1     16    --    --  R 09:01   wn043/15+wn043/14+wn043/13+wn043/12+wn043/11+wn043/10+wn043/9+wn043/8+wn043/7+wn043/6+wn043/5+wn043/4+wn043/3+wn043/2+wn043/1+wn043/0
     118541240.encina        maru        asna_b3  JID_7889          17117     1     16    --    --  R 08:53   wn036/15+wn036/14+wn036/13+wn036/12+wn036/11+wn036/10+wn036/9+wn036/8+wn036/7+wn036/6+wn036/5+wn036/4+wn036/3+wn036/2+wn036/1+wn036/0
     119541241.encina        maru        asna_b3  JID_8087          21891     1     16    --    --  R 08:32   wn046/15+wn046/14+wn046/13+wn046/12+wn046/11+wn046/10+wn046/9+wn046/8+wn046/7+wn046/6+wn046/5+wn046/4+wn046/3+wn046/2+wn046/1+wn046/0
     120541242.encina        maru        asna_b3  JID_8351           9854     1     16    --    --  R 08:08   wn034/15+wn034/14+wn034/13+wn034/12+wn034/11+wn034/10+wn034/9+wn034/8+wn034/7+wn034/6+wn034/5+wn034/4+wn034/3+wn034/2+wn034/1+wn034/0
     121541244.encina        jjunquer    citimac  100.0Bohr_rs10.0  22174     1      1    --    --  R 09:12   citimac05/0
     122541245.encina        jjunquer    citimac  100.0Bohr_rs10.0  22185     1      1    --    --  R 09:12   citimac05/1
     123 }}}
     124
     125=== pbsnodes: Componentes del clúster ===
    79126El comando {{{pbsnodes}}} nos permite examinar todos los componentes que se encuentran en el clúster, sus características y cuál es su estado. Esta información pormenorizada para cada ''nodo'' (''workind node'') tiene la siguiente estructura:
    80127   {{{
     
    232279 * '''Req'd Time''': tiempo de reloj (wallclock) solicitado.
    233280
    234 == Comandos cola PBS ==
    235 Hay distintas instrucciones para gestionar los jobs de un usuario. Si se quiere aundar en el significado y las opciones de estos comandos abrir el manual con la instrucción {{{man [comando]}}}:
    236  * '''qsub [archivo].pbs''' envio del job [archivo].pbs a la cola
    237  * '''qdel [jobid]''' terminar forzosamente el job con id [jobid]
    238  * '''qstat''' permite ver el estado de los jobs gestionados. Tiene también distintos flags (se muestran los mas usuales):
    239   * ''-n1'' muestra todos los nodos a los cuales se ha mandado un job (con tantas veces el nombre del nodo, cómo cores cogidos)
    240   * ''-u [usuario]'' muestra todos los jobs de [usuario]
    241   Por lo general mestra en lista los trabajos que concidan con los criterios escogidos con la siguiente estructura:
    242    {{{
    243 [jobid] [usuario] [queue] [jobname] [SessID] [NDS] [TSK] [Req' Memory] [Req' time] [S] [Time]
    244 }}}
    245   * Los estados [S] que puede tener un job en la cola son:
    246    * E el trabajo está saliendo después de finalizar su ejecución.
    247    * H el trabajo está capturado (''Hold'', ej. esperando que termine otro)
    248    * Q el trabajo está en cola, elegible para su ejecución.
    249    * R el trabajo está ejecutándose.
    250  * '''qalter''' permite alterar algunos de los parámetros de los jobs mientras está en espera
    251 
    252 Un ejemplo de salida de {{{qstat -n1}}}:
    253    {{{
    254 [user@ui ~]$ qstat -n1
    255 encina:
    256                                                                          Req'd  Req'd   Elap
    257 Job ID               Username    Queue    Jobname          SessID NDS   TSK    Memory Time  S Time
    258 -------------------- ----------- -------- ---------------- ------ ----- ------ ------ ----- - -----
    259 476038.encina        gutierjm    estadist STDIN             17506   --     --     6gb   --  R 1664:   wn010/0
    260 539894.encina        solanajr    gtfe     CPSE-Girifalco    22778     1      1    --    --  R 146:0   wn061/0
    261 541194.encina        maru        asna_b3  JID_7757           3032     1     16    --    --  R 10:48   wn031/15+wn031/14+wn031/13+wn031/12+wn031/11+wn031/10+wn031/9+wn031/8+wn031/7+wn031/6+wn031/5+wn031/4+wn031/3+wn031/2+wn031/1+wn031/0
    262 541197.encina        maru        asna_b3  JID_8153          13318     1     16    --    --  R 10:00   wn035/15+wn035/14+wn035/13+wn035/12+wn035/11+wn035/10+wn035/9+wn035/8+wn035/7+wn035/6+wn035/5+wn035/4+wn035/3+wn035/2+wn035/1+wn035/0
    263 541210.encina        maxtuni     amd      JID_284            7537     1      8    --    --  R 14:31   wn037/7+wn037/6+wn037/5+wn037/4+wn037/3+wn037/2+wn037/1+wn037/0
    264 541211.encina        maxtuni     amd      JID_285            7724     1      8    --    --  R 14:30   wn037/15+wn037/14+wn037/13+wn037/12+wn037/11+wn037/10+wn037/9+wn037/8
    265 541217.encina        maxtuni     amd      JID_287            8671     1      8    --    --  R 13:25   wn038/7+wn038/6+wn038/5+wn038/4+wn038/3+wn038/2+wn038/1+wn038/0
    266 541221.encina        maxtuni     amd      JID_288           11002     1      8    --    --  R 12:55   wn038/15+wn038/14+wn038/13+wn038/12+wn038/11+wn038/10+wn038/9+wn038/8
    267 541234.encina        solanajr    gtfe     CPSE-Girifalco    14756     1      1    --    --  R 09:58   wn061/1
    268 541238.encina        maru        asna_b3  JID_7559          22682     1     16    --    --  R 09:17   wn033/15+wn033/14+wn033/13+wn033/12+wn033/11+wn033/10+wn033/9+wn033/8+wn033/7+wn033/6+wn033/5+wn033/4+wn033/3+wn033/2+wn033/1+wn033/0
    269 541239.encina        maru        asna_b3  JID_7823           3491     1     16    --    --  R 09:01   wn043/15+wn043/14+wn043/13+wn043/12+wn043/11+wn043/10+wn043/9+wn043/8+wn043/7+wn043/6+wn043/5+wn043/4+wn043/3+wn043/2+wn043/1+wn043/0
    270 541240.encina        maru        asna_b3  JID_7889          17117     1     16    --    --  R 08:53   wn036/15+wn036/14+wn036/13+wn036/12+wn036/11+wn036/10+wn036/9+wn036/8+wn036/7+wn036/6+wn036/5+wn036/4+wn036/3+wn036/2+wn036/1+wn036/0
    271 541241.encina        maru        asna_b3  JID_8087          21891     1     16    --    --  R 08:32   wn046/15+wn046/14+wn046/13+wn046/12+wn046/11+wn046/10+wn046/9+wn046/8+wn046/7+wn046/6+wn046/5+wn046/4+wn046/3+wn046/2+wn046/1+wn046/0
    272 541242.encina        maru        asna_b3  JID_8351           9854     1     16    --    --  R 08:08   wn034/15+wn034/14+wn034/13+wn034/12+wn034/11+wn034/10+wn034/9+wn034/8+wn034/7+wn034/6+wn034/5+wn034/4+wn034/3+wn034/2+wn034/1+wn034/0
    273 541244.encina        jjunquer    citimac  100.0Bohr_rs10.0  22174     1      1    --    --  R 09:12   citimac05/0
    274 541245.encina        jjunquer    citimac  100.0Bohr_rs10.0  22185     1      1    --    --  R 09:12   citimac05/1
    275  }}}
    276281
    277282== Otras wikis ==