Changes between Version 3 and Version 4 of Monitorizacion


Ignore:
Timestamp:
Dec 10, 2009 9:02:14 AM (12 years ago)
Author:
sixto
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Monitorizacion

    v3 v4  
    11= Monitorización =
    2 
    32El sistema de colas tiene básicamente dos modos de monitorizar los trabajos enviados:
     3
    44 * Mediante los ficheros de salida generados por el job.
    55 * Mediante comandos directamente en la ventana de ssh.
     
    1212 * '''script.20091123T105716.log:''' en este fichero se recoge la salida por pantalla de Matlab y script representa el nombre de archivo .m ejecutado. De nuevo es la fecha la que se muestra tras el nombre del script.
    1313
    14 Una vez el trabajo ha finalizado se genera un nuevo fichero '''script.o114037''', donde el número indica el identificador del job ejecutado, en el que se recoge la salida completa del job. Si se ha incorporado una dirección de correo electrónico, también se recibirá un e-mail indicando el final del job con el asunto PBS JOB JobId.ce01.macc.unican.es.
    15 En alguna versión del enviamatlab también se genera un fichero de error llamado '''script.e114037''' de forma equivalente a la estructura del fichero de salida.
     14Una vez el trabajo ha finalizado se genera un nuevo fichero '''script.o114037''', donde el número indica el identificador del job ejecutado, en el que se recoge la salida completa del job. Si se ha incorporado una dirección de correo electrónico, también se recibirá un e-mail indicando el final del job con el asunto PBS JOB !JobId.ce01.macc.unican.es.  En alguna versión del enviamatlab también se genera un fichero de error llamado '''script.e114037''' de forma equivalente a la estructura del fichero de salida.
    1615
    1716----
    18 
    1917Desde oceano podemos utilizar distintos comandos u órdenes para consultar el estado de un trabajo, de la cola, etc. Aunque normalmente habría que conectarse a la máquina ce01 anteponiendo el comando ssh ce01 a la orden que queramos ejecutar (qstat, qdel, etc.), este comando puede omitirse ya que la propia máquina ''autocompleta'' la orden. Introduzcamos los más útiles:
    2018
     
    2422[rodri@oceano ejemplo]$  qstat -n1
    2523
     24
    2625ce01.macc.unican.es:
     26
    2727                                                                   Req'd  Req'd   Elap
     28
    2829Job ID               Username Queue    Jobname    SessID NDS   TSK Memory Time  S Time
     30
    2931-------------------- -------- -------- ---------- ------ ----- --- ------ ----- - -----
     32
    3033120765.ce01.macc.uni lluis    hmem     Pswh0000__  22862     1  --    --    --  R 06:06
     34
    3135   wn023+wn023+wn023+wn023+wn023+wn023+wn023+wn023
     36
    3237120770.ce01.macc.uni lluis    hmem     Pswh0000__   2766     1  --    --    --  R 06:06
     38
    3339   wn018+wn018+wn018+wn018+wn018+wn018+wn018+wn018
     40
    3441120772.ce01.macc.uni lluis    hmem     Pswh0000__   6314     1  --    --    --  R 06:06
     42
    3543   wn015+wn015+wn015+wn015+wn015+wn015+wn015+wn015
     44
    3645120773.ce01.macc.uni lluis    hmem     Pswh0000__  14094     1  --    --    --  R 06:06
     46
    3747   wn014+wn014+wn014+wn014+wn014+wn014+wn014+wn014
     48
    3849120776.ce01.macc.uni lluis    hmem     Pswh0000__  27048     1  --    --    --  R 06:06
     50
    3951   wn011+wn011+wn011+wn011+wn011+wn011+wn011+wn011
     52
    4053120777.ce01.macc.uni lluis    hmem     Pswh0000__  13571     1  --    --    --  R 04:27
     54
    4155   wn010+wn010+wn010+wn010+wn010+wn010+wn010+wn010
     56
    4257120778.ce01.macc.uni lluis    hmem     Pswh0000__   8356     1  --    --    --  R 02:38
     58
    4359   wn024+wn024+wn024+wn024+wn024+wn024+wn024+wn024
     60
    4461120779.ce01.macc.uni lluis    hmem     Pswh0000__  21718     1  --    --    --  R 02:38
     62
    4563   wn017+wn017+wn017+wn017+wn017+wn017+wn017+wn017
     64
    4665120780.ce01.macc.uni lluis    hmem     Pswh0000__   6192     1  --    --    --  R 02:38
     66
    4767   wn020+wn020+wn020+wn020+wn020+wn020+wn020+wn020
     68
    4869120781.ce01.macc.uni lluis    hmem     Pswh0000__  17134     1  --    --    --  R 02:37
     70
    4971   wn025+wn025+wn025+wn025+wn025+wn025+wn025+wn025
     72
    5073120782.ce01.macc.uni lluis    hmem     Pswh0000__  20934     1  --    --    --  R 02:37
     74
    5175   wn021+wn021+wn021+wn021+wn021+wn021+wn021+wn021
     76
    5277120783.ce01.macc.uni lluis    hmem     Pswh0000__  15540     1  --    --    --  R 02:37
     78
    5379   wn013+wn013+wn013+wn013+wn013+wn013+wn013+wn013
    5480}}}
    55 
    5681Al igual que para otras órdenes de unix, el comando grep limita la búsque a aquellos elementos que contengan la expresión que se pasa a continuación. Por ejemplo, si sólo queremos que se muestren los trabajos de un usuario concreto utilizaremos qstat -n | grep nombreUsuario. De este modo el comando seleccionará sólo las líneas en las cuales aparece el nombreUsuario.
    5782
    5883{{{
    5984[rodri@oceano ejemplo]$  qstat -n | grep rodri
     85
    6086121138.ce01.macc.uni rodri    macc     val_1    28628     1  --    --  48:00 R 05:30
     87
    6188121139.ce01.macc.uni rodri    macc     val_2    31232     1  --    --  48:00 R 03:37
     89
    6290121176.ce01.macc.uni rodri    macc     test     29987     1  --    --  48:00 R 00:05
     91
    6392121177.ce01.macc.uni rodri    macc     val_3    30127     1  --    --  48:00 C 00:01
    6493}}}
    65 
    6694Algunos de los parámetros mas representativos:
    6795
     
    85113 * En el caso de utilizar el flag '''-n1''' también nos aparecen los nodos utilizados por el job.
    86114
    87 '''checkjob:''' Muestra por pantalla la información del trabajo que le especifiquemos mediante el JobId. Se ejecuta del siguiente modo:ssh ce01 checkjob JobId
     115'''checkjob:''' Muestra por pantalla la información del trabajo que le especifiquemos mediante el !JobId. Se ejecuta del siguiente !modo:ssh ce01 checkjob !JobId
    88116
    89117{{{
    90118[rodri@oceano ejemplo]$ ssh ce01 checkjob 121176
     119
    91120Scientific Linux CERN SLC release 4.6 (Beryllium)
    92121
    93122
     123
    94124checking job 121176
    95125
     126
    96127State: Running
     128
    97129Creds:  user:rodri  group:gmeteo  class:macc  qos:DEFAULT
     130
    98131WallTime: 00:07:29 of 2:00:00:00
     132
    99133SubmitTime: Wed Dec  9 18:18:11
     134
    100135  (Time Queued  Total: 00:00:02  Eligible: 00:00:02)
    101136
     137
    102138StartTime: Wed Dec  9 18:18:13
     139
    103140Total Tasks: 1
    104141
     142
    105143Req[0]  TaskCount: 1  Partition: DEFAULT
     144
    106145Network: [NONE]  Memory >= 0  Disk >= 0  Swap >= 0
     146
    107147Opsys: [NONE]  Arch: [NONE]  Features: [macc]
     148
    108149Allocated Nodes:
     150
    109151[wn007.macc.unican.es:1]
    110152
    111153
     154
    112155IWD: [NONE]  Executable:  [NONE]
     156
    113157Bypass: 0  StartCount: 1
     158
    114159PartitionMask: [ALL]
     160
    115161Flags:       BACKFILL
    116162
     163
    117164Reservation '121176' (-00:07:48 -> 1:23:52:12  Duration: 2:00:00:00)
     165
    118166PE:  1.00  StartPriority:  1
    119167}}}
    120 
    121 '''tracejob: '''Da información sobre los tiempos de trabajo del trabajo especificado por el JobId. Estos tiempos pueden consultarse tanto antes como después de la finalización del trabajo. La llamada a esta función es:
    122 
    123 ssh ce01 tracejob JobId
     168'''tracejob: '''Da información sobre los tiempos de trabajo del trabajo especificado por el !JobId. Estos tiempos pueden consultarse tanto antes como después de la finalización del trabajo. La llamada a esta función es:
     169
     170ssh ce01 tracejob !JobId
    124171
    125172{{{
    126173[rodri@oceano ejemplo]$ ssh ce01 tracejob 121176
     174
    127175Scientific Linux CERN SLC release 4.6 (Beryllium)
     176
    128177/var/spool/pbs/server_priv/accounting/20091209: Permission denied
     178
    129179/var/spool/pbs/mom_logs/20091209: No such file or directory
     180
    130181/var/spool/pbs/sched_logs/20091209: No such file or directory
    131182
     183
    132184Job: 121176.ce01.macc.unican.es
    133185
     186
    13418712/09/2009 18:18:11  S    enqueuing into macc, state 1 hop 1
     188
    13518912/09/2009 18:18:11  S    Job Queued at request of rodri@oceano.macc.unican.es, owner = rodri@oceano.macc.unican.es, job name = test, queue = macc
     190
    13619112/09/2009 18:18:13  S    Job Modified at request of root@ce01.macc.unican.es
     192
    13719312/09/2009 18:18:13  S    Job Run at request of root@ce01.macc.unican.es
     194
    13819512/09/2009 18:18:13  S    Job Modified at request of root@ce01.macc.unican.es
    139196}}}
    140 
    141197'''qdel: '''Elimina un trabajo de la cola antes de que finalice. Para ello escribimos:
    142198
    143 ssh ce01 qdel JobId
     199ssh ce01 qdel !JobId
    144200
    145201{{{
    146202[rodri@oceano ejemplo]$ qdel  121176
    147203}}}
    148 
    149204'''qsig: '''Este comando lo usaremos cuando se nos quede colgado un trabajo y no responda al comando qdel. Su sintaxis es la siguiente:
    150205
    151 ssh ce01 qsig -s TERM JobId
     206ssh ce01 qsig -s TERM !JobId
    152207
    153208{{{
    154209[rodri@oceano ejemplo]$ ssh ce01 qsig -s TERM 121176
    155210}}}
    156 
    157211'''Otros comandos:'''
    158212