Changes between Version 3 and Version 4 of Monitorizacion
- Timestamp:
- Dec 10, 2009 9:02:14 AM (12 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
Monitorizacion
v3 v4 1 1 = Monitorización = 2 3 2 El sistema de colas tiene básicamente dos modos de monitorizar los trabajos enviados: 3 4 4 * Mediante los ficheros de salida generados por el job. 5 5 * Mediante comandos directamente en la ventana de ssh. … … 12 12 * '''script.20091123T105716.log:''' en este fichero se recoge la salida por pantalla de Matlab y script representa el nombre de archivo .m ejecutado. De nuevo es la fecha la que se muestra tras el nombre del script. 13 13 14 Una vez el trabajo ha finalizado se genera un nuevo fichero '''script.o114037''', donde el número indica el identificador del job ejecutado, en el que se recoge la salida completa del job. Si se ha incorporado una dirección de correo electrónico, también se recibirá un e-mail indicando el final del job con el asunto PBS JOB JobId.ce01.macc.unican.es. 15 En alguna versión del enviamatlab también se genera un fichero de error llamado '''script.e114037''' de forma equivalente a la estructura del fichero de salida. 14 Una vez el trabajo ha finalizado se genera un nuevo fichero '''script.o114037''', donde el número indica el identificador del job ejecutado, en el que se recoge la salida completa del job. Si se ha incorporado una dirección de correo electrónico, también se recibirá un e-mail indicando el final del job con el asunto PBS JOB !JobId.ce01.macc.unican.es. En alguna versión del enviamatlab también se genera un fichero de error llamado '''script.e114037''' de forma equivalente a la estructura del fichero de salida. 16 15 17 16 ---- 18 19 17 Desde oceano podemos utilizar distintos comandos u órdenes para consultar el estado de un trabajo, de la cola, etc. Aunque normalmente habría que conectarse a la máquina ce01 anteponiendo el comando ssh ce01 a la orden que queramos ejecutar (qstat, qdel, etc.), este comando puede omitirse ya que la propia máquina ''autocompleta'' la orden. Introduzcamos los más útiles: 20 18 … … 24 22 [rodri@oceano ejemplo]$ qstat -n1 25 23 24 26 25 ce01.macc.unican.es: 26 27 27 Req'd Req'd Elap 28 28 29 Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time 30 29 31 -------------------- -------- -------- ---------- ------ ----- --- ------ ----- - ----- 32 30 33 120765.ce01.macc.uni lluis hmem Pswh0000__ 22862 1 -- -- -- R 06:06 34 31 35 wn023+wn023+wn023+wn023+wn023+wn023+wn023+wn023 36 32 37 120770.ce01.macc.uni lluis hmem Pswh0000__ 2766 1 -- -- -- R 06:06 38 33 39 wn018+wn018+wn018+wn018+wn018+wn018+wn018+wn018 40 34 41 120772.ce01.macc.uni lluis hmem Pswh0000__ 6314 1 -- -- -- R 06:06 42 35 43 wn015+wn015+wn015+wn015+wn015+wn015+wn015+wn015 44 36 45 120773.ce01.macc.uni lluis hmem Pswh0000__ 14094 1 -- -- -- R 06:06 46 37 47 wn014+wn014+wn014+wn014+wn014+wn014+wn014+wn014 48 38 49 120776.ce01.macc.uni lluis hmem Pswh0000__ 27048 1 -- -- -- R 06:06 50 39 51 wn011+wn011+wn011+wn011+wn011+wn011+wn011+wn011 52 40 53 120777.ce01.macc.uni lluis hmem Pswh0000__ 13571 1 -- -- -- R 04:27 54 41 55 wn010+wn010+wn010+wn010+wn010+wn010+wn010+wn010 56 42 57 120778.ce01.macc.uni lluis hmem Pswh0000__ 8356 1 -- -- -- R 02:38 58 43 59 wn024+wn024+wn024+wn024+wn024+wn024+wn024+wn024 60 44 61 120779.ce01.macc.uni lluis hmem Pswh0000__ 21718 1 -- -- -- R 02:38 62 45 63 wn017+wn017+wn017+wn017+wn017+wn017+wn017+wn017 64 46 65 120780.ce01.macc.uni lluis hmem Pswh0000__ 6192 1 -- -- -- R 02:38 66 47 67 wn020+wn020+wn020+wn020+wn020+wn020+wn020+wn020 68 48 69 120781.ce01.macc.uni lluis hmem Pswh0000__ 17134 1 -- -- -- R 02:37 70 49 71 wn025+wn025+wn025+wn025+wn025+wn025+wn025+wn025 72 50 73 120782.ce01.macc.uni lluis hmem Pswh0000__ 20934 1 -- -- -- R 02:37 74 51 75 wn021+wn021+wn021+wn021+wn021+wn021+wn021+wn021 76 52 77 120783.ce01.macc.uni lluis hmem Pswh0000__ 15540 1 -- -- -- R 02:37 78 53 79 wn013+wn013+wn013+wn013+wn013+wn013+wn013+wn013 54 80 }}} 55 56 81 Al igual que para otras órdenes de unix, el comando grep limita la búsque a aquellos elementos que contengan la expresión que se pasa a continuación. Por ejemplo, si sólo queremos que se muestren los trabajos de un usuario concreto utilizaremos qstat -n | grep nombreUsuario. De este modo el comando seleccionará sólo las líneas en las cuales aparece el nombreUsuario. 57 82 58 83 {{{ 59 84 [rodri@oceano ejemplo]$ qstat -n | grep rodri 85 60 86 121138.ce01.macc.uni rodri macc val_1 28628 1 -- -- 48:00 R 05:30 87 61 88 121139.ce01.macc.uni rodri macc val_2 31232 1 -- -- 48:00 R 03:37 89 62 90 121176.ce01.macc.uni rodri macc test 29987 1 -- -- 48:00 R 00:05 91 63 92 121177.ce01.macc.uni rodri macc val_3 30127 1 -- -- 48:00 C 00:01 64 93 }}} 65 66 94 Algunos de los parámetros mas representativos: 67 95 … … 85 113 * En el caso de utilizar el flag '''-n1''' también nos aparecen los nodos utilizados por el job. 86 114 87 '''checkjob:''' Muestra por pantalla la información del trabajo que le especifiquemos mediante el JobId. Se ejecuta del siguiente modo:ssh ce01 checkjobJobId115 '''checkjob:''' Muestra por pantalla la información del trabajo que le especifiquemos mediante el !JobId. Se ejecuta del siguiente !modo:ssh ce01 checkjob !JobId 88 116 89 117 {{{ 90 118 [rodri@oceano ejemplo]$ ssh ce01 checkjob 121176 119 91 120 Scientific Linux CERN SLC release 4.6 (Beryllium) 92 121 93 122 123 94 124 checking job 121176 95 125 126 96 127 State: Running 128 97 129 Creds: user:rodri group:gmeteo class:macc qos:DEFAULT 130 98 131 WallTime: 00:07:29 of 2:00:00:00 132 99 133 SubmitTime: Wed Dec 9 18:18:11 134 100 135 (Time Queued Total: 00:00:02 Eligible: 00:00:02) 101 136 137 102 138 StartTime: Wed Dec 9 18:18:13 139 103 140 Total Tasks: 1 104 141 142 105 143 Req[0] TaskCount: 1 Partition: DEFAULT 144 106 145 Network: [NONE] Memory >= 0 Disk >= 0 Swap >= 0 146 107 147 Opsys: [NONE] Arch: [NONE] Features: [macc] 148 108 149 Allocated Nodes: 150 109 151 [wn007.macc.unican.es:1] 110 152 111 153 154 112 155 IWD: [NONE] Executable: [NONE] 156 113 157 Bypass: 0 StartCount: 1 158 114 159 PartitionMask: [ALL] 160 115 161 Flags: BACKFILL 116 162 163 117 164 Reservation '121176' (-00:07:48 -> 1:23:52:12 Duration: 2:00:00:00) 165 118 166 PE: 1.00 StartPriority: 1 119 167 }}} 120 121 '''tracejob: '''Da información sobre los tiempos de trabajo del trabajo especificado por el JobId. Estos tiempos pueden consultarse tanto antes como después de la finalización del trabajo. La llamada a esta función es: 122 123 ssh ce01 tracejob JobId 168 '''tracejob: '''Da información sobre los tiempos de trabajo del trabajo especificado por el !JobId. Estos tiempos pueden consultarse tanto antes como después de la finalización del trabajo. La llamada a esta función es: 169 170 ssh ce01 tracejob !JobId 124 171 125 172 {{{ 126 173 [rodri@oceano ejemplo]$ ssh ce01 tracejob 121176 174 127 175 Scientific Linux CERN SLC release 4.6 (Beryllium) 176 128 177 /var/spool/pbs/server_priv/accounting/20091209: Permission denied 178 129 179 /var/spool/pbs/mom_logs/20091209: No such file or directory 180 130 181 /var/spool/pbs/sched_logs/20091209: No such file or directory 131 182 183 132 184 Job: 121176.ce01.macc.unican.es 133 185 186 134 187 12/09/2009 18:18:11 S enqueuing into macc, state 1 hop 1 188 135 189 12/09/2009 18:18:11 S Job Queued at request of rodri@oceano.macc.unican.es, owner = rodri@oceano.macc.unican.es, job name = test, queue = macc 190 136 191 12/09/2009 18:18:13 S Job Modified at request of root@ce01.macc.unican.es 192 137 193 12/09/2009 18:18:13 S Job Run at request of root@ce01.macc.unican.es 194 138 195 12/09/2009 18:18:13 S Job Modified at request of root@ce01.macc.unican.es 139 196 }}} 140 141 197 '''qdel: '''Elimina un trabajo de la cola antes de que finalice. Para ello escribimos: 142 198 143 ssh ce01 qdel JobId199 ssh ce01 qdel !JobId 144 200 145 201 {{{ 146 202 [rodri@oceano ejemplo]$ qdel 121176 147 203 }}} 148 149 204 '''qsig: '''Este comando lo usaremos cuando se nos quede colgado un trabajo y no responda al comando qdel. Su sintaxis es la siguiente: 150 205 151 ssh ce01 qsig -s TERM JobId206 ssh ce01 qsig -s TERM !JobId 152 207 153 208 {{{ 154 209 [rodri@oceano ejemplo]$ ssh ce01 qsig -s TERM 121176 155 210 }}} 156 157 211 '''Otros comandos:''' 158 212