Changes between Version 1 and Version 2 of Monitorizacion


Ignore:
Timestamp:
Dec 9, 2009 9:57:33 PM (13 years ago)
Author:
sixto
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Monitorizacion

    v1 v2  
    11= Monitorización =
    2 Una vez hemos enviado un trabajo al cluster, podemos consultar el estado del mismo mediante:
    32
    4  * dos ficheros de resultados que se crean en el directorio donde estaba el script ejecutado y en los que se reflejan la salida por pantalla de Matlab y los mensajes de error. Estos ficheros se nombran del siguiente modo:
     3El sistema de colas tiene básicamente dos modos de monitorizar los trabajos enviados:
     4 * Mediante los ficheros de salida generados por el job.
     5 * Mediante comandos directamente en la ventana de ssh.
    56
    6   Salida: nombre del script+o+[wiki:JobId]
     7En esta parte definiremos los ficheros de salida y los principales comandos utilizados junto con la salida por pantalla que generan dichos comandos.
    78
    8   Errores: nombre del script+e+[wiki:JobId]
     9Al ejecutar enviamatlab (cualquiera de las versiones) se generan de forma automática dos ficheros en el path que contiene el script ejecutado (p.e: script.m) cuya nomenclatura viene dada por:
    910
    10  * un e-mail que recibirán los usuarios al finalizar su trabajo, con asunto: PBS JOB JobId.ce01.macc.unican.es.
     11 * '''matlabqsub.20091123T105716:''' este fichero lo genera el enviamatlab y será el que arranque matlab y ejecute el srcipt.m. El final del nombre es la fecha de ejecución.
     12 * '''script.20091123T105716.log:''' en este fichero se recoge la salida por pantalla de Matlab y script representa el nombre de archivo .m ejecutado. De nuevo es la fecha la que se muestra tras el nombre del script.
     13
     14Una vez el trabajo ha finalizado se genera un nuevo fichero '''script.o114037''', donde el número indica el identificador del job ejecutado, en el que se recoge la salida completa del job. Si se ha incorporado una dirección de correo electrónico, también se recibirá un e-mail indicando el final del job con el asunto PBS JOB JobId.ce01.macc.unican.es.
     15En alguna versión del enviamatlab también se genera un fichero de error llamado '''script.e114037''' de forma equivalente a la estructura del fichero de salida.
    1116
    1217----
    13 Desde oceano podemos utilizar distintos comandos u órdenes para consultar el estado de un trabajo, de la cola, etc. Introduzcamos los más útiles: '
    1418
    15 '''qstat: '''Nos muestra por pantalla una tabla en la podemos observar el estado de la cola de trabajos. En caso de que no devuelva nada se entiende que no existe ningún trabajo activo ni en espera. La sintaxis es la siguiente: qstat -n.
     19Desde oceano podemos utilizar distintos comandos u órdenes para consultar el estado de un trabajo, de la cola, etc. Aunque normalmente habría que conectarse a la máquina ce01 anteponiendo el comando ssh ce01 a la orden que queramos ejecutar (qstat, qdel, etc.), este comando puede omitirse ya que la propia máquina ''autocompleta'' la orden. Introduzcamos los más útiles:
     20
     21'''qstat: '''Nos muestra por pantalla una tabla en la podemos observar el estado de la cola de trabajos. En caso de que no devuelva nada se entiende que no existe ningún trabajo activo ni en espera. La sintaxis es la siguiente: qstat. Si queremos que devuelva una información más detallada podemos incluir ''flags'' como '''-n''' o '''-n1'''.
    1622
    1723{{{
    18 [rodri@oceano ejemplo]$  qstat -n
     24[rodri@oceano ejemplo]$  qstat -n1
    1925
    2026ce01.macc.unican.es:
     
    4753   wn013+wn013+wn013+wn013+wn013+wn013+wn013+wn013
    4854}}}
    49 Si queremos que nos liste solamente los trabajos propios podemos escribir: qstat -n | grep rodri.
     55
     56Al igual que para otras órdenes de unix, el comando grep limita la búsque a aquellos elementos que contengan la expresión que se pasa a continuación. Por ejemplo, si sólo queremos que se muestren los trabajos de un usuario concreto utilizaremos qstat -n | grep nombreUsuario. De este modo el comando seleccionará sólo las líneas en las cuales aparece el nombreUsuario.
    5057
    5158{{{
     
    5663121177.ce01.macc.uni rodri    macc     val_3    30127     1  --    --  48:00 C 00:01
    5764}}}
     65
    5866Algunos de los parámetros mas representativos:
    5967
     
    7583   * S el trabajo está suspendido.
    7684 * '''Elap Time''': tiempo de CPU utilizado.
     85 * En el caso de utilizar el flag '''-n1''' también nos aparecen los nodos utilizados por el job.
    7786
    7887'''checkjob:''' Muestra por pantalla la información del trabajo que le especifiquemos mediante el JobId. Se ejecuta del siguiente modo:ssh ce01 checkjob JobId
     
    109118PE:  1.00  StartPriority:  1
    110119}}}
     120
    111121'''tracejob: '''Da información sobre los tiempos de trabajo del trabajo especificado por el JobId. Estos tiempos pueden consultarse tanto antes como después de la finalización del trabajo. La llamada a esta función es:
    112122
     
    12813812/09/2009 18:18:13  S    Job Modified at request of root@ce01.macc.unican.es
    129139}}}
     140
    130141'''qdel: '''Elimina un trabajo de la cola antes de que finalice. Para ello escribimos:
    131142
     
    135146[rodri@oceano ejemplo]$ qdel  121176
    136147}}}
     148
    137149'''qsig: '''Este comando lo usaremos cuando se nos quede colgado un trabajo y no responda al comando qdel. Su sintaxis es la siguiente:
    138150
     
    142154[rodri@oceano ejemplo]$ ssh ce01 qsig -s TERM 121176
    143155}}}
     156
    144157'''Otros comandos:'''
    145158
     
    150163 * qmove: Mover trabajos de una cola a otra.
    151164 * man pbs_resources: Información sobre los requerimientos que podemos usar.
     165 * more y cat: Estos comandos nos permiten visualizar por pantalla archivos de texto. Con ellos podemos visualizar los archivos de salida del job mediante: more/cat nombreArchivo.
    152166
    153167----