Una Infraestructura de Computación Distribuida al servicio de los investigadores

0

GRID-CSIC

  • El Consejo Superior de Investigaciones Científicas ha puesto en marcha la primera infraestructura de computación distribuida en España, GRID-CSIC, cuyo objetivo es posibilitar a los investigadores la realización de proyectos de investigación que requieren capacidades que no están al alcance de un solo usuario o grupo de investigación. Para ello la infraestructura GRID-CSIC facilitará a los investigadores del Consejo la consecución de aquellos proyectos científicos, que teniendo una naturaleza distribuida desde el punto de vista del cálculo numérico y de la gestión de los datos asociados, presentan necesidades computacionales que van más allá de las capacidades de infraestructura de un centro aislado.

*Basado en el informe del mismo nombre elaborado por Isabel Campos Plasencia
(Instituto de Física de Cantabria)

Kostas/CC BY-SA 2.0 GENERIC

El término computación distribuida se refiere al paradigma de Grids de cálculo ciéntífico, área en la que el CSIC cuenta con una dilatada experiencia. La utilización de tecnología Grid permite compartir y acceder a recursos de computación distribuidos geográficamente de forma transparente.


 

Entre los beneficios de la puesta en marcha de esta infraestructura está la potenciación de proyectos científicos multidisciplinares o entre varios centros del CSIC, en los que los investigadores necesitan simular, analizar, procesar, distribuir o acceder a grandes volúmenes de datos. Éste es el caso, por ejemplo, de los experimentos de Física de Partículas (CDF, CMS, ATLAS, ILC…), los estudios de Fenomenología de partículas elementales (Modelos SUSY) y Lattice, las misiones espaciales de observación y recogida de datos astronómicos (XMM, Planck…), el modelado del Cambio Climático, el desarrollo de la Química computacional o la Biocomputación.

El proyecto implica el desarrollo de una capacidad total de computación estimada de unos 8.000 procesadores y de una cabida de almacenamiento accesible directamente on line de 1.000 Terabytes (1 Petabyte)

El proyecto implica el desarrollo de una capacidad total de computación estimada de unos 8.000 procesadores y de una cabida de almacenamiento accesible directamente on line de 1.000 Terabytes (1 Petabyte). Los recursos de computación de GRID-CSIC están gestionados mediante un software intermedio, o middleware, que permite la interoperabilidad con infraestructuras Grid europeas, como la del proyecto EGEE (Enabling Grids for E-sciencE) coordinado por el CERN (Organización Europea para la Investigación Nuclear) y la del proyecto I2G (coordinado por el CSIC).

En particular la infraestructura desarrollada podrá ser compartida con la iniciativa IBERGRID en desarrollo con Portugal, y con la infraestructura del “Institute des Grilles” del CNRS (Centre National de la Recherche Scientifique), institución “gemela” del CSIC en Francia, con la que se establecerá un acuerdo de colaboración para el desarrollo conjunto de proyectos de investigación.

 

Fases

Robert Scoble/CC BY 2.0 GENERIC

Instalaciones del CERN (Organización Europea para la

Investigación Nuclear).


La infraestructura GRID-CSIC se pondrá en marcha en tres fases a lo largo de un periodo de tres años (2008, 2009, 2010). En el primer año la fase piloto incluirá tres centros que cuentan ya con experiencia en este tipo de proyectos: IFCA (Instituto de Física de Cantabria), IFIC (Instituto de Física Corpuscular) e IAA (Instituto de Astrofísica de Andalucía). La segunda fase de extensión incluirá centros en Madrid y Cataluña. Por último, la fase de consolidación completará el mapa de cobertura a nivel nacional.

El CSIC ha apostado de forma decidida por la consolidación de la tecnología Grid como base para la creación de una infraestructura de computación distribuida a nivel nacional. Está coordinando el despliegue y la puesta en marcha de la Infraestructura Grid Nacional en el marco de la Red Española de e-Ciencia. Dicho Grid nacional estará formado por la unión de los recursos aportados por la infraestructura GRID-CSIC, más los recursos de otros centros de investigación y universidades españolas participantes en la Red de e-Ciencia. La infraestructura GRID-CSIC permitirá a España participar como un elemento fundamental en la construcción de la futura iniciativa grid europea (EGI).

 

Iniciativa GRID europea

La iniciativa Grid Europea (EGI) representa el esfuerzo para establecer una infraestructura Grid sostenible en Europa. La infraestructura de EGI se diseñará para satisfacer las necesidades de los investigadores europeos y supone el siguiente salto hacia delante en la construcción de infraestructuras de investigación colaborativas en el espacio Europeo de Investigación.

Los pilares de la infraestructura EGI son las iniciativas grid nacionales (NGI) que se encargarán de operar infraestructuras grid dentro de cada país, y de interaccionar con el resto de países en el marco de EGI.

 

Proyecto IBERGRID

Al amparo del acuerdo de cooperación científica y tecnológica suscrito por España y Portugal en noviembre de 2003, y los acuerdos de colaboración de 2005 en materia de Tecnologías Grid y Redes de Comunicaciones para I+D, en octubre de 2006 se constituye una Comisión Mixta hispano-lusa cuyo cometido consistía en elaborar un plan para el despliegue de una infraestructura computacional distribuida (Plan Común de Infraestructura Ibérica). Dicho plan fue aprobado en mayo de 2007.

Desplegar una infraestructura común.
– Basada en primer lugar en los estándares de EELA (http://eu-eela.org) y EGEE (http://eu-egee.org).
– Fuerte coordinacióne entre RedIris y Rede Ciência, Tecnologia e Sociedade (TCTS) para asegurar las prestaciones en las redes de comunicaciones.
– Organización coordinada de recursos comunes (certificación de usuarios, soporte a los centros de recursos, seguridad, monitorización y control).

Aplicaciones.
– Fomento de la creación de Organizaciones Virtuales comunes.
– Selección de aplicaicones de interés común.

Formación.
– Organización de iniciativas en común.

Movilidad de investigadores.
– Coordinación de los Planes Nacionales para impulsar el intercambio de investigadores entre los dos países.

Organización de la conferencia anual IBERGRID.

OPINION

“Los principales retos hoy en día tienen que ver mucho con la estandarización del middleware para permitir una ‘interoperación’ entre Grids eficiente”

por Isabel Campos Plasencia
Científica del CSIC en el Instituto de Física de Cantabria

Se han cumplido diez años de la publicación por Ian Foster y Carl Kesselman de “The Grid: Blueprint for a New Computing Infrastructure”. En este trabajo seminal se define el Grid computacional como una infraestructura de hardware y software capaz de proveer acceso transparente a recursos computacionales. La popular analogía de los Grids de cálculo con respecto a las redes de distribución eléctrica ha servido de inspiración a científicos y tecnólogos a la hora de diseñar infraestructuras de computación cada vez más transparentes y orientadas al usuario.

La implementación práctica de la filosofía del Grid en forma de infraestructura de cálculo segura, fiable y de utilidad para las comunidades de usuarios ha desencadenado desde entonces avances no sólo desde el punto de vista tecnológico, sino también desde el punto de vista social y organizativo.

Es así como la idea de crear una infraestructura Grid a escala mundial ha evolucionado en términos de cooperación (“interoperación”) entre Grids de propósito específico, por ejemplo de alcance regional, o dedicados a comunidades científico-tecnológicas específicas. De esta manera la interoperación de las infraestructuras Grid nacionales (NGIs) de los todos los países europeos constituirá la futura European Grid Initiative (EGI), una infraestructura Grid dedicada a la investigación y al desarrollo tecnológico que dará soporte a los investigadores de los países signatarios del futuro acuerdo EGI.org.

Los principales retos hoy en día tienen que ver mucho con la estandarización del middleware para permitir una “interoperación” entre Grids eficiente. La definición de mecanismos que permitan de modo flexible y seguro la asignación de recursos a usuarios y comunidades sigue siendo un problema abierto. La relación entre proveedores de recursos y consumidores tiene que estar bien definida de manera que ambas partes sepan exactamente qué recursos se comparten y quién los comparte. La computación en Grid se encuentra en este momento en un interesante cruce de caminos. Aparte de los Grids orientados a la computación científica, la denominada “Computación en Clouds” ha aparecido recientemente empujada por el desarrollo de las tecnologías de virtualización de servicios. Empresas como Amazon han puesto en marcha servicios de computación “on-demand” para dar soporte a necesidades genéricas de computación a corporaciones y empresas.

El soporte a comunidades de usuarios científicos requiere de una especialización a nivel sobre todo de software y de apoyo humano que no está adaptada a los modelos de negocio previstos en el mundo del “Cloud Computing”, que sin embargo hay que resaltar, constituye un magnífico ejemplo de transferencia de tecnología de I+D hacia la sociedad.

Computación en Grids y Supercomputación

Es necesario en este punto del desarrollo tecnológico hacer una reflexión comparativa entre el mundo de la computación en Grids y el mundo de la Supercomputación.

Los sistemas formados por del orden de 1.000 cores de ejecución, que hace pocos años se consideraban como recursos de Supercomputación, son ahora relativamente comunes en centros de investigación de tamaño medio y grande. Como ejemplo, la Infraestructura Grid Nacional en España cuenta con clusters que sobrepasan los 1.500 cores. En el mundo de la Supercomputación, mientras tanto, los lugares prominentes de la lista de top500.org está ocupada por sistemas formados por el orden de decenas de miles de cores.

Hay evidentemente un factor relacionado con la potencia y el tamaño de los recursos locales que componen una infraestructura Grid, que parece separar el mundo de la computación en Grid del mundo de la Supercomputación. A pesar de ello, nada impide desde el punto de vista técnico la puesta en marcha de una infraestructura distribuida en modo Grid formada por Superordenadores tan grandes como se desee.

Sin embargo la diferencia entre ambos tipos de recursos es mucho más conceptual que un mero escalado de tamaño. Ésta reside en la aplicabilidad científica de ambos tipos de infraestructura. La computación en Grid es aplicable en áreas científico-técnicas en las que la colaboración, el intercambio de datos transparente, el acceso a recursos de forma directa es un requisito necesario para obtener resultados. La Supercomputación se relaciona sobre todo con el acceso a recursos basados en hardware más especializado y/o en grandes instalaciones, y por lo tanto más costoso a nivel humano y material, que los científicos necesitan utilizar para ir más allá del estado del arte en un problema determinado: típicamente simulaciones más o menos puntuales pero intensivas en miles de procesadores conectados por redes de baja latencia.

En este sentido el mundo del Grid y de la Supercomputación son complementarios, puesto que los grandes proyectos científicos necesitan de ambos tipos de recursos para la consecución de sus objetivos.

Más información

– Sobre la infraestructura GRID-CSIC: www.grid.csic.es.
– Sobre la Iniciativa GRID Europea: www.eu-egi-org.
– Sobre la Red Española de e-Ciencia: www.e-ciencia.es.

Compartir.

Responder