Cloud Exchange 2022: Susan Gregurick de los NIH sobre la investigación sobre la democratización de la nube

0
3
Cloud Exchange 2022: Susan Gregurick de los NIH sobre la investigación sobre la democratización de la nube

Parte 1

Parte 2
Los Institutos Nacionales de Salud contienen una gran cantidad de datos biomédicos y de salud, pero no pueden desbloquear completamente el valor de esos datos hasta que la agencia los haga accesibles de forma segura a los socios de la comunidad de investigación.

Susan Gregurick, directora asociada de ciencia de datos de los NIH y directora de su Oficina de estrategia de ciencia de datos, dijo que la iniciativa de plataforma de interoperabilidad en la nube en curso de la agencia creará una “malla de datos” que hará…

LEE MAS

Parte 1

Parte 2

Los Institutos Nacionales de Salud contienen una gran cantidad de datos biomédicos y de salud, pero no pueden desbloquear completamente el valor de esos datos hasta que la agencia los haga accesibles de forma segura a los socios de la comunidad de investigación.

Susan Gregurick, directora asociada de ciencia de datos de NIH y directora de su Oficina de estrategia de ciencia de datos, dijo que la iniciativa de plataforma de interoperabilidad en la nube en curso de la agencia creará una “malla de datos” que facilitará a los investigadores trabajar en múltiples fuentes de datos.

“La nube realmente ha democratizado nuestro acceso a los datos y realmente ha mejorado la forma en que los investigadores pueden trabajar con los datos”, dijo Gregurick durante la Red de noticias federal. Intercambio en la nube 2022. “Incluso si está en la nube, no significa que esté todo ahí y accesible. Hay muchas plataformas diferentes dentro de la nube. Pero crear ese tipo de malla de datos en la nube es el próximo gran desafío”.

Los NIH tienen la intención de facilitar el intercambio de datos en la nube, en parte a través de su Servicio de autenticación para investigadores. RAS es una capacidad de inicio de sesión único para que los investigadores accedan a plataformas de datos en todos los institutos de la agencia.

“Todas estas son plataformas realmente importantes, pero de alguna manera son todos silos. Nuestro objetivo es desglosar esa capacidad, construir interconexiones donde tenga sentido”, dijo Gregurick.

Abordar los silos de investigación de los NIH

Actualmente, los investigadores tienen acceso a al menos 16 plataformas de datos como parte del proceso de autenticación. NIH probó RAS durante aproximadamente dos años y ahora está en “modo de producción”, dijo.

“Es difícil decir cuántas formas diferentes en que los investigadores pueden acceder a los datos funcionan con análisis en la nube, pero hay al menos 20 o más plataformas de datos basadas en la nube que albergan datos. Gran parte de ellos son datos de acceso controlado porque provienen de los participantes de los estudios. Lo que queremos hacer es simplemente hacerlo mucho más fácil. Que una vez que el investigador tiene la aprobación para obtener los datos, puede obtenerlos a través de un proceso de autorización de autenticación”, dijo Gregurik.

Un acceso más fácil a los datos de los NIH les permite a los investigadores hacer más con los recursos disponibles para ellos. “El acceso a los datos es una prioridad. Aprovechar la infraestructura de la nube es otra forma de hacerlo”, dijo.

Gregurick describió un escenario en el que los investigadores agregaron datos de tres plataformas diferentes y realizaron análisis en una sola plataforma sin tener que copiar o mover los datos externos.

“Eso se facilita porque todos estos datos están en la nube. No puedes hacer ese tipo de malla de datos o esa interoperabilidad tan fácilmente si no estás en la nube”, dijo. “Estoy seguro de que podríamos hacerlo en un entorno informático híbrido, pero es mucho más accesible y fácil si tiene una forma de inicio de sesión único para autenticarse en múltiples plataformas, autorizar los datos en múltiples plataformas y luego una forma de extraiga esos datos y agréguelos, y realice análisis sin tener que copiarlos. La nube es perfecta para eso”.

Acelerando el acceso a los datos de los NIH

Los esfuerzos de modernización de la nube de los NIH también permitirán que la agencia comparta datos con los investigadores más rápidamente.

Las solicitudes de los investigadores para acceder a la base de datos de genotipos y fenotipos (dbGaP) de los NIH, por ejemplo, se enrutan a través del Comité de acceso a datos de la agencia. Actualmente, los investigadores tardan unas dos semanas, en promedio, en obtener datos de los NIH a través de este proceso.

“Hay muchas ineficiencias ahí. Hay muchas maneras en las que podemos mejorar eso a través de la automatización”, dijo Gregurick.

NIH espera que los esfuerzos para automatizar aspectos del proceso de revisión proporcionen a los investigadores “acceso casi en tiempo real” a los datos o al menos reduzcan el período de espera a 24 horas, dijo. “La nube jugará un papel importante en eso, porque muchos de estos datos ahora se alojan en diferentes tipos de plataformas de datos en la nube. Vincular ese proceso automatizado a la nube es realmente el próximo gran paso”.

Este trabajo de automatización comenzó en el año fiscal 2022 y continuará hasta el año fiscal 2023, agregó.

La pandemia impulsó los esfuerzos en la nube de los NIH

La pandemia de COVID-19 llevó a los NIH a realizar esfuerzos adicionales para hacer que los datos en la nube sean más accesibles.

La agencia lanzó el centro de datos de aceleración rápida de diagnósticos de COVID (RADx), un repositorio centralizado y seguro para almacenar y buscar grandes cantidades de datos no identificados relacionados con las pruebas de COVID-19.

“Esta será una especie de forma basada en la nube para que los investigadores interactúen con esos datos, traigan sus propios datos, si están interesados, e investiguen realmente todas las formas en que COVID se ha propagado por nuestro país y qué pueden proporcionar los datos de prueba. en términos de responder preguntas de investigación”, dijo Gregurick.

El Instituto Nacional de Imágenes Biomédicas y Bioingeniería de los NIH también está financiando el Centro de Recursos de Datos e Imágenes Médicas (MIDRC), un repositorio de alta calidad de imágenes médicas relacionadas con COVID-19 y datos clínicos asociados.

Entre sus objetivos, el repositorio está destinado a desarrollar inteligencia artificial basada en imágenes médicas para detectar, diagnosticar y monitorear COVID-19.

“Hay muchos datos realmente buenos provenientes de tomografías computarizadas, por ejemplo, de pacientes que han tenido COVID. El objetivo de MIDRC ha sido recopilar todos esos datos radiológicos, armonizarlos a un nivel muy alto, ponerlos a disposición de los investigadores y hacerlos amigables con la inteligencia artificial”, dijo Gregurick.

En términos de proyectos futuros para facilitar el intercambio de datos, Gregurick dijo que NIH considera que los comentarios continuos de los investigadores son una parte esencial para comprender dónde la agencia puede mejorar sus capacidades.

Espera desarrollar circuitos de retroalimentación de varias maneras, incluso en persona. En enero, por ejemplo, los NIH realizaron un taller sobre descubrimiento de datos para la comunidad investigadora.

“La investigación y el trabajo en el espacio federal realmente dependen de esa comunicación abierta con la comunidad investigadora”, dijo Gregurick. “Tratamos de entendernos. Ambos estamos tratando de ampliar los límites de la ciencia: nosotros desde el lado federal y, por supuesto, ellos desde el lado de la investigación y la investigación científica. Ha sido una asociación maravillosa”.

Consulta todas las sesiones de la Red Federal de Noticias Intercambio en la nube 2022.

LEAVE A REPLY

Please enter your comment!
Please enter your name here