Open Data

 Open Data

 

Open Data es uno de los pilares de Open Science, es el movimiento global digital que permite el acceso libre a los datos de investigación abiertos a todos los ciudadanos en formatos que faciliten:

  • la reutilización para cualquier fin,
  • la replicabilidad de la investigación -posibilidad de duplicar los resultados de un estudio si se siguen los mismos procedimientos, pero se recopilan nuevos datos-
  • la reproducibilidad de la investigación -capacidad de duplicar los resultados de un estudio con los mismos materiales del investigador original-.

 

De esta manera se accede a los datos que sustentan una investigación, al proceso de registro reconocido por la comunidad científica, a los datos que sirven para certificar los resultados de una investigación, salvo legítimas excepciones o cuando proceda con un proceso de anonimizar datos sensibles, en definitiva, el acceso a datos de investigación con el objetivo de que se puedan usar, reutilizar y distribuir.

Esta iniciativa mundial que promueve el acceso abierto a los datos de investigación se engloba en un proceso más amplio que afecta también a los datos generados por los gobiernos y las administraciones públicas, para aportar transparencia a la gestión, favorecer la participación ciudadana, la innovación y para generar riqueza y bienestar.

Vinculado al concepto de Open Data para favorecer la confluencia entre transparencia y reutilización de los datos tenemos las tecnologías de la web semántica y el Linked Open Data con los estándares que permiten la descripción de recursos, datos y metadatos que permiten el acceso a datos abiertos enlazados provenientes de diversas fuentes e instituciones.

Los datos de investigación son aquellos materiales generados y registrados en los que se sustenta una investigación. Los conjuntos de datos -datasets y otros materiales complementarios- pueden ser de muchas clases, numéricos, descriptivos, visuales, de tipo experimental, observacionales y computacionales, disponibles en estado bruto o sometidos a algún proceso de análisis.

 

Para que los datos científicos sean publicables y estén disponibles deben seguir los principios FAIR reseñados en la revista Scientific Data de Nature (2016) e incorporados al programa Horizonte 2020 de la Unión Europea en Guidelines on FAIR Data Management in Horizonte 2020 (2016):

  • Findable (Encontrables): que se puedan encontrar los datos y los metadatos después de su publicación mediante herramientas de búsqueda, esto es, recuperables con identificadores persistentes.
  • Accessible (Accesibles): que los datos y metadatos cumplan los estándares de accesibilidad y puedan ser descargados por otros investigadores utilizando sus identificadores.
  • Interoperable (Interoperables): que los datos y metadatos sean descritos según estándares abiertos y normalizados que permitan el intercambio y la reutilización.
  • Reusable (Reutilizables): que los datos y metadatos puedan ser utilizados por otros investigadores, que quede clara la procedencia, los derechos y permisos de licencias, con las condiciones de reutilización.

 

Además, según EOSC los datos de investigación tienen que ser:

  • Reliable (De confianza): que los datos y metadatos procedan de una fuente certificada, segura y que ofrezca garantías.
  • Reproducible (Reproducible): que los datos y metadatos se puedan convertir en estándares.

Para saber más:  FECYT La conservación y reutilización de los datos científicos en España. Informe del grupo de trabajo de buenas prácticas,  Grupo de Trabajo RECOLECTA (2012).

Horizonte 2020 

El programa Horizonte 2020 establece en el art. 29.3 H2020 Model Grant Agreement: Multi-beneficiary General MGA (versión 5.0, 2017), las obligaciones de los participantes en  la publicación e incorporación de datos de la investigación -datasets- a los artículos científicos financiados con cargo a dicho programa. Los datos y sus metadatos:

  • Se especificarán en el Plan de Gestión de Datos de los proyectos de investigación.
  • Se deberán depositar en algún repositorio de datos de investigación.
  • Se permitirá el acceso, difusión y explotación de los datos mediante licencias libres, preferiblemente Creative Commons, debiendo especificar qué herramientas son necesarias para usar los datos.
  • Se realizará un proyecto de gestión de datos inicial (6 meses de comienzo del proyecto), una revisión intermedia y otra final.

OpenAIRE: Open Access Infraestructure for Research in EuropeOpenAIREPlus  va dirigido a la publicación de datos de investigación y se recomienda adoptar las medidas oportunas para la minería y curación de los datos, es decir, para asegurarnos de que hemos conservado los datos y metadatos adecuados.

La Comisión Europea en 2012 puso en marcha primero una iniciativa de datos de investigación abiertos  en un proyecto piloto: Open Resarch Data Pilot para algunas áreas de Horizonte 2020, y desde 2017 es obligatorio para todos los proyectos financiados con cargo a dicho programa.

SIM4RDM Project, consorcio con participación de la Comisión Europea, para promover buenas prácticas y estándares en la gestión de datos de investigación.

Toda la información sobre investigación y desarrollo en la Unión Europea y las actividades de la Comisión Europea sobre investigación e innovación están accesibles en CORDIS.

CORDIS

Plan de Gestión de Datos -DMP Data Management Plan-

El Plan de Gestión de Datos (Data Management Plan) es el instrumento que facilita el control y gestión de los datos de investigación -datasets- mediante la formalización de un documento. Deberá reunir los siguientes elementos:

  • Quién se responsabiliza de la custodia de los datos de investigación.
  • Tipos de datos que se van a recoger durante la investigación.
  • Estándares para la recogida y preservación de los datos.
  • Políticas de acceso y reutilización de los datos.
  • Medidas de seguridad, propiedad intelectual, privacidad y confidencialidad.
  • Archivo y preservación de los datos.

 

Directrices para elaborar el PGD, Plan de Gestión de Datos

Fuente: PAGODA, Consorcio Madroño.

 

Herramientas para elaborar el PGD, Plan de Gestión de Datos

DCC DMP ONLINE, DCC.  DMP Online, plantilla sencilla elaborada por el Digital Curation Centre (DCC) para realizar el Plan de Gestión de datos siguiendo el esquema de Horizonte 2020. Incluye un Checklist for a Data Management (versión 4.0, 2014).

Pagoda PGD ONLINE, PAGODA. PGD Online, es una herramienta en línea sencilla para crear el Plan de Gestión de Datos, desarrollada por el DCC y adaptada por el Consorcio Madroño de universidades, es necesario un registro previo.

Grupo G9 de universidades GRUPO 9 DE UNIVERSIDADES, G9 Sectorial de Investigación y Bibliotecas. Ha traducido las Plantillas para elaborar el Plan de Gestión de Datos. Ver plantilla PDF. Ver plantilla Word. Instrucciones.  La Universidad de Castilla-La Mancha pertenece a este grupo.

 

Repositorios de datos de investigación

Registry of Research Data Repositories Re3Data.Org es un registro internacional de repositorios de datos de investigación auspiciado por DataCite, trabaja en colaboración con OpenAIRE. Ofrece información de más de 2.000 repositorios de datos de investigación de todo el mundo permitiendo la búsqueda avanzada por diversas opciones: materias, país, formatos, idioma, contenido, etc.

Zenodo ZENODO es el repositorio europeo gratuito para compartir y depositar datos de investigación en diversos formatos. Creado por OpenAIRE y el CERN con el apoyo de la Comisión Europea tiene el objetivo de favorecer la Ciencia Abierta.

Figshare FIGSHARE, repositorio digital en línea de datos de ciencia abierta para que los investigadores puedan preservar, compartir los datos y resultados de la investigación haciéndolos accesibles mediante un identificador DOI que se asigna de forma automática.

Open Sciecen Framework OSF, Open Science Framework, del Center for Open Science, Charlottesville, Virginia. Promueve proyectos de reproducibilidad de la ciencia y permite el deposito de datos de investigación en este recursos abierto y colaborativo de Ciencia Abierta.

The Dataverse Project DATAVERSE. Dataverse Project, es un proyecto colaborativo del Institute for Quantitative Scocial Science (IQSS) y Harvard Library. Es una aplicación web de código abierto para compartir, preservar, citar, explorar y analizar datos de investigación. Gratuito.