Datos para proyectos de investigación

Podríamos decir que en general pecamos de preparar los proyectos con una cierta prisa. Tenemos prisa en arrancar proyectos, prisa para publicar resultados, prisa en general.

Esto nos lleva, con frecuencia, a dedicar menos tiempo del necesario a pensar. Invertimos poco tiempo en realizar un planteamiento correcto de cómo se van a utilizar los datos, qué proceso seguiremos para conseguir que nos aporten la información que confirmará o invalidará la hipótesis de partida de nuestro proyecto, desde la recogida de los mismos, pasando por el plan de análisis estadístico y hasta el análisis de los resultados.

Dedicar un tiempo apropiado a estas tareas nos aportará mejores resultados con un claro ahorro en recursos para procesar los datos y, cómo no, de tiempo.

PRINCIPIOS

La Comisión Europea, define los datos que se utilizan en investigación como aquella información factual o numérica que recogemos para examinarla y utilizarla como base de un razonamiento, una discusión o un cálculo. La gestión de estos datos que se utilizan y generan está presente en todas las fases de la investigación y contempla cómo los organizamos, estructuramos, almacenamos y procesamos. Esto nos lleva a establecer las siguientes premisas desde el inicio del proyecto:

Considerar los objetivos

Los datos como tales no son más que una unidad de información, que necesitan de la concurrencia de una situación, un entorno y otros datos vinculados para obtener un resultado significativo. Es por ello de vital importancia conocer que queremos obtener de ellos, previo a plantear qué tipo de datos recopilaremos.

Conviene que este sea un momento de miras amplias, con la finalidad de que el planteamiento que realicemos nos permita, más allá de alcanzar los ansiados objetivos, la posibilidad de ampliar, replicar, comparar y extender el foco del estudio a investigaciones transversales.

En función del número de variables que finalmente tengamos ante nosotros y los recursos de que dispongamos, probablemente debamos limitar el estudio, pero un planteamiento amplio desde el principio nos permitirá seleccionar aquellos ítems realmente relevantes. Debemos considerar que uno de los mayores problemas de la investigación es el reclutamiento de pacientes y debemos obtener el máximo rendimiento de su colaboración.

Considerar el sistema de recogida

La recopilación de datos entraña sus dificultades, y hacer un planteamiento inicial sobre la manera adecuada los tiempos y trabajos que deberemos realizar para obtenerlos dentro de nuestro proyecto nos evitará problemas en el transcurso de la investigación.

Este planteamiento debe establecer qué tipo de datos recogemos; quién, cómo y cuándo los recoge, y quién y cómo va a procesarlos.

Considerar el sistema de procesado

Siguiendo el hilo anterior, es importante plantearnos cómo procesaremos estos datos. Los diferentes programas estadísticos tienen requerimientos propios a la hora de procesar, de forma automatizada, la información con que los alimentamos. Errar en un formato, en un orden, o en cómo se rellena un campo llevan a errores que después nos cuestan una buena inversión en tiempo de profesionales expertos para detectarlos y corregirlos.

Resulta de ayuda contar con un referente especializado que nos pueda aportar una visión externa, sin contaminar por el propio conocimiento del proyecto, para determinar qué datos finalmente se integrarán en nuestra investigación en función de estas premisas.

UTILIDAD

Para buscar resultados, generalmente usamos diferentes herramientas estadísticas que deben procesar los datos que hemos recogido.

Si hablamos, por ejemplo, de proyectos de experiencia de paciente dentro de un centro, es bueno reflexionar sobre el marco global para obtener datos que puedan ser comparables, acumulables y reutilizables en diferentes patologías y datos específicos para cada proyecto concreto.

Con este planteamiento, podremos conseguir plataformas, apps y diferentes utilidades comunes, que en una misma especialidad utilicen funcionalidades comunes y otras especificas por patología, pero que sean uniformes y homogéneas en su planteamiento. Entre los beneficios de gestionar y compartir los datos encontramos:

– Posibilitar la validación de los resultados obtenidos.

– Facilitar su localización y comprensión.

– Reducir la duplicidad en la recogida y los costes que supone.

– Fomentar la innovación y los nuevos usos de los datos.

– Favorecer la colaboración.

– Incrementar el impacto y la visibilidad de la investigación.

RECOMENDACIONES GENERALES

La primera fila

Cuando pensamos en la base de datos que dará soporte a nuestra investigación, lo primero que debemos determinar son las variables que utilizaremos, aquellas que pondremos en la primera fila y sobre las que recabaremos información de los diferentes sujetos.

Mi propuesta es hacer un listado de todas las que nos parecen necesarias para nuestros objetivos y mirar de extenderlas con las ya mencionadas posibilidades adicionales. En este paso es útil prever que los resultados puedan ser divergentes de nuestras primeras expectativas y valorar qué rumbo puede seguir la investigación si esto sucede, y qué datos adicionales necesitaríamos en estos casos.

El siguiente paso consiste en depurar este listado, a poder ser con la aportación colegiada de otros profesionales. Valoramos qué variables aportan valor real a nuestro estudio y cuáles nos aportan un valor redundante, o sin interés o van a ser imposibles de recopilar de manera homogénea y correcta.

Finalmente debemos identificar las variables seleccionadas. No es baladí este paso. La identificación que les demos debe ser admitida por el sistema de proceso que utilizaremos, de forma que no den error, e inteligible por las diferentes personas que trabajaran sobre y con los datos. Unas pocas recomendaciones en este sentido serían:

– Los identificadores deben tener menos de 8 caracteres.

– No deben estar repetidos.

– No deben utilizar caracteres no alfanuméricos.

– No deben comenzar por un número.

La primera columna

El otro componente primordial y previo a los propios datos es el que debemos registrar en la primera columna, que no es otro que el identificador de los sujetos. Este indicador nos permitirá poder localizarlo en caso de detectar algún error en la introducción de datos y corregirlo de forma ágil.

El nudo de la cuestión

Sí, como es obvio y ya habréis deducido, nos faltan los datos que se introducen dentro de esta matriz formada por las variables y los sujetos. El objetivo es que una vez disponemos de la información, esta sea recogida de manera uniforme y útil, pero sabemos que cada vez que se introduce un dato, existe la posibilidad de un error. Debemos intentar minimizarlos con unas instrucciones precisas, recogidas a continuación:

– Formato

Los datos deben estar codificados en formato numérico. Siendo esto así, es imprescindible disponer de un archivo de identificación o leyendas que vinculen los datos numéricos con sus valores reales. Un ejemplo fácil: en la variable sexo podemos identificar 1 como hombre y 2 como mujer. Estas leyendas permiten a todo aquel que trabaje los datos entender que debe introducir o como debe procesar la información y permite crear las etiquetas de las variables que aparecerán en tablas, gráficas y figuras.

– Variables cualitativas

No se recomienda incluir muchas variables cualitativas por una cuestión eminentemente práctica: necesitamos 10 valores (sujetos) como mínimo por categoría de variable, con lo que incrementar el número de variables cualitativas o las categorías dentro de cada variable implica una muestra mucho mayor.

– Introducción de datos

Existen unos puntos que resulta importante recordar y revisar. Especialmente cuando existen diferentes personas introduciendo datos o cuando los importamos de otra fuente.

– No se deben introducir nunca valores de texto y numéricos en la misma variable.

– En caso de valores numéricos continuos, no se pueden mezclar puntos y comas en la indicación de decimales o millares de una misma variable (ejemplo: 4,5; 3.6…).

– Las variables que recojan fecha deben introducirse de forma homogénea y en un formato que sea reconocido por el programa estadístico que vayamos a utilizar.

– Aquellos casos en que no exista valor para un sujeto determinado en una variable, (missings), debemos dejarlos como celdas vacías y evitar indicar N/A o similar.

CONCLUSIÓN

En investigación es vital saber qué queremos obtener de los datos, cómo pensamos hacerlo, a través de qué proceso y cómo nos replicarán para ampliar la base de la información que ofrecen si queremos recogerlos de forma eficiente y efectiva.

Para ello es importante hacer un buen análisis previo de necesidades y requerimientos que debe ser depurado y compartido (en algunos casos diría que consensuado) con todas aquellas personas que van a trabajar en el proyecto. Trabajar sin pausa, pero sin prisa, siempre es una buena recomendación.