Indice Anterior
Rev Cubana Angiol y Cir Vasc 2002;3(1):78-7

Formato PDF

Instituto Nacional de Angiología y Cirugía Vascular

Un procedimiento para la estimación de datos faltantes en tablas epidemiológicas y demográficas. Aplicación a datos de hipertensión arterial

Dr. Armando H. Seuc Jo1 y Dra. Emma Domínguez Alonso2

Resumen

En el trabajo epidemiológico y demográfico es común encontrarse con tablas de incidencia u otros indicadores para un año de referencia X, desglosados por edad y sexo, que están incompletas. La estimación adecuada de los datos faltantes en estos casos resulta importante pues ellos permitiría dar una idea aproximada pero aceptable del comportamiento del fenómeno estudiado en ese año de referencia, lo cual generalmente es mucho mejor que no dar ninguna idea. En este trabajo presentamos un procedimiento para estimar los datos faltantes para la tabla del año de referencia X a partir de la tabla correspondiente en un año "vecino". Es un procedimiento sencillo, pero que brinda estimaciones aceptables. Su principal característica es que respeta por completo los datos disponibles para el año X, y utiliza los datos de la tabla del año «vecino» sólo para estimar los datos faltantes.

DeCS: HIPERTENSION/epidemiología; DEMOGRAFIA; BIOMETRIA.

El conocimiento de las tasas de prevalencia, incidencia, mortalidad y otros indicadores epidemiológicos de distintas enfermedades resulta fundamental para administrar eficientemente a nivel nacional y subnacional, los distintos programas de promoción, prevención y tratamiento.1,2

Por diversas razones estos indicadores pueden conocerse sólo parcialmente. Por ejemplo, puede que se conozcan las tasas globales para toda Cuba, pero no desglosadas por edad y sexo; o puede que se conozcan algunas tasas por edad y sexo, pero no todas las que se requieren.

En estos casos resulta necesario contar con procedimientos fáciles que estimen de manera aceptable los datos desconocidos, bajo el principio de que es preferible tener al menos datos aproximados a no tener datos en absoluto.2,3 Llama la atención la poca atención que estos procedimientos han recibido en las publicaciones científicas, lo cual no contribuye a la generalización y acumulación de experiencias en este terreno.

En el presente trabajo presentamos un procedimiento para estimar datos en tablas incompletas con determinadas características. Describimos el algoritmo general para su aplicación, y lo ilustramos mediante un ejemplo con datos de prevalencia de hipertensión arterial para Cuba del año 1990.

Descripción del problema

En determinadas circunstancias, datos demográficos y/o epidemiológicos desglosados por edad y sexo, referidos a un año en particular, pueden estar incompletos o tener un formato diferente al que necesitamos. Por ejemplo, supongamos que en un estudio de tendencias en el tiempo se requiere conocer la prevalencia de hipertensión arterial en Cuba de los años 1990, 1995 y 2000, en todos los casos desglosados por edad y sexo. Los grupos de edad de interés son:

- menos de 1 año            - de 15 a 24
- de 1 a 4                       - de 25 a 29
- de 5 a 9                       - de 60 a 64
- de 10 a 14                   - 65 y más

Para los años 1995 y 2000 las prevalencias de interés aparecían en los correspondientes documentos de la DNE del MINSAP, pero para el año 1990 las prevalencias disponibles estaban desglosados por otros grupos de edades, de los cuales para los dos sexos, coincidían sólo “menos de 1 año”, y “de 60 a 64”. Finalmente, para el año 1990, se conocían también las prevalencias globales para cada sexo. Del año 1991 sí se encontraban los datos de prevalencia desglosados según los grupos de edad requeridos.

La pregunta que nos planteamos es entonces, cómo estimar y completar los datos de prevalencia faltantes para 1990, a partir de los datos “disponibles” del año 1990 y a partir de la estructura de los datos del año 1991.

En general, el problema al que nos enfrentamos puede plantearse en los siguientes términos más generales: Se requieren las prevalencias de la enfermedad E para el año X desglosadas por edad y sexo (según la tabla 1A), y sólo se conocen las prevalencias para algunos de esos grupos de edades (digamos los grupos 1, 2 y 4), así como globalmente para cada sexo; además se conocen todas las prevalencias requeridas para un año cercano al año X, digamos el año X+1, que se supone tiene un comportamiento similar al del año X (ver tabla 2A).

Una propuesta de solución

La solución que proponemos consiste esencialmente en mantener intactos los datos que se conocen para el año de referencia, y utilizar los datos del año “cercano” sólo para estimar los datos faltantes en el año de referencia. Esta estimación se hace reproduciendo la estructura de los datos correspondientes en el año “cercano”, en el año de referencia. El procedimiento se ha algoritmizado en los siguientes cuatro pasos:

Paso 1. Calcular las proporciones por filas y por columnas en la tabla 2A, tal y como se presentan a continuación en la tabla 2B y la tabla 2C respectivamente (es importante mantener un número suficiente de decimales, digamos alrededor de 5).

Paso 2. En la tabla 1A, calcular las proporciones por columna para las prevalencias totales conocidas, tal como aparece en la tabla 1B. Entonces calcular S1, definido como el complemento con respecto a 1 de las proporciones conocidas (en este caso S1 = 1- [(Px,1/Px) + (Px,2/Px) + (Px,4/Px)]). En la tabla 2C, calcular S2, el total de las proporciones correspondientes a los datos faltantes en la tabla 1A (en este caso S2 = (Px +1,3/Px +1) + (Px+1,5/Px+1) + (Px+1,6/ Px+1) + (Px+1,7/ Px+1)).

Paso 3. En la tabla 1B, estimar las proporciones totales faltantes distribuyeron S1 según la distribución de las proporciones por columna correspondientes en la tabla 2C (ver la tabla 1C).

Paso 4. En la tabla 1A las prevalencias faltantes en la columna “Total” se estiman con los resultados que aparecen en la tabla 1C. Las prevalencias faltantes en las columnas de “hombres” y “mujeres” se obtienen multiplicando las prevalencias totales de la tabla 1C por las proporciones por fila de la tabla 2A, tal como se presenta en la tabla 1D.

EJEMPLO

Supongamos que del año 1990 se requiere conocer las prevalencias de HTA desglosadas por edad y sexo, pero se conocen sólo las que aparecen en la tabla 3A. Por otro lado, se conocen todas las prevalencias de HTA por edad y sexo para el año 1991, las que se presentan en la tabla 4A. Siguiendo el algoritmo antes descrito, obtenemos:

Paso 1. Calcular las proporciones por filas y por columnas en la tabla 2A, tal y como se presentan en la tabla 2B y la tabla 2C respectivamente.

Paso 2. En la tabla 3A, calcular las proporciones por columna para las prevalencias totales conocidas, tal como aparece en la tabla 3B. Entonces calcular S1, definido como el complemento con respecto a 1 de las proporciones conocidas en este caso S1= 1- [(Px,1/Px) + (Px,2/Px) + (Px,4/Px)]). En la tabla 4C, calcular S2, el total de las proporciones correspondientes a los datos faltantes en la tabla 3A (en este caso S2= (Px+1,3/Px+1)+ (Px+1,5/Px+1) + (Px+1,6/Px+1) + (Px+1,7/Px+1)).

Paso 3. En la tabla 3B, estimar las proporciones totales faltantes distribuyendo S1 según la distribución de las proporciones por columna correspondientes en la tabla 4C (ver la tabla 3C).

Paso 4. En la tabla 3A las prevalencias faltantes en la columna “total” se estiman con los resultados que aparecen en la tabla 3C. Las prevalencias faltantes en las columnas de “hombres” y “mujeres” se obtienen multiplicando las prevalencias totales de la tabla 3C por las proporciones por fila de la tabla 4B, tal como se presenta en la tabla 3D.

 

Discusión

El procedimiento propuesto requiere que para el año de referencia al menos se conozcan los datos globales, preferiblemente desglosados por sexo. Además contar con los datos completos para un año “vecino” con una estructura de desglose por edad y sexo que se puede asumir es similar a la estructura de los datos para el año de referencia.

La ventaja principal del procedimiento propuesto es que utiliza, sin modificaciones, la información existente para el año de referencia (en el ejemplo el año 1990), y que la información correspondiente al año “cercano” o “auxiliar” se utiliza sólo para estimar las prevalencias faltantes. Procedimientos más sofisticados pueden desarrollarse en caso de que exista información adicional, tanto para el año de referencia como para años vecinos.

En general, procedimientos basados en estimadores de núcleo,4 usando información de celdas vecinas, tendrían la desventaja de que modificarían la información existente para el año de referencia.

Summary

In the epidemiologic and demographic work it is common to find incomplete tables of incidence or other indicators for a year of reference X, distributed by age and sex. The adequate estimate of the missing data in these cases is very important, since they allow to have an approximate but acceptable idea of the behavior of the phenomenon studied in that year of reference, which is generally much better than giving no idea at all. In this paper, we present a procedure to calculate the missing data for the table of the year of reference X starting from the table corresponding to a “neighboring” year. It is a single procedure that provides acceptable estimates. Its main characterisitc is that it completely respects the available data for the year X and it uses the data from the table of the “neighboring” year only to estimate the missing data.

Subject headings: HYPERTENSION/epidemiology; DEMOGRAPHY; BIOMETRY.

Referencias bibliográficas

  1. Murray C, López A. The global burden of disease. Cambridge: Harvard University Press, 1996:1-98.
  2. Woodward M. Epidemiology: study design and data analysis. Boca Raton: Chapman and Hall, CRC, 1999:188-43.
  3. Osborn JF. Manual of medical statistics. Vol 1. London: London School of Hygiene and Tropical Medicine, 1987:92-110.
  4. Seuc AH. Algunas características de los estimadores alisados y no paramétricos para proporciones. Rev Invest Operac 1983;4(1):35-55.

Recibido: 20 de octubre de 2001. Aprobado: 28 de octubre de 2001.
Dr. Armando H. Seuc Jo. Instituto Nacional de Angiología y Cirugía Vascular. Calzada del Cerro No. 1551. Cerro. Ciudad de La Habana, Cuba.

1 Doctor en Ciencias Matemáticas. Investigador Auxiliar.
2 Especialista en Bioestadística

Indice Anterior