Estadísticas y registros de
negocios
Encuestas sobre estadísticas de negocios
3. Procesamiento de datos
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
1
Sistema de archivos de microdatos
• Un archivo de microdatos debe ser configurado para
almacenar los datos de la encuesta
• Un cierto número de operaciones de escritorio son
necesarias antes de estén listas las etiquetas de
direcciones del cuestionario
• Entre las más importantes se encuentran la eliminación
de duplicaciones evidentes y la actualización de
cambios de dirección reportados recientemente
• Las revisiones y actualizaciones de último momento
antes del envío evitarán irritar a los encuestados,
ayudarán a reducir la carga impuesta a los encuestados
y la no respuesta
2
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Identificación de unidades
• La comunidad de negocios es dinámica
• Son de esperarse las discrepancias entre la
unidad informante prevista y la realidad
• Es importante establecer la causa de las
discrepancias
• Las correcciones y actualizaciones de las
unidades y sus atributos deben llevarse a cabo
en estrecha cooperación con personal del
RCN.
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
3
Modos de captura de datos
• Básicamente, se producen cinco tipos de CAPTURA de
datos:
• Intercambio electrónico de datos (IED)
• Escaneo
• Reconocimiento óptico de caracteres (OCR, por sus
siglas en inglés)
• Captura de datos confirmados
• Captura de datos no confirmados
• Se requiere un software especial de captura de datos
• Cuál de los métodos se deba aplicar es algo que
depende de los recursos laborales, equipos y
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
4
Controles primarios
• Cuando los formularios completados vuelven a la ONE,
la primera cosa a hacer es comprobar si no están (casi)
en blanco
• Los formularios inutilizables pueden considerarse como
no respuestas o pueden ser programados para
seguimiento
• No se debe esperar para introducir los datos hasta que
todo el proceso de recolección haya concluido
• Las acciones de seguimiento para con los encuestados
que respondieron datos poco verosímiles debe llevarse
a cabo tan pronto como sea posible después de que
regrese el formulario
• Independientemente de los procedimientos de edición,
los archivos sin procesar, tal como fueron presentados 5
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Tipos de controles
• La edición es el examen de los datos para la detección
de errores
• Sólo una parte de los errores cometidos por los
encuestados puede rastrearse
• La edición de datos tiene lugar durante o después de la
captura de datos
• Los controles de enrutamiento prueban si todas las
preguntas que deberían haberse contestado han sido
en realidad contestadas
• Los controles de validación de datos comprueban si las
respuestas son permisibles
• Los controles relacionales son una potente
6
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Organización de la edición
• No todas las estrategias de edición puestas en
práctica son eficientes
• Existen cinco alternativas, algunas de las cuales
pueden ser combinadas entre sí:
• Papel y lápiz
• Iteración de la captura de datos y de las listas
de errores
• Captura de datos y edición asistidas por
computadora
• Edición automatizada
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
7
Tres etapas de la edición
En el proceso de edición se pueden diferenciar tres etapas:
1
2
3
• Detección de errores o
inconsistencias
• En caso de una inconsistencia:
determinar qué campo es erróneo
• Corrección o imputación
• Se utilizan métodos estocásticos y deterministas para
detectar errores
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
8
• Edición selectiva
• La edición selectiva se concreta en la detección
de valores aberrantes
• Puede tener lugar durante la captura de datos, o
cuando se ha recogido ya la mayoría de los datos
• La edición durante la captura de datos (edición de
entrada) tiene la ventaja de la puntualidad
• La edición de entrada es costoso
• Para reducir los costos uno debe ser selectivo
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
9
Macro-edición
• La macro-edición o edición agregada es una forma de edición
selectiva centrada en la salida
• Sistematiza lo que cada organismo de estadística hace antes de la
publicación: verificar si las cifras de la publicación parecen
plausibles
• Para ello se puede comparar los totales en celdas de publicación
con las mismas cifras en el momento t-1
• La edición selectiva no está exenta de riesgos
• Puede darse un sesgo si, por ejemplo, sólo las grandes desviaciones
positivas a partir del valor esperado, se corrigen, y un gran número
de desviaciones negativas (los ceros) son ignoradas
• También la falsa estabilidad, debida a las empresas que envían
exactamente las mismas respuestas en cada ocasión, puede dañar
la validez de las cifras de la publicación
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
10
Controles externos de coherencia
• Hasta ahora nos hemos centrado en comprobaciones
de la coherencia entre los elementos de un solo
cuestionario
• Sin embargo, también pueden aplicarse controles con
los datos de otros estudios
• Los controles externos de coherencia son un medio
importante para reducir los problemas durante la etapa
de integración
• La aplicabilidad de los controles externos depende del
grado de coordinación entre las encuestas
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
11
Imputación
• Se distingue entre dos tipos de datos faltantes: no respuesta de
unidad y no respuesta de elemento
• La imputación se aplica a la no respuesta de elemento
• La no respuesta se aborda mediante una nueva ponderación
• Hay una tercera manifestación de los datos faltantes, llamada falta
intencional de datos
• Se puede distinguir entre tres tipos de elementos de no respuesta
– En el primer tipo los valores que faltan son completamente al azar
– El segundo tipo no depende del valor de la variable, sino de los valores
de alguna(s) otra(s) variable(s)
– El tercer tipo depende del valor de la variable en la que no se
encuentra, por ejemplo las puntuaciones altas son más propensas a
faltar que las bajas
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
12
Estrategias para hacer frente a la no
respuesta
• Dos estrategias generales aplican para tratar la no
respuesta de elemento
• La primera estrategia ignora los valores que faltan
• Este método es llamado análisis completo de caso
• En la segunda estrategia se buscan estimaciones para
los datos que faltan
• Si se eliminan todos los casos con uno o más valores
faltantes el tamaño de la muestra puede convertirse
en algo muy pequeño
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
13
Métodos de imputación
• Existen varios métodos de imputación, que van desde los procedimientos
estadísticos muy simples e intuitivos hasta los más complicados
• Los métodos más importantes son:
– Tratamiento subjetivo: establecer la imputación sobre la base de los
valores que parecen razonables
– Imputación promedio/moda: atribuir la media de una variable o la moda
– Post estratificación: dividir la muestra en estratos y, a continuación, hacer
la imputación promedio/moda/mediana del estrato
– Imputación 'cold deck': encontrar estimaciones razonables de los valores
que faltan en otro conjunto de datos
– Imputación 'hot deck': encontrar un caso donante en el conjunto de datos
– Imputación por regresión: definir variables de predicción y estimar el valor
faltante
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
14
Datos faltantes intencionales
• La faltan de datos intencional se produce cuando se ha decidido
abstenerse de encuestar ciertas variables
• Esto se lleva a cabo deliberadamente con el fin de ajustarse mejor a
los sistemas contables de los encuestados
• Ejemplo: para la recopilación de datos sobre "formación de capital
fijo", es necesario el valor de compra de los activos
• Sin embargo, las empresas que alquilan los activos adquiridos, no
serán capaces de proporcionar el valor de compra
• Por lo tanto, el cuestionario menciona "importes de arrendamiento
pagados", y la ONE hace la imputación del valor de compra por
medio de ciertas claves
• Los datos faltantes intencionales se convertirán en un fenómeno
creciente en las estadísticas de las empresas para reducir la carga
de reporte
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
15
Ponderación
• Las muestras se traducen por información sobre sólo una parte de
la población objetivo
• Es una práctica común para las oficinas de estadística atribuir
ponderaciones a los elementos de una muestra
• Los objetivos de la ponderación son:
1. Ampliar la muestra a la población.
2. Hacer frente a observaciones faltantes.
3. Aumentar la precisión mediante la utilización de información
auxiliar.
4. Tener coherencia con los datos procedentes de otras fuentes.
• La ponderación, es decir, la atribución de pesos a unidades incluidas
en la muestra, puede tener lugar en principio antes de la
recopilación de datos
•Copyright
La2010,
reponderación
siempre
se aplica después de la recopilación de 16
Grupo del Banco Mundial. Todos los
derechos reservados
Reponderación
• Se puede utilizar ponderaciones para ampliar la
muestra a la población
• Los demás objetivos (hacer frente a las
observaciones faltantes, aumentar la precisión,
lograr la coherencia con los datos procedentes de
otras fuentes) se alcanzan mediante el ajuste de
las ponderaciones de inclusión
• El procedimiento de ajuste se llama
reponderación
• Esto se hace partiendo de la información auxiliar
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
17
Errores de marco y estimación
• Los errores de marco complican el proceso de
estimación
• Hay cuatro categorías pertinentes para las encuestas
de negocios:
• Subcobertura (unidades faltantes)
• Sobrecobertura (inclusión de unidades diferentes a
las de la población)
• Listados duplicados o múltiples
• Información auxiliar incorrecta (tamaño, actividad,
construcción errónea de unidades, etc. )
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
18
Ajuste estacional
• Muchas series de tiempo económicas muestran
fluctuaciones cíclicas
• Esto es más evidente en el caso de series publicadas
con un período inferior a un año
• Las fluctuaciones involucradas se denominan
fluctuaciones estacionales
• Las principales causas son los efectos calendáricos, los
efectos institucionales y el clima
• Las series deben corregirse en cuanto a estas
fluctuaciones estacionales
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
19
Ajuste estacional
• Los métodos de ajuste presuponen que una serie
puede dividirse en tres componentes:
• la tendencia y el ciclo
• el componente estacional
• el componente irregular
• La descomposición da una estimación de los factores
estacionales, de la tendencia-ciclo y del componente
irregular
• Hay varios métodos en dos amplias categorías:
métodos de realización de censos y "enfoques basados20
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
Control de la divulgación de datos
tabulares
• Los resultados de las encuestas entre las empresas por lo general se
publican en forma de tablas
• Los conjuntos de microdatos con los datos de las empresas casi
nunca se publican
• En datos tabulares puede haber situaciones en las que es posible
deducir información que corresponde a un encuestado individual a
partir del total global
• Esto debe evitarse mediante el control de la divulgación de
estadísticas (CDE)
• Hay tres métodos principales:
1.
2.
3.
Modificación del esquema de clasificación,
Supresión de las celdas sensibles, y
Redondeo de los valores de celda
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
21
Celdas sensibles en las Tablas
• Regla de dominancia: si la suma de las contribuciones de n o menos
encuestados representa más de k % del valor total de la celda,
entonces este valor de la celda no puede ser publicado.
• Los valores n y k en esta formula son parámetros cuyos valores han
de ser elegidos
• Por ejemplo, uno podría elegir n = 3 y k = 75
• La idea principal detrás de esta regla de dominancia es que si un
valor de la celda es dominado por el valor de uno de los
encuestados, entonces su contribución puede estimarse con
bastante exactitud
• Si hay m encuestados, luego m-1 de ellos pueden, mediante una
puesta en común de información, revelar información acerca del
valor de los datos de los encuestados restantes
• Debe por tanto elegirse un valor n más grande que el tamaño
máximo de las coaliciones (imaginarias) de los encuestados
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
22
Tablas vinculadas
• Las secciones anteriores trataban del control de la divulgación de
una sola tabla
• Cuando se publica un conjunto de tablas vinculadas, es decir tablas
con variables comunes derivadas de los mismos microdatos,
pueden surgir otros problemas
• Es posible que una tabla en sí misma no contenga ninguna celda
sensible, pero que, al combinar la información que contiene con la
información de otras tablas, pueda revelarse información individual
• Se podría eliminar una o varias de las tablas del conjunto de tablas
vinculadas
• Otra opción es la de proteger el fichero de microdatos original
contra la divulgación
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
23
Metadatos
• Los usuarios tienen derecho a ser informados sobre las
características del producto que reciben
• La información debe incluir todos los elementos importantes del
contenido de los datos y del procesamiento de datos, incluyendo:
1.
2.
3.
4.
5.
6.
7.
Una definición enumerando los componentes del concepto
(inclusiones y exclusiones) es a menudo más informativa que una
definición más teórica
¿Qué tipo de unidad se utiliza y cómo se define?
¿Qué reglas de clasificación se han aplicado?
¿Cómo está delimitada la población?
¿Qué método de recolección se ha empleado (papel, teléfono, etc. )?
¿Cómo se abordó la no respuesta?
¿Cómo han sido editados los datos? Etc.
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
24
Difusión
• Los intereses de los usuarios no coinciden
necesariamente con los ámbitos cubiertos por las
encuestas individuales
• Existe una amplia gama de grupos de usuarios y
una amplia variedad de áreas de interés
• Las publicaciones pueden traslaparse
• Existen muchos modos de difusión
• La difusión electrónica, en particular a través de
sitios web de la ONE, se ha convertido en el
modo dominante
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
25
Difusión Electrónica
• La cantidad de la información estadística
disponible es inmensa...
• Se pueden distinguir tres tipos de clientes:
1. El cliente ocasional que quiere algunas cifras básicas;
2. El cliente interesado en un conjunto de información
específico con entregas regulares;
3. El cliente que necesita grandes cantidades de datos
para necesidades cambiantes.
Copyright 2010, Grupo del Banco Mundial. Todos los derechos reservados
26
Tabulaciones
• Las tablas estadísticas son el corazón de una publicación
• La primera condición para cada tabla es que el mensaje a comunicar
pueda ser entendido fácilmente
• Los datos deben presentarse de forma clara y el título de la tabla
debe describir en esencia el contenido de la tabla
• La redacción debe ser lo más informativa posible y fácil de leer y
comprender
• Una tabla consiste comúnmente en celdas dispuestas en filas y
columnas
• En el caso de una encuesta por muestreo, el contenido de las celdas
por lo general consiste en estimaciones de los totales o en
porcentajes de una población predefinida
• El redondeo se realiza a menudo para eliminar números
irrelevantes
• Una cuestión importante para las encuestas por muestreo son los
27
indicadores
de precisión
Copyright
2010, Grupo del Banco Mundial.
Todos los derechos reservados
Descargar

Dia 1