Un data warehouse es una colección de datos en la cual se
encuentra integrada la información de la Institución y que se usa como soporte
para el proceso de toma de decisiones gerenciales. Aunque diversas
organizaciones y personas individuales logran comprender el enfoque de un
Warehouse, la experiencia ha demostrado que existen muchas dificultades
potenciales.
El data warehouse, es actualmente, el centro de atención
de las grandes instituciones, porque provee un ambiente para que las
organizaciones hagan un mejor uso de la información que está siendo
administrada por diversas aplicaciones operacionales.
Un
data warehouse es una colección de datos en la cual se encuentra integrada la
información de la Institución y que se usa como soporte para el proceso de toma
de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales
Las aplicaciones
para soporte de decisiones basadas en un data warehousing, pueden hacer más
práctica y fácil la explotación de datos para una mayor eficacia del negocio,
que no se logra cuando se usan sólo los datos que provienen de las aplicaciones
operacionales (que ayudan en la operación de la empresa en sus operaciones
cotidianas), en los que la información se obtiene realizando procesos
independientes y muchas veces complejos.
Un data
warehouse se crea al extraer datos desde una o más bases de datos de
aplicaciones operacionales. La data extraída es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse.
El proceso de transformar, crear el detalle de tiempo variante, resumir y
combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la
información Institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con más responsabilidad
ASPECTOS TEÓRICOS:
Data warehousing
es el centro de la arquitectura para los sistemas de información en la década
de los '90. Soporta el procesamiento informático al proveer una plataforma
sólida, a partir de los datos históricos para hacer el análisis. Facilita la
integración de sistemas de aplicación no integrados. Organiza y almacena los
datos que se necesitan para el procesamiento analítico, informático sobre una
amplia perspectiva de tiempo.
Un Data
Warehouse o Depósito de Datos es una colección de datos orientado a temas,
integrado, no volátil, de tiempo variante, que se usa para el soporte del
proceso de toma de decisiones gerenciales.
Se puede caracterizar un data warehouse haciendo
un contraste de cómo los datos de un negocio almacenados en un data warehouse,
difieren de los datos operacionales usados por las aplicaciones de producción
Base de datos Operacional
|
Data Warehouse
|
Datos Operacionales
|
Datos del negocio para información
|
Orientada a la aplicación
|
Orientada al sujeto
|
Actual
|
Actual + histórico
|
Detallada
|
Detallada + más resumida
|
Cambia continuamente
|
Estable
|
Entre
las principales se tiene:
· Orientado al tema
· Integrado
· De
tiempo variante
· No
volátil
Una primera característica del data
warehouse es que la información se clasifica con base a los aspectos que son de
interés para la empresa. Siendo así, los datos tomados están en contraste con
los clásicos procesos orientados a las aplicaciones.
El ambiente operacional se diseña
alrededor de las aplicaciones y funciones tales como préstamos, ahorros,
tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una
aplicación de ingreso de órdenes puede acceder a los datos sobre clientes,
productos y cuentas. La base de datos combina estos elementos en una estructura
que acomoda las necesidades de la aplicación.
En el ambiente data warehousing se organiza alrededor de sujetos tales
como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante,
éstos pueden ser clientes, productos, proveedores y vendedores. Para una
universidad pueden ser estudiantes, clases y profesores. Para un hospital
pueden ser pacientes, personal médico, medicamentos, etc
El
aspecto más importante del ambiente data warehousing es que la información
encontrada al interior está siempre integrada.
La
integración de datos se muestra de muchas maneras: en convenciones de nombres
consistentes, en la medida uniforme de variables, en la codificación de
estructuras consistentes, en atributos físicos de los datos consistentes,
fuentes múltiples y otros. .
A
través de los años, los diseñadores de las diferentes aplicaciones han tomado
sus propias decisiones sobre cómo se debería construir una aplicación. Los
estilos y diseños personalizados se muestran de muchas maneras.
Se
diferencian en la codificación, en las estructuras claves, en sus
características físicas, en las convenciones de nombramiento y otros.
La
capacidad colectiva de muchos de los diseñadores de aplicaciones, para crear
aplicaciones inconsistentes, es fabulosa.
Codificación. Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. Un diseñador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino".
No
importa mucho cómo el GENERO llega al data warehouse. Probablemente
"M" y "F" sean tan buenas como cualquier otra
representación. Lo importante es que sea de cualquier fuente de donde venga, el
GENERO debe llegar al data warehouse en un estado integrado uniforme.
Por
lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación,
donde ha sido representado en formato "M" y "F", los datos
deben convertirse al formato del data warehouse.
Medida de atributo Los
diseñadores de aplicaciones miden las unidades de medida de las tuberías en una
variedad de formas. Un diseñador almacena los datos de tuberías en centímetros,
otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en
yardas.
Al
dar medidas a los atributos, la transformación traduce las diversas unidades de
medida usadas en las diferentes bases de datos para transformarlas en una
medida estándar común.
Cualquiera
que sea la fuente, cuando la información de la tubería llegue al data warehouse
necesitará ser medida de la misma manera.
Convenciones de Nombramiento.- El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de usuario.
Fuentes
Múltiples.- El mismo elemento puede
derivarse desde fuentes múltiples. En este caso, el proceso de transformación
debe asegurar que la fuente apropiada sea usada, documentada y movida al
depósito.
Cualquiera
que sea la forma del diseño, el resultado es el mismo - la información necesita
ser almacenada en el data warehouse en un modelo globalmente aceptable y
singular, aun cuando los sistemas operacionales subyacentes almacenen los datos
de manera diferente.
Cuando el analista de sistema de soporte de
decisiones observe el data warehouse, su enfoque deberá estar en el uso de los
datos que se encuentre en el depósito, antes que preguntarse sobre la
confiabilidad o consistencia de los dato
Toda la información del data warehouse es requerida en
algún momento. Esta característica básica de los datos en un depósito, es muy
diferente de la información encontrada en el ambiente operacional. En éstos, la
información se requiere al momento de acceder. En otras palabras, en el
ambiente operacional, cuando usted acceda a una unidad de información, usted
espera que los valores requeridos se obtengan a partir del momento de acceso.
Como la información en el data warehouse es solicitada en
cualquier momento (es decir, no "ahora mismo"), los datos encontrados
en el depósito se llaman de "tiempo variante".
Los datos históricos son de poco uso en el
procesamiento operacional. La información del depósito por el contraste, debe
incluir los datos históricos para usarse en la identificación y evaluación de
tendencias
1° La más simple es que la información
representa los datos sobre un horizonte largo de tiempo - desde cinco a diez
años. El horizonte de tiempo representado para el ambiente operacional es mucho
más corto - desde valores actuales hasta sesenta a noventa días.
Las aplicaciones
que tienen un buen rendimiento y están disponibles para el procesamiento de
transacciones, deben llevar una cantidad mínima de datos si tienen cualquier
grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto
horizonte de tiempo, debido al diseño de aplicaciones rígidas.
2° La segunda manera en la que se muestra el
tiempo variante en el data warehouse está en la estructura clave. Cada
estructura clave en el data warehouse contiene, implícita o explícitamente, un
elemento de tiempo como día, semana, mes, etc.
El elemento de
tiempo está casi siempre al pie de la clave concatenada, encontrada en el data
warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el
caso en que un archivo completo se duplica al final del mes, o al cuarto.
3° La
tercera manera en que aparece el tiempo variante es cuando la información del
data warehouse, una vez registrada correctamente, no puede ser actualizada. La
información del data warehouse es, para todos los propósitos prácticos, una
serie larga de "snapshots" (vistas instantáneas
La información es útil sólo cuando es estable. Los datos
operacionales cambian sobre una base momento a momento. La perspectiva más
grande, esencial la manipulación básica de los datos que ocurre en el data
warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga
inicial de datos y el acceso a los mismos. No hay actualización de datos (en el
sentido general de actualización) en el depósito, como una parte normal de
procesamiento.
Hay algunas consecuencias muy importantes de esta
diferencia básica, entre el procesamiento operacional y del data warehouse. En
el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías
no es un factor en el data warehouse, ya que no se hace la actualización de
datos. Esto significa que en el nivel físico de diseño, se pueden tomar
libertades para optimizar el acceso a los datos, particularmente al usar la nacionalización y de nacionalización física.
Otra consecuencia de la simplicidad de la
operación del data warehouse está en la tecnología subyacente, utilizada para
correr los datos en el depósito. Teniendo que soportar la actualización de
registro por registro en modo on-line (como es frecuente en el caso del
procesamiento operacional) requiere que la tecnología tenga un fundamento muy
complejo debajo de una fachada de simplicidad
Los usuarios que accedan a los datos operacionales,
comúnmente efectúan tareas predefinidas que, generalmente requieren acceso a
una sola base de datos de una aplicación. Por el contrario, los usuarios que
accedan al data warehouse, efectúan tareas que requieren acceso a un conjunto
de datos desde fuentes múltiples y frecuentemente no son predecibles. Lo único
que se conoce (si es modelada correctamente) es el conjunto inicial de datos
que se han establecido en el depósito.
Sólo pocos usuarios
acceden a los datos concurrente mente.
En
contraste a la producción de sistemas que pueden manejar cientos o miles de
usuarios concurrentes, al data warehouse acceda un limitado conjunto de
usuarios en cualquier tiempo determinado.
Los usuarios
generan un procesamiento no predecible complejo.
Los
usuarios del data warehouse generan consultas complejas. A veces la respuesta a
una consulta conduce a la formulación de otras preguntas más detalladas, en un
proceso llamado drilling down. El data warehouse puede incluir niveles de
resúmenes múltiples, derivado de un conjunto principal, único, de datos
detallados, para soportar este tipo de uso.
En
efecto, los usuarios frecuentemente comienzan buscando en los datos resumidos y
como identifican áreas de interés, comienzan a acceder al conjunto de datos
detallado. Los conjuntos de datos resumidos representan el "Qué" de
una situación y los conjuntos de datos detallados permiten a los usuarios
construir un cuadro sobre "Cómo" se ha derivado esa situación.
Las consultas de
los usuarios accedan a cantidades grandes de datos.
Debido
a la necesidad de investigar tendencias y evaluar las relaciones entre muchas
clases de datos, las consultas al data warehouse permiten acceder a volúmenes
muy grandes tanto de data detallada como resumida. Debido a los requerimientos
de datos históricos, los data warehouses evolucionan para llegar a un tamaño
más grande que sus orígenes operacionales (de 10 a 100 veces más grande).
Las consultas de
los usuarios no tienen tiempos de respuesta críticos.
Las transacciones operacionales necesitan una
respuesta inmediata porque un cliente puede estar esperando una respuesta. En
el data warehouse, por el contrario, tiene un requerimiento de respuesta
no-crítico porque el resultado frecuentemente se usa en un proceso de análisis
y toma de decisiones. Aunque los tiempos de respuesta no son críticos, los
usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta.
Menor
coste en la toma de decisiones: Se suprime el despilfarro de tiempo que se podía producir al
intentar ejecutar consultas de datos largas y complejas con bases de datos que
estaban diseñadas específicamente para transacciones más cortas y sencillas.
Mayor
flexibilidad ante el entorno: El DW convierte
los datos operacionales en información relacionada y estructurada, que genera
el "conocimiento" necesario para la toma de decisiones. Esto permite
establecer una base única del modelo de información de la organización, que
puede dar lugar a una visión global de la información en base a los conceptos
de negocio que tratan los usuarios. Además, aporta una mejor calidad y
flexibilidad en el análisis del mercado, y del entorno en general.
Mejor
servicio al cliente: Todo lo que hemos dicho en el punto anterior implica
una importante mejora en la calidad de gestión, lo que también repercute en la
relación con el cliente, que es, como sabemos, uno de los pilares básicos en
los que descansa cualquier organización ajustada
Rediseño
de procesos: Ofrecer a
los usuarios una capacidad de análisis de la información de su negocio que
tiende a ser ilimitada y permite con frecuencia obtener una visión más profunda
y clara de los procesos de negocio propiamente dichos, lo que a su vez permite
obtener ideas renovadoras para la rediseño de los mismos.
Alineamiento con los objetivos de rightsizing: Se
distribuye cada vez más en toda la organización la responsabilidad en la toma
de decisiones. Esta capacidad de decisiones distribuidas es cada vez más
necesaria para el rightsizing de las empresas, y es uno de los aspectos en los
que el DW puede aportar una contribución esencial. En conclusión, el
concepto de DW abarca mucho más que simplemente copiar datos operacionales a
una base de datos informacional distinta
Componentes Del
Data WareHouse.
Fuentes de datos: Este componente es el
que normalmente está presente originariamente en las organizaciones, y a partir
del cual se realiza la captura de datos que se contemplará en el DW. Estas
fuentes de datos pueden ser sistemas operacionales corporativos (representan el
entorno del que se obtienen la mayor parte de los datos significativos de la
operativa diaria de la compañía), sistemas operacionales departamentales y
fuentes externas.
Extracción y transformación: Este es el
componente responsable de que la información pueda moverse, con las
transformaciones que sean necesarias, desde las fuentes de datos que acabamos
de mencionar, al DW. En este sentido hay que decir que por DW puede entenderse
tanto el sistema completo como únicamente las bases de datos en las que se
almacenan tanto la información extraída de los sistemas anteriores como los
metadatos.
Servidor de datos: También
podría denominarse componente de gestión. Los servicios que debe ofrecer
incluyen un servicio de mantenimiento de datos y un servicio de distribución
para exportar datos del DW a servidores de bases de datos descentralizadas y a
otros sistemas de soporte de decisiones de usuario. El componente de gestión
también ofrece servicios de seguridad (archivo, backup, recuperación) y
monitorización. Generalmente estos servicios utilizan los medios suministrados
por el software del sistema operativo y de bases de datos subyacente. El
componente de SGBD (Sistema de Gestión de Bases de Datos) consiste en
el software de base de datos que se utilice para mantener y extraer datos. Hay
dos enfoques diferentes para el almacenamiento de la información: las bases de
datos relacionales y las multidimensionales. Así, tendremos gestores de
bases de datos relacionales(SGBDR) o gestores de bases de datos
multidimensionales (SGBDM). A continuación se discuten las ventajas e
inconvenientes de ambas tecnologías de bases de datos.
Ventajas
- Proceso de consultas muy rápido en preguntas predeterminadas, aprovechando las dimensiones definidas en la BD (tiempo, geográficas, etc.).
- Alta oferta de productos.
- Independencia de plataforma.
- Permite todo tipo de consultas no predeterminadas.
- Alta escalabilidad.
- Altas prestaciones en los productos punteros.
Inconvenientes
- El tratamiento de las consultas no previstas (fuera de sus dimensiones) es muy lento.
- Aumentar el número de dimensiones supone "explosionar" el tamaño de la base de datos.
- Falta de estándares.
- Proceso lento en consultas complejas, en bases de datos muy grandes, si no se cuenta con plataforma paralela y capacidad de consultas paralelizadas
Herramientas de acceso
Sin las herramientas adecuadas de acceso y análisis el DW se
puede convertir en una amalgama de datos sin ninguna utilidad. Es necesario
poseer técnicas que capturen los datos importantes de manera rápida y puedan
ser analizados desde diferentes puntos de vista. También deben transformar los
datos capturados en información útil para el negocio. Actualmente a este tipo
de herramientas se las conocen como "business intelligence tool" (BIT)
y están situadas conceptualmente sobre el DW
HERRAMIENTAS OLAP
Las herramientas OLAP ofrecen un mayor poderío para
revisar, graficar y visualizar información multidimensional, en características
temporales, espaciales o propias. Lenguajes restringidos y estructurados como
SQL no son suficientes para el carácter explorador del OLAP. La consulta
enunciada con SQL es motivada por una hipótesis muy concreta. Las aplicaciones
y los reportes generados de una base de datos en línea, asumen que es la
información necesaria para la administración cotidiana de la actividad de
negocio y que sólo de manera esporádica se requerirá de otra información








