INTRODUCCION

 

El Data Warehouse, es actualmente el centro de atención de las grandes instituciones, porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que está siendo administrada por diversas aplicaciones operacionales.

Un Data Warehouse es una colección de datos en la cual se encuentra integrada la información de la Institución y que se usa como soporte para el proceso de toma de decisiones gerenciales. Aunque diversas organizaciones y personas individuales logran comprender el enfoque de un Warehouse, la experiencia ha demostrado que existen muchas dificultades potenciales.

Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un ambiente integral centralizado, simplifica el problema de acceso a la información y en consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la información.

Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene realizando procesos independientes y muchas veces complejos.

Un data warehouse se crea al extraer datos desde una o más bases de datos de aplicaciones operacionales. La data extraída es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la información Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más responsabilidad.

La innovación de la Tecnología de Información dentro de un ambiente data warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen que aprovechar sus recursos de información para crear la información de la operación del negocio, pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una arquitectura completa de data warehouse.

Se puede caracterizar un data warehouse haciendo un contraste de cómo los datos de un negocio almacenados en un data warehouse, difieren de los datos operacionales usados por las aplicaciones de producción.

 

Base de Datos Operacional

Data Warehouse

Datos Operacionales

Datos del negocio para Información

Orientado a la aplicación

Orientado al sujeto

Actual

Actual + histórico

Detallada

Detallada + más resumida

Cambia continuamente

Estable

 

 

Diferentes tipos de información

 

El ingreso de datos en el data warehouse viene desde el ambiente operacional en casi todos los casos. El data warehouse es siempre un almacén de datos transformados y separados físicamente de la aplicación donde se encontraron los datos en el ambiente operacional.

 

Ciclo de Desarrollo

 

El Data Warehouse sigue el mismo ciclo de perfeccionamiento que todos los desarrollos de software. Las fases del ciclo son las mismas, lo mismo que su secuencia, sólo existen variantes únicas que se relacionan específicamente con el Data Warehouse para tareas dentro de estas fases. La siguiente figura muestra el ciclo clásico de desarrollo de software:

 

 

 

                 

 

Planeación

 

La planeación es una fase importante de la implementación del Data Warehouse. Las decisiones tomadas durante la fase de planeación tienen un impacto significativo en el ámbito de implementación y en la magnitud del esfuerzo. Las decisiones clave de planeación incluyen la selección de un enfoque de arriba hacia abajo (de lo general a lo particular), de abajo hacia arriba (en sentido opuesto) o combinado; la selección de la arquitectura apropiada de Data Warehouse; la selección adecuada del ámbito de información, fuentes de datos y tamaño del metamodelo; y la estimación de planes de programa y proyecto y justificaciones de presupuesto.
...

 

Requerimientos

 

Durante la fase de requerimientos se debe considerar una diversidad de ellos. Los requerimientos son conducidos por el negocio y por la tecnología. La cuidadosa selección y especificación de requerimientos en esta etapa proporciona un proyecto cimentado que arroja resultados con rapidez.

 

Análisis

La fase de análisis es importante ya que determina la forma en que se cubrirán los requerimientos. Esta fase se enfoca principalmente en la conversión de especificaciones de requerimientos a especificaciones de metamodelo para el Data Warehouse. Después, estas especificaciones se usan para generar extractores del Data Warehouse y software de transformación, integración, resumen y adición.

 

Construcción

 

La fase de construcción resalta los diversos intercambios "construir en comparación con comprar". Mediante la selección adecuada de componentes suministrados por fabricantes, es posible construir una primera implementación del Data Warehouse rápida y eficaz.

 

Despliegue

 

La fase de despliegue en el ciclo de desarrollo del Data Warehouse tiene un componente único denominado comercialización de información. Esto reconoce que la mercancía que suministra el Data Warehouse a sus usuarios finales (clientes) es la propia información. Como un producto de mercancía, la información también debe comercializarse como los bienes de consumo. La comercialización comprende la capacidad de hacer énfasis en la disponibilidad, los beneficios y el empaque para hacerla atractiva al usuario final.

 

 

 

 

 

 

 

 

CARACTERÍSTICAS

 

 

 

VARIACIÓN TEMPORAL

 

El almacén de datos contiene un lugar para guardar datos con una antigüedad de 5 a 10 años o incluso más antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificaran.        

 

 

                                     

 

 

 

NO SON INESTABLES

 

Los datos no serán modificados o cambiados de ninguna manera, una vez que ellos han sido introducidos en el almacén de datos, solamente podrán ser cargados leídos y/o accedidos.

 

 

 

ORIENTADO AL TEMA O AL SUJETO

 

 

Los datos se organizan de acuerdo al sujeto o al tema en vez de la aplicación, por Ej. Una compañía de seguros, usando un almacén de datos podría organizar sus datos por clientes, premios y reclamaciones, en lugar de por diferentes productos (automóviles, vida, etc.). Los datos organizados por sujetos y/o temas contienen solo la información necesaria para los procesos de la toma de decisiones.

Otros ejemplos graficados:

 

 

 

 

 

 

INTEGRACIÓN

 

Cuando los datos residen en  muchas aplicaciones separados por los distintos entornos operacionales, la descodificación de los datos es a menudo inconsistente. Por ejemplo en una aplicación la palabra GENDER podría codificarse como “m” y “f”, en otra como “0” y “1”, cuando los datos fluyen de un entorno operacional a un entorno de almacén de datos o de Data Warehouse, ellos asumen una codificación consistente, por ejemplo GENDER siempre se transformaría a “m” y “f”.

 

 

 

 

ESTRUCTURA DEL DATA WAREHOUSE

 

 

Los data warehouses tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5.

 

 

En la figura, se muestran los diferentes componentes del data warehouse y son:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A veces se encuentra en el ambiente de data warehouse y en otros, fuera del límite de la tecnología que ampara al data warehouse. (De todos modos, los datos completamente resumidos son parte del data warehouse sin considerar donde se alojan los datos físicamente.)

La metadata juega un rol especial y muy importante en el data warehouse y es usada como:

 

La metadata juega un papel mucho más importante en un ambiente data warehousing que en un operacional clásico.

A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el ejemplo mostrado en la Figura N° 6.

El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los archivos) son almacenados en el nivel de detalle de datos más antiguo.

El detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el año actual). En general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la información de ventas llegue a estar disponible en el ambiente operacional.

 

En otras palabras, habría un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la información de la venta haya ingresado al data warehouse.

El detalle de las ventas son resumidas semanalmente por línea de subproducto y por región, para producir un almacenamiento de datos ligeramente resumidos.

El detalle de ventas semanal es adicionalmente resumido en forma mensual, según una gama de líneas, para producir los datos completamente resumidos.

La metadata contiene (al menos):

La información adicional que no se esquematiza es almacenada en el data warehouse. En muchas ocasiones, allí se hará el análisis y se producirá un tipo u otro de resumen. El único tipo de esquematización que se almacena permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. En otras palabras, si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente, entonces la esquematización no es almacenada en el data warehouse.

 

 

ARQUITECTURA

 

 

La estructura básica de la arquitectura Data Warehouse  (DW) incluye:

  1. Datos operacionales: Un origen de datos para el componente de almacenamiento físico DW.
  2. Extracción de datos: Selección sistemática de datos operacionales usados para poblar el componente de almacenamiento físico DW.
  3. Transformación de datos:  procesos para sumarizar y realizar otros cambios en los datos operacionales para reunir los objetivos de orientación a temas e integración principalmente.
  4. Carga de datos: Inserción sistemática de datos en el componente de almacenamiento físico DW.
  5. Data Warehouse: almacenamiento físico de datos de la arquitectura DW.
  6. Herramientas de acceso al componente de almacenamiento físico DW: herramientas que proveen acceso a los datos.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


                                                                                                                                                     

Cilindro: Herramientas de acceso de datos
 

 

 

 

 


ESTRUCTURA BÁSICA DW . Los pasos 2, 3 y 4, conforman el proceso conocido como ETT (Extracción, Transformación y Transporte).

 

EXTRACCION

 

Potencial

 

El Data Warehouse no produce resultados en forma mágica. Los administradores de empresas y los analistas deben acceder y recuperar los datos del Data Warehouse y convertirlos en información y en hechos. Estos hechos conforman los cimientos de una base de conocimientos que sirve para determinar la salud de la empresa y la dirección futura del negocio. Como en las granjas, los usuarios sólo cosecharán la información que se pueda derivar de los datos que sembraron en el Data Warehouse, y sólo mediante el uso de las herramientas de cosecha adecuadas. Algunas de las herramientas de cosecha necesarias son: las de acceso y recuperación, las de reportes de base de datos, las de análisis y las de data mining.

Uno de los retos al cosechar un Data Warehouse consiste en no convertir montículos de información en montañas de datos. Es fácil caer en la trampa de "entre más, mejor". No es esencial conocer todos los hechos, sólo los cruciales. Como ejemplo, una campaña de ropa para niños necesita cosechar exacta y rentablemente sólo aquellas familias que tienen niños.

 

 

Extracción

 

Herramientas de soporte de decisiones es el término genérico para referirse a las aplicaciones y herramientas del Data Warehouse que se emplean para recuperar, manipular y analizar los datos, y para presentar después los resultados. Estas herramientas se usan en dos modalidades: verificación y descubrimiento. En la modalidad de verificación, el usuario empresarial crea una hipótesis -una cuestión empresarial- e intenta confirmarla accediendo a los datos en el Data Warehouse. Las herramientas que implementan la modalidad de verificación son de consulta, de sistemas de reporte y de análisis multidimensional. En la modalidad de descubrimiento, las herramientas intentan descubrir características en los datos como patrones de compra o la asociación entre la adquisición de artículos diferentes. En la modalidad de descubrimiento, o eureka, el usuario empresarial no conoce ni sospecha los patrones y asociaciones descubiertos. La herramienta de Data Mining es un ejemplo de la modalidad de descubrimiento. Desde la perspectiva de disponibilidad de herramientas, las dos modalidades de verificación y descubrimiento se clasifican en tres enfoques: Procesamiento Informático, Procesamiento Analítico y Data Mining.

 

 

                  

 

 

 

PROCESAMIENTO INFORMATICO

 

   La recuperación de la inversión en un Data Warehouse se basa en la capacidad de los usuarios empresariales para extraer los datos correctos del Data Warehouse, convertirlos en información y luego utilizar esa información para tomar mejores decisiones. Los usuarios empresariales pretenden extraer los datos correctos con una mínima inversión en tiempo y sin complicaciones.

A los ejecutivos y gerentes de alto nivel les interesa ver los resultados de una actividad de procesamiento informático en forma de reportes, cuadros y gráficas. Los gerentes desean acceder a consultas estándar de rutina. Un ambiente de 'consulta administrativa' cubre la mayoría de sus necesidades. El procesamiento informático apoya a la modalidad de verificación del soporte de decisiones. Comprende técnicas como análisis estadísticos básicos y de datos, consultas y reportes. Los datos que se acceden y procesan pudieran ser históricos o bastante recientes, y pudieran estar un poco o muy resumidos. Los resultados se presentan en forma de reportes o gráficas.

   El procesamiento informático asiste a los usuarios empresariales en la búsqueda de respuestas a cuestiones empresariales, como las siguientes:

• ¿Cuáles fueron los ingresos por ventas en el fin de semana del Día de Acción de Gracias (nuestro mejor fin de semana de ventas) para todas las tiendas del medio oeste, con corte por departamento?

• ¿Cuáles fueron los diez artículos más rentables durante la venta posterior   a la Navidad? ¿Cuáles fueron los diez menos rentables?

• ¿Cómo se comparan las ventas del Día de Acción de Gracias con las del mismo fin de semana, en los últimos cinco años, por departamento y tienda?

 

PROCESAMIENTO ANALITICO

 

También el procesamiento analítico apoya a la modalidad de verificación del soporte de decisiones. Su meta consiste en hacer que los datos estén disponibles para el usuario de la empresa en su perspectiva de las dimensiones empresariales. Se pueden responder e interpretar preguntas complejas como "¿Cuántos automóviles vendimos en Estados Unidos en el primer trimestre de 1995 que tuvieran un sistema de audio CD, con un precio de 25,000 dólares o menos?'. Este procesamiento maneja capacidades de análisis de subconjuntos (slice and dice), profundización (drill-down) y condensación y adición (roll-up). Los datos que se emplean en el procesamiento analítico son, por lo general, históricos tanto a nivel de resumen como al de detalle.

   Los gerentes y analistas empresariales requieren la funcionalidad del procesamiento analítico cuando deben responder preguntas complejas corno las siguientes:

• ¿Cuántos esquíes de nieve fabricados por SpeedSkiDown, Inc., se vendieron a hombres en el mes de noviembre, en nuestras tiendas de las regiones del medio oeste, del noroeste y de la Montaña?

• ¿Cómo se compara lo programando con lo real del mismo mes en los dos últimos años?

• ¿Cuántas minivans azules teníamos en inventario (al fin del trimestre) con un reproductor de discos compactos y un tercer asiento, cuando la lista de precios era menor de $19,995? Se requieren totales por condado para cada trimestre de los últimos cinco años, comparar lo real contra lo planeado, y comparar el inventario de cada trimestre con el del anterior y el del siguiente?

   Los gerentes ejecutivos saben que "el futuro pertenece a quienes pueden verlo y llegar ahí primero". Por tal razón, los ejecutivos y gerentes empresariales no sólo comprenden "lo que pasa en el negocio", sino también "que va a suceder". El procesamiento analítico se utiliza tanto para análisis históricos complejos, con una extensa manipulación, como para la planeación a futuro y pronóstico -el pasado como prólogo del futuro.

   Los datos empresariales son, de hecho, multidimensionales. Se encuentran relacionados y regularmente son jerárquicos; por ejemplo, los datos de ventas, los datos del inventario y los pronósticos de presupuestos están interrelacionados y dependen entre sí. En la práctica, para predecir las ventas de un nuevo producto específico, se requiere analizar los patrones de compras anteriores, la adopción de nuevos productos, las preferencias regionales y otros factores empresariales similares. La proyección de ventas para nuestra cuestión de los "esquíes de SpeedSkiDown, Inc.", requiere comprender los patrones de ventas de los últimos años.

 

 

Análisis Multidimensional

 

Tanto para la eficiencia operativa como para la planeación a futuro, se deben analizar muchos datos empresariales interrelacionados. Esta necesidad empresarial se aborda mediante el procesamiento analítico. En éste, el enfoque está en el análisis de los datos, específicamente en el análisis multidimensional.

En el análisis multidimensional, los datos se representan mediante dimensiones como producto, territorio y cliente. Por lo regular las dimensiones se relacionan en jerarquías, por ejemplo, ciudad, estado, región, país y continente; o estado, territorio y región. El tiempo es también una dimensión estándar con su propia jerarquía como: día, semana, mes, trimestre y año; o día y año calendario.

 

 

 

Procesamiento Analítico en Línea (OLAP)

 

En un Data Warehouse se depositan datos para consulta, análisis y divulgación, a diferencia del procesamiento de transacciones en línea (OLTP por la sigla de On-Line Transaction Processing), en donde los datos se reúnen y almacenan para operación y control. OLAP es una tecnología de procesamiento analítica que crea nueva información empresarial a partir de los datos existentes, por medio de un rico conjunto de transformaciones empresariales y cálculos numéricos.

El procesamiento analítico en línea es una tecnología de análisis de datos que hace lo siguiente:

• Presenta una visión multidimensional lógica de los datos en el Data Warehouse. La visión es independiente de cómo se almacenan los datos.

• Comprende siempre la consulta interactiva y el análisis de los datos. Por lo regular la interacción es de varias pasadas, lo cual incluye la profundización en niveles cada vez más detallados o el ascenso a niveles superiores de resumen y adición.

• Ofrece opciones de modelado analítico, incluyendo un motor de cálculo para obtener proporciones, desviaciones, etc., que comprende mediciones de datos numéricos a través de muchas dimensiones.

• Crea resúmenes y adiciones (también conocidas como consolidaciones), jerarquías, y cuestiona todos los niveles de adición y resumen en cada intersección de las dimensiones.

• Maneja modelos funcionales de pronóstico, análisis de tendencias y análisis estadísticos.

• Recupera y exhibe datos tabulares en dos o tres dimensiones, cuadros y gráficas, con un pivoteo fácil de los ejes. El pivoteo es fundamental ya que los usuarios empresariales necesitan analizar los datos desde perspectivas diferentes; y el análisis desde una perspectiva conduce a otra cuestión empresarial que se va a examinar desde otra perspectiva.

• Responde con rapidez a las consultas, de modo que el proceso de análisis no se interrumpe y la información no se desactualiza.

• Tiene un motor de depósito de datos multidimensional, que almacena los datos en arreglos. Estos arreglos son una representación lógica de las dimensiones empresariales.

La tecnología OLAP se aplica en muchas áreas funcionales de una empresa, tales como: Producción, ventas y análisis de rentabilidad de la comercialización; mezcla de manufacturas y análisis de logística; consolidaciones financieras, presupuestos y pronósticos, planeación de impuestos y contabilidad de costos. 

 

 

DATA MINING

 

El Data Mining apoya la modalidad de descubrimiento del soporte de decisiones. Las herramientas de Data Mining recorren los datos detallados de transacciones para desenterrar patrones y asociaciones ocultos. Por lo regular los resultados generan extensos reportes o se les analiza con herramientas de visualización de datos descubiertos.

   El procesamiento informático es excelente y rentable para el despliegue masivo de consultas, análisis y reportes de datos de dos o tres dimensiones. Las herramientas de procesamiento analítico permiten diversas visualizaciones de los datos, como ventas por marca, tienda, temporada y periodos de tiempo, las cuales se pueden definir, consultar y analizar. Las herramientas de Data Mining son esenciales para comprender el comportamiento de los clientes.

 

Usuarios del Data Mining

 

Los usuarios clave en perspectiva del Data Mining son los analistas empresariales, los peritos en estadística y los profesionales en tecnología de la información que auxilian a los usuarios empresariales. Quienes obtienen beneficios de los resultados del Data Mining son los gerentes empresariales y los ejecutivos, que desean entender los factores de éxito del negocio con base de datos completos del cliente y, utilizar luego, este conocimiento para afinar las estrategias de producción, precios y comercialización; mejorar el nivel de éxito de las estrategias; e impulsar el balance.

Hasta la fecha, las empresas han dependido del procesamiento informático y analítico para medir y comprender la estabilidad de un negocio. El procesamiento informático consultas y reportes- es más sencillo de usar, pero requiere de una estrecha dirección del analista (ver figura). Los analistas preguntan cuestiones específicas y verifican las cuestiones o hipótesis con los datos. Para este fin, los datos deben estar bien organizados. El procesamiento analítico (OLAP) requiere de menos dirección del analista, aunque los datos deben estar organizados en una forma especial (base de datos multidimensional), o accederse bien de manera especial (visión multidimensional). En ocasiones se utiliza una combinación de técnicas de consulta y OLAP para comprender el comportamiento del cliente o para construir perfiles de segmentos de mercado; pero el proceso de aplicar estas técnicas es conducido esencialmente por el analista empresarial. En estos casos, este proceso también se conoce como Data Mining y se define como la modalidad de descubrimiento del soporte de decisiones, la cual es conducida por los datos y no por el analista empresarial.

 

 

 

 

Función del analista empresarial y de los datos

 

                  

 

 

 

 

 

 

 

 

 

 

DIFERENCIAS: Data Warehouse vs. OLTP

 

Los sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing son polos opuestos en cuanto a sus requerimientos de diseño y sus características de operación. Es de suma importancia comprender perfectamente estas diferencias para evitar caer en el diseño de un Data Warehouse como si fuera una aplicación de transacciones en línea (OLTP).

Las aplicaciones de OLTP están organizadas para ejecutar las transacciones para los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de inventario, etc. Por otro lado, un Data Warehouse está organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc.

Otra diferencia radica en el número de usuarios. Normalmente, el número de usuarios de un Data Warehouse es menor al de un OLTP. Es común encontrar que los sistemas transaccionales son accedidos por cientos de usuarios simultáneamente, mientras que los Data Warehouse sólo por decenas. Los sistemas de OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamaño a los Data Warehouse, esto es debido a que un Data Warehouse puede estar formado por información de varios OLTP´s.

Existen también diferencia en el diseño, mientras que el de un OLPT es extremadamente normalizado, el de un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente está formado por un número mayor de tablas, cada una con pocas columnas, mientras que en un Data Warehouse el número de tablas es menor, pero cada una de éstas tiende a ser mayor en número de columnas.

Los OLTP son continuamente actualizados por los sistemas operacionales del día con día, mientras que los Data Warehouse son actualizados en batch de manera periódica.

Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los Data Warehouse sufren cambios constantes derivados de su evolución. Esto se debe a que los tipos de consultas a los cuales están sujetos son muy variados y es imposible preverlos todos de antemano.

OLPT

OLPT

Data Warehouse

- Orientada a transacciones
- Detallada
- Actualizada en línea
- Usuarios de nivel operativo
- Corre en base a repeticiones
- Muy sensitivo al desempeño
- Accesa unidades a la vez
- Orientado a operación
- Estructura estática
- Sin redundancia
- Alta probabilidad de acceso
- Administrada como un todo
- Información bruta (Datos)
- Actualizada en línea
- Muchas tablas con pocas columnas

- Orientada a Conceptos
- Sumarizada
- Representa valores a un tiempo (snapshot)
- Usuarios de nivel gerencial
- Corre heurísticamente
- Poco sensitivo al desempeño
- Accesa conjuntos de unidades a la vez
- Orientado a análisis
- Estructura flexible
- Con mucha redundancia
- Modesta probabilidad de acceso
- Administrada por partes
- Información procesada (Información)
- Actualizada en Batch
- Pocas tablas con muchas columnas

 

 

 

 

 

 

 

COMO CONSTRUIR Y MANEJAR UN DATA WAREHOUSE

 

 

 

Proceso de Srubbing

 

Si la organización tiene muchos datos de aplicaciones tradicionales y está buscando una solución para transferir grandes volúmenes de datos de un Mainframe, se necesita una solución de Bodega de Datos de fuerza industrial para hacer transferencia bruta de datos diferentes de fuentes en Mainframes a Bodegas de Datos en DB2 o en Unix.

 

Se requiere de alguna herramienta para llenar y actualizar la Bodega de Datos que realice extracción de datos a altas velocidades y altos volúmenes de datos, traslade y distribuya de múltiples y diferentes Bases de Datos en Mainframes en la BODEGA y elimine la necesidad de escribir complejos programas y rutinas de conversión.

 

Distribución de datos es el proceso de mover los datos extraídos y trasladarlos a la Bodega de Datos o a diferentes Bases de Datos en cualquier plataforma en cualquier sitio. Una herramienta de distribución define Base de Datos Objetivo, información de conversión y entrada/salida de datos. Una vez creadas estas definiciones, pueden ser salvadas para ser reutilizadas, editadas o ejecutadas posteriormente.

 

Manejo de los Metadatos

 

El repositorio sirve como un sitio para almacenar los datos de los activos de información de una organización. Abarca todos los datos de la organización, sin importar cual es la fuente original y facilita el entendimiento de toda la empresa y controla la existencia de los recursos de datos existentes.

 

El repositorio sirve como guía para definir un ambiente de migración de datos y contiene:

 

 

El repositorio también racionaliza el desarrollo de aplicaciones a través de Documentación, repartición de datos, reutilización y estandarización. Los metadatos almacenan herramientas CASE, programas existentes y estructuras de datos.

Existen facilidades para lograr que los usuarios no técnicos puedan acceder la información a nivel de metadatos con herramientas intuitivas, fáciles de usar y de hacer análisis de tipo Drill-Down de tópicos generales a categorías más específicas de metadatos predeterminados. Este tipo de herramientas proveen al usuario final de una cabina virtual de datos que les permite a  través del mouse ir a cajones gráficos, a los folders dentro  de los cajones y páginas de apuntes rotuladas.

 

Acceso y Análisis de Datos

 

Una vez que la Bodega de Datos se ha llenado de información, los usuarios finales pueden acceder y analizar los datos. Para satisfacer las necesidades de usuarios finales en cualquier plataforma, se provee de algunas herramientas especializadas para hacer reportes y queries, para desarrolladores de aplicaciones de oficina y usuarios que necesitan revisar datos suministrados de la Bodega así como crecientes niveles de detalle.

 

Manejo de Sistemas

 

La Base de Datos de la Bodega debe ser frecuentemente mantenida y manejada por DBA´s para reducir el impacto en el desempeño del sistema y recursos.  Para ser eficiente y productivo, el proceso de Bodega de Datos debe ser automatizado dentro de un ambiente de producción. Las herramientas necesarias para su mantenimiento, se clasifican en:

 

Construcción de la Bodega de Datos

 

Para construir una Bodega de Datos  es necesario saber algunos temas generales, que se agrupan en los siguientes tópicos:

 

 

 

 

Ambiente Actual:

 

Es necesario entender el negocio y el ambiente tecnológico actual de la Organización, para  construir una bodega que sirva. Cualquier solución propuesta de Bodega de Datos debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura técnica existente y planeada de la compañía.

 

Ambiente de Negocios:

 

Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la Organización y el soporte que representa la información dentro de todo su proceso de toma de decisiones.

 

Ambiente Técnico:

 

Se debe tener un claro concepto desde una perspectiva técnica de los Sistemas de Información de la Organización. En este análisis se debe tener claridad del ambiente técnico actual y futuro a nivel de detalle. Se debe incluir tanto el aspecto de ambiente hardware: mainframes, servidores, redes, así como aplicativos y herramientas.

 

Expectativas de los usuarios:

 

Este es determinante en el éxito de un proyecto de Bodega de Datos puesto que Bodega de Datos no es un proyecto tecnológico, es una forma de Vida de Las Organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad.

 

Estrategia Recomendada

 

 

Prototipo: provee a los usuarios finales una aproximación de lo que la Bodega de Datos les puede proporcionar en un período de tiempo corto, para que el grupo de Bodega de Datos pueda demostrar los beneficios de la Bodega de Datos a los usuarios y recolectar lo más pronto la retroalimentación crítica de los usuarios. En la Bodega de Datos esto quiere decir que los datos deben ser llevados e integrados y cargados en estructuras   de Datos apropiadas.

 

Deben ser distribuidas herramientas de acceso de datos a usuarios finales y aplicaciones para realizar queries. Deben ser creadas herramientas de soporte en la Decisión si es aplicable.

 

 

El piloto de la Bodega de Datos, es la primera fase del proyecto en el cual el equipo de Bodega de Datos utilizará los métodos, técnicas y herramientas que será la base para una Bodega de Datos completa. Por esta razón el proyecto piloto de Bodega de Datos debe tener un pequeño alcance y tiempo adicional comparativamente con los esfuerzos sucesivos de Bodega de Datos.

 

 

La Prueba del concepto tecnológico: es un paso opcional que se puede necesitar para definir si la arquitectura especificada para la Bodega de Datos funcionará. Dada esta meta el hecho de proveer factibilidad técnica durante el prototipo podría adicionar enormes e inaceptables riesgos al prototipo.

 

 

Dependiendo de la estructura interna de los datos de la Bodega y especialmente del tipo de consultas a realizar, se diseña la arquitectura de la Bodega de datos. Con este criterio los datos deben ser repartidos entre numerosos Data Marts.

 

Los Datos de los sistemas de Aplicación y de otras fuentes de Bodegas de Datos deben ser periódicamente extraídos y alimentados en la capa de Data Scrubbing. La extracción debe ser realizada en muchos casos utilizando los programas para acompañar éstas tareas. El Data Scrubbing  debe ser hecho ya sea con ayuda de herramientas de scrubbing tales como Platinum Infopump.

 

Factores de riesgo

 

Es importante conocerlos para poder monitorearlos y son:

 

 

 

 

 

 

 

lafacu.com no se responsabiliza por el uso que otros o terceros, puedan darle a esta información.