INTRODUCCION
El
Data Warehouse, es actualmente el centro de atención de las grandes
instituciones, porque provee un ambiente para que las organizaciones hagan un
mejor uso de la información que está siendo administrada por diversas
aplicaciones operacionales.
Un
Data Warehouse es una colección de datos en la cual se encuentra integrada la
información de la Institución y que se usa como soporte para el proceso de toma
de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales.
Reunir
los elementos de datos apropiados desde diversas fuentes de aplicación en un
ambiente integral centralizado, simplifica el problema de acceso a la
información y en consecuencia, acelera el proceso de análisis, consultas y el
menor tiempo de uso de la información.
Las
aplicaciones para soporte de decisiones basadas en un data warehousing, pueden
hacer más práctica y fácil la explotación de datos para una mayor eficacia del
negocio, que no se logra cuando se usan sólo los datos que provienen de las
aplicaciones operacionales (que ayudan en la operación de la empresa en sus
operaciones cotidianas), en los que la información se obtiene realizando
procesos independientes y muchas veces complejos.
Un
data warehouse se crea al extraer datos desde una o más bases de datos de
aplicaciones operacionales. La data extraída es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargadas en el data
warehouse. El proceso de transformar, crear el detalle de tiempo variante,
resumir y combinar los extractos de datos, ayudan a crear el ambiente para el
acceso a la información Institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con más responsabilidad.
La
innovación de la Tecnología de Información dentro de un ambiente data
warehousing, puede permitir a cualquier organización hacer un uso más óptimo de
los datos, como un ingrediente clave para un proceso de toma de decisiones más
efectivo. Las organizaciones tienen que aprovechar sus recursos de información
para crear la información de la operación del negocio, pero deben considerarse
las estrategias tecnológicas necesarias para la implementación de una
arquitectura completa de data warehouse.
Se
puede caracterizar un data warehouse haciendo un contraste de cómo los datos de
un negocio almacenados en un data warehouse, difieren de los datos operacionales
usados por las aplicaciones de producción.
Base
de Datos Operacional |
Data
Warehouse |
Datos
Operacionales |
Datos
del negocio para Información |
Orientado
a la aplicación |
Orientado
al sujeto |
Actual
|
Actual
+ histórico |
Detallada
|
Detallada
+ más resumida |
Cambia
continuamente |
Estable |
El
ingreso de datos en el data warehouse viene desde el ambiente operacional en
casi todos los casos. El data warehouse es siempre un almacén de datos
transformados y separados físicamente de la aplicación donde se encontraron los
datos en el ambiente operacional.
Ciclo
de Desarrollo
El
Data Warehouse sigue el mismo ciclo de perfeccionamiento que todos los
desarrollos de software. Las fases del ciclo son las mismas, lo mismo que su
secuencia, sólo existen variantes únicas que se relacionan específicamente con
el Data Warehouse para tareas dentro de estas fases. La siguiente figura muestra
el ciclo clásico de desarrollo de software:
Planeación
La
planeación es una fase importante de la implementación del Data Warehouse. Las
decisiones tomadas durante la fase de planeación tienen un impacto significativo
en el ámbito de implementación y en la magnitud del esfuerzo. Las decisiones
clave de planeación incluyen la selección de un enfoque de arriba hacia abajo
(de lo general a lo particular), de abajo hacia arriba (en sentido opuesto) o
combinado; la selección de la arquitectura apropiada de Data Warehouse; la
selección adecuada del ámbito de información, fuentes de datos y tamaño del
metamodelo; y la estimación de planes de programa y proyecto y justificaciones
de presupuesto.
...
Requerimientos
Durante
la fase de requerimientos se debe considerar una diversidad de ellos. Los
requerimientos son conducidos por el negocio y por la tecnología. La cuidadosa
selección y especificación de requerimientos en esta etapa proporciona un
proyecto cimentado que arroja resultados con rapidez.
Análisis
La
fase de análisis es importante ya que determina la forma en que se cubrirán los
requerimientos. Esta fase se enfoca principalmente en la conversión de
especificaciones de requerimientos a especificaciones de metamodelo para el Data
Warehouse. Después, estas especificaciones se usan para generar extractores del
Data Warehouse y software de transformación, integración, resumen y
adición.
Construcción
La
fase de construcción resalta los diversos intercambios "construir en comparación
con comprar". Mediante la selección adecuada de componentes suministrados por
fabricantes, es posible construir una primera implementación del Data Warehouse
rápida y eficaz.
Despliegue
La
fase de despliegue en el ciclo de desarrollo del Data Warehouse tiene un
componente único denominado comercialización de información. Esto
reconoce que la mercancía que suministra el Data Warehouse a sus usuarios
finales (clientes) es la propia información. Como un producto de mercancía, la
información también debe comercializarse como los bienes de consumo. La
comercialización comprende la capacidad de hacer énfasis en la disponibilidad,
los beneficios y el empaque para hacerla atractiva al usuario
final.
El
almacén de datos contiene un lugar para guardar datos con una antigüedad de 5 a
10 años o incluso más antiguos, para poder ser usados en comparaciones,
tendencias y previsiones. Estos datos no se modificaran.
Los
datos no serán modificados o cambiados de ninguna manera, una vez que ellos han
sido introducidos en el almacén de datos, solamente podrán
ser cargados leídos y/o accedidos.
ORIENTADO AL TEMA O AL
SUJETO
Los
datos se organizan de acuerdo al sujeto o al tema en vez de la aplicación, por
Ej. Una compañía de seguros, usando un almacén de datos podría organizar sus
datos por clientes, premios y reclamaciones, en lugar de por diferentes
productos (automóviles, vida, etc.). Los datos organizados por sujetos y/o temas
contienen solo la información necesaria para los procesos de la toma de
decisiones.
Otros
ejemplos graficados:
Cuando
los datos residen en muchas
aplicaciones separados por los distintos entornos operacionales, la
descodificación de los datos es a menudo inconsistente. Por ejemplo en una
aplicación la palabra GENDER podría codificarse como “m” y “f”, en otra como “0”
y “1”, cuando los datos fluyen de un entorno operacional a un entorno de almacén
de datos o de Data Warehouse, ellos asumen una codificación consistente, por
ejemplo GENDER siempre se transformaría a “m” y “f”.
Los
data warehouses tienen una estructura distinta. Hay niveles diferentes de
esquematización y detalle que delimitan el data warehouse. La estructura de un
data warehouse se muestra en la Figura N° 5.
En
la figura, se muestran los diferentes componentes del data warehouse y son:
A
veces se encuentra en el ambiente de data warehouse y en otros, fuera del límite
de la tecnología que ampara al data warehouse. (De todos modos, los datos
completamente resumidos son parte del data warehouse sin considerar donde se
alojan los datos físicamente.)
La
metadata juega un rol especial y muy importante en el data warehouse y es usada
como:
La
metadata juega un papel mucho más importante en un ambiente data warehousing que
en un operacional clásico.
A
fin de recordar los diferentes niveles de los datos encontrados en el data
warehouse, considere el ejemplo mostrado en la Figura N° 6.
El
detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los
detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los
archivos) son almacenados en el nivel de detalle de datos más antiguo.
El
detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el
año actual). En general, el detalle de ventas no se ubica en el nivel de detalle
actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la
información de ventas llegue a estar disponible en el ambiente
operacional.
En
otras palabras, habría un retraso de tiempo de por lo menos veinticuatro horas,
entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso
de la venta y el momento cuando la información de la venta haya ingresado al
data warehouse.
El
detalle de las ventas son resumidas semanalmente por línea de subproducto y por
región, para producir un almacenamiento de datos ligeramente
resumidos.
El
detalle de ventas semanal es adicionalmente resumido en forma mensual, según una
gama de líneas, para producir los datos completamente resumidos.
La
metadata contiene (al menos):
La
información adicional que no se esquematiza es almacenada en el data warehouse.
En muchas ocasiones, allí se hará el análisis y se producirá un tipo u otro de
resumen. El único tipo de esquematización que se almacena permanentemente en el
data warehouse, es el de los datos que son usados frecuentemente. En otras
palabras, si un analista produce un resumen que tiene una probabilidad muy baja
de ser usado nuevamente, entonces la esquematización no es almacenada en el data
warehouse.
ARQUITECTURA
La
estructura básica de la arquitectura Data Warehouse (DW) incluye:
ESTRUCTURA
BÁSICA DW . Los pasos 2, 3 y 4, conforman el proceso conocido como ETT
(Extracción, Transformación y Transporte).
EXTRACCION
Potencial
El
Data Warehouse no produce resultados en forma mágica. Los administradores de
empresas y los analistas deben acceder y recuperar los datos del Data Warehouse
y convertirlos en información y en hechos. Estos hechos conforman los cimientos
de una base de conocimientos que sirve para determinar la salud de la empresa y
la dirección futura del negocio. Como en las granjas, los usuarios sólo
cosecharán la información que se pueda derivar de los datos que sembraron en el
Data Warehouse, y sólo mediante el uso de las herramientas de cosecha adecuadas.
Algunas de las herramientas de cosecha necesarias son: las de acceso y
recuperación, las de reportes de base de datos, las de análisis y las de data
mining.
Uno
de los retos al cosechar un Data Warehouse consiste en no convertir montículos
de información en montañas de datos. Es fácil caer en la trampa de "entre más,
mejor". No es esencial conocer todos los hechos, sólo los cruciales. Como
ejemplo, una campaña de ropa para niños necesita cosechar exacta y rentablemente
sólo aquellas familias que tienen niños.
Extracción
Herramientas
de soporte de decisiones es
el término genérico para referirse a las aplicaciones y herramientas del Data
Warehouse que se emplean para recuperar, manipular y analizar los datos, y para
presentar después los resultados. Estas herramientas se usan en dos modalidades:
verificación y descubrimiento. En la
modalidad de verificación, el usuario empresarial crea una hipótesis -una
cuestión empresarial- e intenta confirmarla accediendo a los datos en el Data
Warehouse. Las herramientas que implementan la modalidad de verificación son de
consulta, de sistemas de reporte y de análisis multidimensional. En la modalidad
de descubrimiento, las herramientas intentan descubrir características en los
datos como patrones de compra o la asociación entre la adquisición de artículos
diferentes. En la modalidad de descubrimiento, o eureka, el usuario empresarial
no conoce ni sospecha los patrones y asociaciones descubiertos. La herramienta
de Data Mining es un ejemplo de la modalidad de descubrimiento. Desde la
perspectiva de disponibilidad de herramientas, las dos modalidades de
verificación y descubrimiento se clasifican en tres enfoques: Procesamiento
Informático, Procesamiento Analítico y Data Mining.
PROCESAMIENTO
INFORMATICO
La recuperación de la inversión en un Data Warehouse se basa en la capacidad de
los usuarios empresariales para extraer los datos correctos del Data Warehouse,
convertirlos en información y luego utilizar esa información para tomar mejores
decisiones. Los usuarios empresariales pretenden extraer los datos correctos con
una mínima inversión en tiempo y sin complicaciones.
A
los ejecutivos y gerentes de alto nivel les interesa ver los resultados de una
actividad de procesamiento informático en forma de reportes, cuadros y gráficas.
Los gerentes desean acceder a consultas estándar de rutina. Un ambiente de
'consulta administrativa' cubre la mayoría de sus necesidades. El procesamiento
informático apoya a la modalidad de verificación del soporte de decisiones.
Comprende técnicas como análisis estadísticos básicos y de datos, consultas y
reportes. Los datos que se acceden y procesan pudieran ser históricos o bastante
recientes, y pudieran estar un poco o muy resumidos. Los resultados se presentan
en forma de reportes o gráficas.
El procesamiento informático asiste a los usuarios empresariales en la búsqueda
de respuestas a cuestiones empresariales, como las
siguientes:
•
¿Cuáles fueron los ingresos por ventas en el fin de semana del Día de Acción de
Gracias (nuestro mejor fin de semana de ventas) para todas las tiendas del medio
oeste, con corte por departamento?
•
¿Cuáles fueron los diez artículos más rentables durante la venta posterior
a la Navidad? ¿Cuáles fueron los diez menos
rentables?
•
¿Cómo se comparan las ventas del Día de Acción de Gracias con las del mismo fin
de semana, en los últimos cinco años, por departamento y
tienda?
PROCESAMIENTO
ANALITICO
También
el procesamiento analítico apoya a la modalidad de verificación del soporte de
decisiones. Su meta consiste en hacer que los datos estén disponibles para el
usuario de la empresa en su perspectiva de las dimensiones empresariales. Se
pueden responder e interpretar preguntas complejas como "¿Cuántos automóviles
vendimos en Estados Unidos en el primer trimestre de 1995 que tuvieran un
sistema de audio CD, con un precio de 25,000 dólares o menos?'. Este
procesamiento maneja capacidades de análisis de subconjuntos (slice and dice), profundización (drill-down) y condensación y adición (roll-up). Los datos que se emplean en
el procesamiento analítico son, por lo general, históricos tanto a nivel de
resumen como al de detalle.
Los gerentes y analistas empresariales requieren la funcionalidad del
procesamiento analítico cuando deben responder preguntas complejas corno las
siguientes:
•
¿Cuántos esquíes de nieve fabricados por SpeedSkiDown, Inc., se vendieron a
hombres en el mes de noviembre, en nuestras tiendas de las regiones del medio
oeste, del noroeste y de la Montaña?
•
¿Cómo se compara lo programando con lo real del mismo mes en los dos últimos
años?
•
¿Cuántas minivans azules teníamos en inventario (al fin del trimestre) con un
reproductor de discos compactos y un tercer asiento, cuando la lista de precios
era menor de $19,995? Se requieren totales por condado para cada trimestre de
los últimos cinco años, comparar lo real contra lo planeado, y comparar el
inventario de cada trimestre con el del anterior y el del
siguiente?
Los gerentes ejecutivos saben que "el futuro pertenece a quienes pueden verlo y
llegar ahí primero". Por tal razón, los ejecutivos y gerentes empresariales no
sólo comprenden "lo que pasa en el negocio", sino también "que va a suceder". El
procesamiento analítico se utiliza tanto para análisis históricos complejos, con
una extensa manipulación, como para la planeación a futuro y pronóstico -el
pasado como prólogo del futuro.
Los datos empresariales son, de hecho, multidimensionales. Se encuentran
relacionados y regularmente son jerárquicos; por ejemplo, los datos de ventas,
los datos del inventario y los pronósticos de presupuestos están
interrelacionados y dependen entre sí. En la práctica, para predecir las ventas
de un nuevo producto específico, se requiere analizar los patrones de compras
anteriores, la adopción de nuevos productos, las preferencias regionales y otros
factores empresariales similares. La proyección de ventas para nuestra cuestión
de los "esquíes de SpeedSkiDown, Inc.", requiere comprender los patrones de
ventas de los últimos años.
Análisis
Multidimensional
Tanto
para la eficiencia operativa como para la planeación a futuro, se deben analizar
muchos datos empresariales interrelacionados. Esta necesidad empresarial se
aborda mediante el procesamiento analítico. En éste, el enfoque está en el
análisis de los datos, específicamente en el análisis
multidimensional.
En
el análisis multidimensional, los datos se representan mediante dimensiones como
producto, territorio y cliente. Por lo regular las dimensiones se relacionan en
jerarquías, por ejemplo, ciudad, estado, región, país y continente; o estado,
territorio y región. El tiempo es también una dimensión estándar con su propia
jerarquía como: día, semana, mes, trimestre y año; o día y año
calendario.
Procesamiento
Analítico en Línea (OLAP)
En
un Data Warehouse se depositan datos para consulta, análisis y divulgación, a
diferencia del procesamiento de transacciones en línea (OLTP por la sigla de On-Line Transaction Processing), en
donde los datos se reúnen y almacenan para operación y control. OLAP es una tecnología de procesamiento
analítica que crea nueva información empresarial a partir de los datos
existentes, por medio de un rico conjunto de transformaciones empresariales y
cálculos numéricos.
El
procesamiento analítico en línea es una tecnología de análisis de datos que hace
lo siguiente:
•
Presenta una visión multidimensional lógica de los datos en el Data Warehouse.
La visión es independiente de cómo se almacenan los datos.
•
Comprende siempre la consulta interactiva y el análisis de los datos. Por lo
regular la interacción es de varias pasadas, lo cual incluye la profundización
en niveles cada vez más detallados o el ascenso a niveles superiores de resumen
y adición.
•
Ofrece opciones de modelado analítico, incluyendo un motor de cálculo para
obtener proporciones, desviaciones, etc., que comprende mediciones de datos
numéricos a través de muchas dimensiones.
•
Crea resúmenes y adiciones (también conocidas como consolidaciones), jerarquías,
y cuestiona todos los niveles de adición y resumen en cada intersección de las
dimensiones.
•
Maneja modelos funcionales de pronóstico, análisis de tendencias y análisis
estadísticos.
•
Recupera y exhibe datos tabulares en dos o tres dimensiones, cuadros y gráficas,
con un pivoteo fácil de los ejes. El pivoteo es fundamental ya que los usuarios
empresariales necesitan analizar los datos desde perspectivas diferentes; y el
análisis desde una perspectiva conduce a otra cuestión empresarial que se va a
examinar desde otra perspectiva.
•
Responde con rapidez a las consultas, de modo que el proceso de análisis no se
interrumpe y la información no se desactualiza.
•
Tiene un motor de depósito de datos multidimensional, que almacena los datos en
arreglos. Estos arreglos son una representación lógica de las dimensiones
empresariales.
La
tecnología OLAP se aplica en muchas áreas funcionales
de una empresa, tales como: Producción, ventas y análisis de rentabilidad de la
comercialización; mezcla de manufacturas y análisis de logística;
consolidaciones financieras, presupuestos y pronósticos, planeación de impuestos
y contabilidad de costos.
DATA
MINING
El
Data Mining apoya la modalidad de descubrimiento del soporte de decisiones. Las
herramientas de Data Mining recorren los datos detallados de transacciones para
desenterrar patrones y asociaciones ocultos. Por lo regular los resultados
generan extensos reportes o se les analiza con herramientas de visualización de
datos descubiertos.
El procesamiento informático es excelente y rentable para el despliegue masivo
de consultas, análisis y reportes de datos de dos o tres dimensiones. Las
herramientas de procesamiento analítico permiten diversas visualizaciones de los
datos, como ventas por marca, tienda, temporada y periodos de tiempo, las cuales
se pueden definir, consultar y analizar. Las herramientas de Data Mining son
esenciales para comprender el comportamiento de los
clientes.
Usuarios
del Data Mining
Los
usuarios clave en perspectiva del Data Mining son los analistas empresariales,
los peritos en estadística y los profesionales en tecnología de la información
que auxilian a los usuarios empresariales. Quienes obtienen beneficios de los
resultados del Data Mining son los gerentes empresariales y los ejecutivos, que
desean entender los factores de éxito del negocio con base de datos completos del cliente y, utilizar
luego, este conocimiento para afinar las estrategias de producción, precios y
comercialización; mejorar el nivel de éxito de las estrategias; e impulsar el
balance.
Hasta
la fecha, las empresas han dependido del procesamiento informático y analítico
para medir y comprender la estabilidad de un negocio. El procesamiento
informático consultas y reportes- es más sencillo de usar, pero requiere de una
estrecha dirección del analista (ver figura). Los analistas preguntan cuestiones
específicas y verifican las cuestiones o hipótesis con los datos. Para este fin,
los datos deben estar bien organizados. El procesamiento analítico (OLAP)
requiere de menos dirección del analista, aunque los datos deben estar
organizados en una forma especial (base de datos multidimensional), o accederse
bien de manera especial (visión multidimensional). En ocasiones se utiliza una
combinación de técnicas de consulta y OLAP para comprender el comportamiento del
cliente o para construir perfiles de segmentos de mercado; pero el proceso de
aplicar estas técnicas es conducido esencialmente por el analista empresarial.
En estos casos, este proceso también se conoce como Data Mining y se define como la
modalidad de descubrimiento del soporte de decisiones, la cual es conducida por
los datos y no por el analista empresarial.
Función
del analista empresarial y de los datos
DIFERENCIAS:
Data Warehouse vs. OLTP
Los
sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing
son polos opuestos en cuanto a sus requerimientos de diseño y sus
características de operación. Es de suma importancia comprender perfectamente
estas diferencias para evitar caer en el diseño de un Data Warehouse como si
fuera una aplicación de transacciones en línea (OLTP).
Las
aplicaciones de OLTP están organizadas para ejecutar las transacciones para los
cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo o
abono, una devolución de inventario, etc. Por otro lado, un Data Warehouse está
organizado en base a conceptos, como por ejemplo: clientes, facturas, productos,
etc.
Otra
diferencia radica en el número de usuarios. Normalmente, el número de usuarios
de un Data Warehouse es menor al de un OLTP. Es común encontrar que los sistemas
transaccionales son accedidos por cientos de usuarios simultáneamente, mientras
que los Data Warehouse sólo por decenas. Los sistemas de OLTP realizan cientos
de transacciones por segundo mientras que una sola consulta de un Data Warehouse
puede tomar minutos. Otro factor es que frecuentemente los sistemas
transaccionales son menores en tamaño a los Data Warehouse, esto es debido a que
un Data Warehouse puede estar formado por información de varios
OLTP´s.
Existen
también diferencia en el diseño, mientras que el de un OLPT es extremadamente
normalizado, el de un Data Warehouse tiende a ser desnormalizado. El OLTP
normalmente está formado por un número mayor de tablas, cada una con pocas
columnas, mientras que en un Data Warehouse el número de tablas es menor, pero
cada una de éstas tiende a ser mayor en número de
columnas.
Los
OLTP son continuamente actualizados por los sistemas operacionales del día con
día, mientras que los Data Warehouse son actualizados en batch de manera
periódica.
Las
estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los
Data Warehouse sufren cambios constantes derivados de su evolución. Esto se debe
a que los tipos de consultas a los cuales están sujetos son muy variados y es
imposible preverlos todos de antemano.
OLPT
OLPT |
Data
Warehouse |
-
Orientada a transacciones |
-
Orientada a Conceptos |
Proceso
de Srubbing
Si
la organización tiene muchos datos de aplicaciones tradicionales y está buscando
una solución para transferir grandes volúmenes de datos de un Mainframe, se
necesita una solución de Bodega de Datos de fuerza industrial para hacer
transferencia bruta de datos diferentes de fuentes en Mainframes a Bodegas de
Datos en DB2 o en Unix.
Se
requiere de alguna herramienta para llenar y actualizar la Bodega de Datos que
realice extracción de datos a altas velocidades y altos volúmenes de datos,
traslade y distribuya de múltiples y diferentes Bases de Datos en Mainframes en
la BODEGA y elimine la necesidad de escribir complejos programas y rutinas de
conversión.
Distribución
de datos es
el proceso de mover los datos extraídos y trasladarlos a la Bodega de Datos o a
diferentes Bases de Datos en cualquier plataforma en cualquier sitio. Una
herramienta de distribución define Base de Datos Objetivo, información de
conversión y entrada/salida de datos. Una vez creadas estas definiciones, pueden
ser salvadas para ser reutilizadas, editadas o ejecutadas
posteriormente.
Manejo
de los Metadatos
El
repositorio sirve como un sitio para almacenar los datos de los activos de
información de una organización. Abarca todos los datos de la organización, sin
importar cual es la fuente original y facilita el entendimiento de toda la
empresa y controla la existencia de los recursos de datos
existentes.
El
repositorio sirve como guía para definir un ambiente de migración de datos y
contiene:
El
repositorio también racionaliza el desarrollo de aplicaciones a través de
Documentación, repartición de datos, reutilización y estandarización. Los
metadatos almacenan herramientas CASE, programas existentes y estructuras de
datos.
Existen
facilidades para lograr que los usuarios no técnicos puedan acceder la
información a nivel de metadatos con herramientas intuitivas, fáciles de usar y
de hacer análisis de tipo Drill-Down de tópicos generales a categorías más
específicas de metadatos predeterminados. Este tipo de herramientas proveen al
usuario final de una cabina virtual de datos que les permite a través del mouse ir a cajones gráficos,
a los folders dentro de los cajones
y páginas de apuntes rotuladas.
Acceso
y Análisis de Datos
Una
vez que la Bodega de Datos se ha llenado de información, los usuarios finales
pueden acceder y analizar los datos. Para satisfacer las necesidades de usuarios
finales en cualquier plataforma, se provee de algunas herramientas
especializadas para hacer reportes y queries, para desarrolladores de
aplicaciones de oficina y usuarios que necesitan revisar datos suministrados de
la Bodega así como crecientes niveles de detalle.
Manejo
de Sistemas
La
Base de Datos de la Bodega debe ser frecuentemente mantenida y manejada por
DBA´s para reducir el impacto en el desempeño del sistema y recursos. Para ser eficiente y productivo, el
proceso de Bodega de Datos debe ser automatizado dentro de un ambiente de
producción. Las herramientas necesarias para su mantenimiento, se clasifican
en:
Construcción
de la Bodega de Datos
Para
construir una Bodega de Datos es
necesario saber algunos temas generales, que se agrupan en los siguientes
tópicos:
Ambiente
Actual:
Es
necesario entender el negocio y el ambiente tecnológico actual de la
Organización, para construir una
bodega que sirva. Cualquier solución propuesta de Bodega de Datos debe estar muy
orientada por las necesidades del negocio y debe ser compatible con la
arquitectura técnica existente y planeada de la compañía.
Ambiente
de Negocios:
Es
indispensable tener el conocimiento exacto sobre el tipo de negocios de la
Organización y el soporte que representa la información dentro de todo su
proceso de toma de decisiones.
Ambiente
Técnico:
Se
debe tener un claro concepto desde una perspectiva técnica de los Sistemas de
Información de la Organización. En este análisis se debe tener claridad del
ambiente técnico actual y futuro a nivel de detalle. Se debe incluir tanto el
aspecto de ambiente hardware: mainframes, servidores, redes, así como
aplicativos y herramientas.
Expectativas
de los usuarios:
Este
es determinante en el éxito de un proyecto de Bodega de Datos puesto que Bodega
de Datos no es un proyecto tecnológico, es una forma de Vida de Las
Organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y
su convencimiento sobre su bondad.
Estrategia
Recomendada
Prototipo:
provee a los usuarios finales una aproximación de lo que la Bodega de Datos les
puede proporcionar en un período de tiempo corto, para que el grupo de Bodega de
Datos pueda demostrar los beneficios de la Bodega de Datos a los usuarios y
recolectar lo más pronto la retroalimentación crítica de los usuarios. En la
Bodega de Datos esto quiere decir que los datos deben ser llevados e integrados
y cargados en estructuras de
Datos apropiadas.
Deben
ser distribuidas herramientas de acceso de datos a usuarios finales y
aplicaciones para realizar queries. Deben ser creadas herramientas de soporte en
la Decisión si es aplicable.
El
piloto de la Bodega de Datos, es
la primera fase del proyecto en el cual el equipo de Bodega de Datos utilizará
los métodos, técnicas y herramientas que será la base para una Bodega de Datos
completa. Por esta razón el proyecto piloto de Bodega de Datos debe tener un
pequeño alcance y tiempo adicional comparativamente con los esfuerzos sucesivos
de Bodega de Datos.
La
Prueba del concepto tecnológico:
es un paso opcional que se puede necesitar para definir si la arquitectura
especificada para la Bodega de Datos funcionará. Dada esta meta el hecho de
proveer factibilidad técnica durante el prototipo podría adicionar enormes e
inaceptables riesgos al prototipo.
Dependiendo
de la estructura interna de los datos de la Bodega y especialmente del tipo de
consultas a realizar, se diseña la arquitectura de la Bodega de datos. Con este
criterio los datos deben ser repartidos entre numerosos Data
Marts.
Los
Datos de los sistemas de Aplicación y de otras fuentes de Bodegas de Datos deben
ser periódicamente extraídos y alimentados en la capa de Data Scrubbing. La
extracción debe ser realizada en muchos casos utilizando los programas para
acompañar éstas tareas. El Data Scrubbing
debe ser hecho ya sea con ayuda de herramientas de scrubbing tales como
Platinum Infopump.
Factores
de riesgo
Es
importante conocerlos para poder monitorearlos y son:
lafacu.com no se responsabiliza por el uso que otros o terceros, puedan darle a esta información.