UNIVERSIDAD YACAMBU
ESPECIALIZACION EN GERENCIA
MENCION SISTEMAS DE INFORMACION

ANÁLISIS Y DISEÑO DE SISTEMAS
Prof.: Yaros Pérez Autor: Manuel Alvarez

C.I: 6.504.212

Investigación por Internet

Normalización de base de datos

1. Descomposición y Normalización
2. Dependencia
3. Normalización
4. Primera Forma Normal
5. Segunda Forma Normal
6. Tercera Forma Normal
7. Cuarta Forma Normal

1. Descomposición y Normalización

Siempre que un analista de sistemas de base de datos arma una base de datos, queda a su cargo descomponer dicha base en grupos y segmentos de registros. Este proceso es la descomposición; el mismo es necesario independientemente de la arquitectura de la base de datos - relacional, red o jerárquica-. Sin embargo, para la base de datos relacional, la acción correspondiente puede dividirse y expresarse en términos formales y se denomina normalización a la misma.

La normalización convierte una relación en varias sub-relaciones, cada una de las cuales obedece a reglas. Estas reglas se describen en términos de dependencia. Una vez que hayamos examinado las distintas formas de dependencia, encontraremos procedimientos a aplicar a las relaciones de modo tal que las mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto no llevará indefectiblemente a formar varias subrelaciones a partir de la única relación preexistente.

2. Dependencia

Significado :

Antes de entrar en el tópico principal de dependencia, vamos a rever algunos conceptos acerca de los individuos y acerca de las tuplas que los describen en la base de datos relacional (BDR). Restringiremos la discusión a la BDR, si bien la misma se aplica igualmente a las otras arquitecturas.

Los individuos tienen muchos atributos que pueden ser de interés a diferentes personas en diferentes momentos. Nuestro problema actual es con una sola aplicación o conjunto de aplicaciones: solemne son de interés algunos de los atributos.

Los símbolos aplicables a la relación han sido introducidos previamente.

• R es una tupla general o vector que describe a un individuo;

• R es una relación, una matriz o un conjunto de vectores que pertenecen la población de interés.

• U es el universo consistente en todas las posibles descripciones individuales, obtenido mediante una combinación exhaustiva de los valores a atributos.

La tupla general toma la siguiente forma

R = (a, b, c, ...., n) La pertenencia con respecto a relaciones, tuplas y universos se indica mediante. Con respecto a los atributos:

• A es el símbolo del nombre de un atributo

• a es el símbolo de un valor del atributo.

Dominio (A) es el dominio para el atributo cuyo nombre es A.

Campo de aplicación

Estamos interesados en relaciones dependientes entre atributos de los individuos en una o varias poblaciones. Consideramos a los atributos D, E, y F. La dependencia es una relación funcional tal que los valores de una (o más de una) de las variables determina y fija el valor de las otras variables en la relación dependiente. Consideramos el caso en el que E y F dependen de D. Esto se describe más brevemente en forma simbólica:

e = e (d) f = f(d)

Existen tres tipos distintos de dependencia.

o Total uno-uno-sinónimo

o Completa - subtupla <

o Transitiva - múltiple.

La dependencia es una relación funcional que penetra en el universo de posibilidades. La dependencia no puede deducirse solamente de los datos de nuestra, ya que éstos son necesariamente incompletos, sino que debe ser inherente al comportamiento del sistema. Por ejemplo, si los datos revelan que cada uno de nuestros proveedores tiene exactamente una planta y que todas estas plantas están en diferentes ciudades, podemos asumir una dependencia total entre proveedor, planta y ciudad. Es decir, dada una ciudad, la misma está asociada con un proveedor; y dado este proveedor estará asociado con una ciudad. En la práctica, solamente cuando un nuevo proveedor se incorpore con una planta en la misma ciudad que uno de nuestro antiguos proveedores, resultará claro que no existe dicha dependencia total, Esto no podría ser deducido a partir de los datos previos.

Dependencia Total

Consideremos los atributos x e y. Cada valor de x tiene uno y solo un valor de y asociados a el; e inversamente, dado un valor de y existe solamente un valor de x asociado a éste. Se trata de una función unitaria de una variable tanto en sentido directo como inverso y por o tanto se denomina dependencia total. Otra forma de expresar lo mismo es decir que x e y son sinónimos; ambas expresiones son equivalentes.

Ejemplo con clave

Si una de las variables es al mismo tiempo la clave, como consecuencia todo valor de ambas variables es único en cualquier tupla de la relación. Por ejemplo, consideremos un archivo de personal donde cada uno de los empleados es identificado de tres maneras.

• Su nombre

• Su número de seguridad social

• Su número de empleado

Los tres pueden representar una dependencia total. Tanto el número de seguridad social como el número de empleado identifican al individuo en forma única. El número de seguridad social atañe a la población completa de trabajadores de los Estados Unidos. El número de empleado se aplica solamente al personal de una empresa en particular. El nombre puede no ser totalmente único y la dependencia total existe solamente cuando cada empleado tiene un nombre único.

Si el número de empleado es al clave de la relación, el número de seguridad social es sinónimo de aquel. Podemos en consecuencia decir que el número de seguridad social, el campo no clave, es totalmente dependiente de la clave, y es una clave candidata.

Si los nombres de todos nuestros empleados son únicos, también pueden, ser claves candidatas. Sin embargo puede existir alguna duplicación, dos personas llamadas John Smith, por ejemplo. Dado que esta es una posibilidad, no puede establecerse una dependencia total con respecto total con respecto al nombre. Puede incorporarse a la firma un nuevo empleado y este puede tener el mismo nombre que uno de nuestros empleados actuales.

Ejemplo con estado Consideremos una relación que contiene información sobre estado en dos formas :

• Una identificación de estado con dos letras, tal como CA para California.

• Una designación con un número de dos dígitos tal como 12 para California.

Estas dos formas de información sobre estado ilustran una dependencia total. Debe notarse sin embargo que muchas tuplas pueden contener la misma identificación de Estado, dado que muchos de nuestros clientes pueden provenir de California. En consecuencia resulta claro que la dependencia total no significa unicidad.

Dependencia Completa

El concepto de dependencia completa se aplica solamente cuando:

• Tenemos más de dos variables, y

• Una variable dependiente depende de dos o más variables

independientes.

Consideramos una relación que abarca las variables P, Q y R. Supongamos que P es la variable dependiente. Si el valor de P está determinado por una función de Q y R combinados, se trata de una dependencia completa. Esto es, el valor de P no depende únicamente ni de Q ni de R.

Vamos a repetir esto simbólicamente. El valor de P es completamente dependiente de los valores de q y r.

p = p (q,r)

Ejemplo con orden de compra

Como un ejemplo de dependencia completa, consideremos el caso de una orden de compra. Supongamos que esta orden de compra describe mediante tres variables que son de interés para nosotros:

• El número de orden de compra (PON) designa la orden completa;

• El número de parte de pieza designa una de las partes ordenadas por el pedido;

• La cantidad de piezas es el número de unidades de dicha pieza requerida para satisfacer el pedido.

Los pedidos describen en consecuencia una orden por medio de varias partes diferentes, y para cada una distinta asociada. El sistema contable ve varios pedidos diferentes. La misma parte puede aparecer en distintos pedidos y, cuando ello sucede, puede estar asociadas distintas cantidades con la misma parte.

Un tupla de la base de datos relacional contendrá un PON un número de parte y una cantidad. La cantidad es completamente dependiente del PON y del número de parte. Resulta claro que el número de pedido no es suficiente para determinar la cantidad todas las partes de un determinado pedido no tiene la misma cantidad). Análogamente, un número de parte no es suficiente para determinar la cantidad ordenada, dado que diferentes pedidos pueden requerir distintas cantidades de dicha parte. Por lo tanto, es nuestro ejemplo, la cantidad no es dependiente solamente del PON o del número de parte; es completamente dependiente de ambos.

Puede imaginarse, aunque no es muy probable el caso de que cada vez ordenados una parte la ordenamos solamente por una cantidad como una docena, o tres gruesas o cualquier otro valor fijo. Si esto ocurre para todas las partes y para todos los pedidos de nuestro sistema, en consecuencia no existirá dependencia completa. En efecto podemos decir que hay dependencia total entre cantidad y número de partes - condición improbable-.

Hemos examinado anteriormente un ejemplo académico y las variables profesor, clase y sección. Tenemos en esta caso una dependencia completa de profesor respecto de clase y sección. Si en nuestra facultad está establecido existirá dependencia completa. Esto existiría que un profesor enseñe siempre a todas las secciones de una clase particular - una condición no muy factible con un curso de 20 secciones-.

Dependencia transitiva

La dependencia transitiva se aplica o tres o más variables. Consideremos el caso de solo tres variables y llamémoslas S, T y V.

Diremos que S es la variable independiente si los valores de S determinan tanto a T como a V, y se simbolizará así:

S ----> T; S ----> V

Sin embargo, sería deseable encontrar una relación más restrictiva o definida.

Tenemos dependencia transitiva cuando S determina a T y V, pero los valores de V pueden considerarse siempre como dependiendo de los valores de T. Esto puede escribirse como

S ----> T; T ---->

o alternativamente como

v = v(t); t = t(s) v = v(t(s))

Reducción

Si podemos manejar las dependencias transitivas, podremos reducir el espacio total requerido para almacenar los datos. Varios valores de S pueden generar un único valor de T. De modo similar, pueden existir varios valores de T asociados solamente con un valor de V. La separación de estas relaciones permite conservar espacios. Esto puede observarse mejor con respecto al ejemplo que se describe más abajo.

Ejemplo

Consideramos un ejemplo que asocia cursos con departamento y con escuela. En consecuencia, canto será dictado por el departamento de música en la escuela de Artes y Ciencias; hidráulica será dictada por ingeniería civil en la Escuela de Ingeniería; impuestos será dictado por el departamento contable en la Escuela de Administración.

Llamemos

• S al curso

• T al departamento

• V a la escuela

Por lo tanto

S ----> T ----> V

la descomposición consiste en la asociación de un curso con un departamento en una relación. Otras relación identifica a cada departamento con una escuela. Esta segunda relación es necesariamente menor tanto en grado como en cardinalidad y aquí reside el ahorro de espacio.

3. Normalizacion

¿Qué es normalización?

Normalización es un proceso que clasifica relaciones, objetos, formas de relación y demás elementos en grupos, en base a las características que cada uno posee. Si se identifican ciertas reglas, se aplica un categoría; si se definen otras reglas, se aplicará otra categoría.

Estamos interesados en particular en la clasificación de las relaciones BDR. La forma de efectuar esto es a través de los tipos de dependencias que podemos determinar dentro de la relación. Cuando las reglas de clasificación sean más y más restrictivas, diremos que la relación está en una forma normal más elevada. La relación que está en la forma normal más elevada posible es que mejor se adapta a nuestras necesidades debido a que optimiza las condiciones que son de importancia para nosotros:

• La cantidad de espacio requerido para almacenar los datos es la menor posible;

• La facilidad para actualizar la relación es la mayor posible;

• La explicación de la base de datos es la más sencilla posible.

4. Primera forma normal

Para que una relación esté en primera forma normal (1 FN), debe ser solamente una relación propia, una matríz m por n, donde:

• Ninguna celda de la matriz está vacía;

• El valor n cualquier columna está definido por el dominio para dicho atributo.

• Cada tupla tiene una clave que la identifica en forma unívoca, pero dicha clave no significa orden.

La aplicación determina la relación

Para que una relación sea normalizada en pasos adicionales, debe encontrarse en la primera forma normal. Colocar los datos en la primera forma normal está a cargo del diseñador de la aplicación. Estos datos se encuentran disponibles de alguna manera inicialmente. Si la aplicación existe en forma manual, o ha sido anteriormente computarizada pero no todavía como relación, el diseñador reorganiza los datos de modo de conformar una matríz 1FN.

La segunda inicial más importante es la dimensión de la relación ¿cuántos componentes existen en la tupla o cuántas columnas en la tabla? ¿De qué manera se compara esto con el número de campos en el documento fuente?.

En la figura se puede observar un documento como muestra, una factura típica. Parte de la información es fija y otra variable. La figura nos muestra un formulario impreso dentro de l cual se ha agregado información. La impresión puede dividirse en dos categorías.

• Información descriptiva para el usuario

• Nombres de atributos.

La información impresa es necesariamente fija. Podemos observar el nombre de la compañía en la figura, así como otras particularidades (tales como el número de teléfono que no figura aquí). Otros nombres impresos corresponden a los atributos cuyos valores se escriben en el momento en que el formulario es llenado. Estos nombres de atributos son también los nombres de campos para almacenar los datos en el sistema. Los que se escribe son los valores de atributos.

La información convertida queda formada en tuplas. La próxima pregunta es cuantas tuplas representarán a la formación en esta forma. Debe notarse que el número de partes ordenadas varía de una factura o pedido a otro.

Wetco factura no. 91529

23 river road fecha factura 3/19/77

saltsea texas

orden fecha

de cliente vendedor de la orden via orden wetco

M0007 2-14 3/12/17 ups 1922447

Cliente no. 31-0285-fl

Venta a flores associates expedido a

108 8 avenue el mismo

brooklyn, n.y. 11215

cantidad precio parte descripcion monto

Pen-

Orde-despa-dien-

Nada chada te

2 2 3.50 018719 camisa 7.00

2 2 .35 020428 guia .70

1 1 .70 020808 rodillo motor .70

1 0 .25 020811 rodillo libre 0.00

1 1 6.00 020819 humidrum 8.00

Transporte Y Seguro .96

17.38

Dado que una tupla debe tener un número fijo de componentes, necesitamos una tupla en primera forma normal para cada parte de cada pedido. Sin embargo, la información que se encuentra en la parte superior del formulario, y que se llena a máquina, es la misma para todas las partes ordenadas más abajo. Por lo tanto cada tupla consiste en una parte de datos que son variables y datos del pedido que se duplican para cada parte ordenada.

Grafo de Dependencia

Una vez que los datos han sido puestos en primera forma normal, resulta conveniente descomponer la relación en un número de relaciones más pequeñas, cada una en forma normal superior, de modo de optimizar el almacenamiento y usar su funciones

. Para esto resulta necesario reconocer las dependencias existentes. Un grafo exhibe los distintos tipos de dependencias que existen, y enfatizan que hemos investigado completamente cada dependencia.

El grafo simple no está diseñado para mostrar dependencias. Para hacer utilizable a este grafo, se agregan colores pueden expresarse en blanco y negro mediante distintos tipos de líneas. Discutiremos estos tipos de líneas en términos de la dependencia que cada uno representa. En las figuras que siguen las formas gráficas aparecen a la izquierda y se utilizan para constituir un grafo completo. A la derecha se puede observar una forma simbólica para describir dependencias únicas.

Dependencia única

En la figura vemos un arco que conecta dos vértices A y B. A es la cola y B es la cabeza de la "flecha". Esto significa que B depende de A. Es decir dado un valor de A podemos predecir de A. Es decir, dado un valor de A podemos predecir cuál será el valor de B.

Dependencia total

La dependencia total se define como una dependencia bilateral o simétrica. Es decir, si C depende de D, en consecuencia D será dependiente en forma similar de C. Esto se expresa en la figura mediante una arista (sin una flecha) que une C y D. Para enfatizar la dependencia total, se usa una línea doble o una línea más gruesa. Esto representa una medida de seguridad para verificar que el usuario no dibuje un arco e inadvertidamente omita la flecha. Simbólicamente se utiliza una doble flecha.

Dependencia completa

La variable G depende en forma completa de otras dos variables E y F, lo cual puede ilustrarse como se ve a la izquierda de la figura. Pero así no es representada adecuadamente la dependencia completa, ya que el valor de G no depende de E o F, independiente, sino que depende de ambos valores. Por lo tanto en el centro de la figura A, vemos una forma mejor; la arista que une E y F no intenta demostrar una dependencia entre E y F, por lo tanto se dibuja en líneas de trazos; a partir del centro de esta línea de trazos, se dibuja un arco dirigido hacia G para indica que G depende de ambas variables E y F.

Dependencia transitiva

Supongamos que dos variables, K y L, dependen de J. Si puede verificarse que L depende en forma primaria de K, existiría una dependencia transitiva. Mostramos a la izquierda de la figura B que L. depende de J o de K. Más apropiado s el grafo del centro de la figura B, donde podemos ver que L está definida por K la cual, a su vez, está determinada por los valores de J.

Simbólicamente indicamos una dependencia transitiva de L respecto de J mediante una flecha de trazos desde J a L, como puede verse a la derecha de la figura B.

Ejemplo

En la figura B se presenta un grafo de dependencia hipotético. En el mismo se dibujan las relaciones de dependencia entre atributos para una aplicación de remuneración. EMPNO y DEPTNO están subrayadas en la figura para expresar que ambas son partes de una clave compuesta para la relación. Una línea gruesa conecta EMPNO a EMPNOM para indicar que si nombre de empleado y existe una dependencia total.