jueves, 8 de noviembre de 2007

LA APLICACIÓN DE LA ESTADÍSTICA NO PARAMÉTRICA EN LA ADMINISTRACIÓN

INTRODUCCIÓN

Uno de los problemas más difíciles para el principiante y para el investigador experimentado, es decidir cuál de la pruebas estadísticas es la más adecuada para analizar un conjunto de datos. La aplicación de la estadística en el análisis de datos es muy amplia y las áreas en las que se aplica son diversas, desde las ciencias exactas hasta las ciencias sociales. La selección de la prueba estadística necesaria para el caso, depende de varios factores, en primer lugar se debe saber cuál es la escala con la que se están midiendo los datos que se analizarán, pues no se puede aplicar la misma prueba estadística para el caso en que la variable de interés sea el peso de un producto que cuando lo es la profesión del usuario de un producto, es por esto que la primera parte de este artículo se dedicará a las diferentes escalas con las que se pueden medir los datos que se manejan.

Las pruebas estadísticas con las que se encuentran más familiarizados los investigadores y a las que se dedica la mayor parte de los libros de texto, es la estadística paramétrica, las pruebas estadísticas correspondientes a ella, se aplican principalmente a datos de tipo cuantitativo y cada una de ellas tiene algunos supuestos; en la mayor parte de ellas uno de los supuestos se refiere a la normalidad de la población de la cual fue extraída la muestra, si no se cumple este supuesto, sobre todo en las pruebas en las cuales la muestra es de un tamaño menor de 30, la conclusión a la que se llegue podría estar equivocada, en estos casos y cuando los datos que se manejan no son cuantitativos, se podría aplicar una prueba estadística correspondiente a la estadística no paramétrica, como éstas no suelen ser muy conocidas, se ha realizado este artículo con el propósito de dar a conocerlas, ya que, aunque tienen limitaciones, son muy sencillas de aplicar y muy útiles.
ESCALAS DE MEDICIÓN DE LAS VARIABLES

En cualquier análisis estadístico que se haga, se manejan datos que provienen de la medición de una variable o variables seleccionadas en el estudio. Las variables son las características que interesan en los sujetos u objetos que se estudian, por ejemplo podría ser la edad de los empleados de una empresa, el monto de las ventas de determinado artículo, la ocupación de los clientes de cierto negocio, etc. Para obtener los datos relativos a las variables de interés, se requiere hacer una medición, como podría ser preguntar las edades de los empleados o la ocupación de los clientes, pero como puede apreciarse, los datos que se obtendrían serían de diferente tipo, pues para la primera variable, serían números y para la segunda categorías. La medición la llevamos a cabo en el momento en que le asignamos un número correspondiente a la edad o una categoría correspondiente a la ocupación1. Resulta obvio que en este caso, no estamos midiendo de la misma manera ambas variables, pero además de que las mediciones nos arroja valores de estos dos tipos, es posible medir las variables con otras escalas diferentes, lo cual depende de sus características; a continuación se hará una breve explicación de las diferentes escalas con las que se pueden medir las variables.
Escala nominal
Las variables que solamente se pueden medir con esta escala, son los cualitativas, también llamados categóricas, en ellas se pueden encontrar diferentes categorías, como por ejemplo, la variable sexo puede tomar dos valores que son: masculino y femenino, para que las categorías de clasificación sean útiles, deben ser mutuamente excluyentes, complementarias y exhaustivas. En cada una de ellas se puede obtener la frecuencia.

Escala ordinal
Las variables que se pueden medir con esta escala, son de tipo cuantitativo y en ésta, las variables pueden tomar diferentes valores, de tal manera que es posible ordenar estos valores en forma ascendente o descendente, pero no se puede saber si la diferencia entre dos valores es la misma o diferente a la diferencia entre otros dos valores.

Se usa cuando se pueden detectar diferentes grados del valor de una variable y que los datos recopilados a partir de ella, se pueden ordenar por rangos. Por ejemplo, si se le presentan tres refrescos diferentes a una persona y se le pide que exprese su preferencia utilizando una escala del uno al tres, esto lo estamos evaluando en una escala ordinal, pues se puede suponer que hay un orden en los resultados, pero la diferencia en las puntuaciones no tiene importancia, pues no se puede saber si la diferencia entre un tres y un dos es la misma que entre un uno y un dos.
Otro ejemplo lo tenemos cuando comparamos dureza de materiales y decimos que A es más duro que B si A raya a B.

Escala de intervalo
Cuando además de distinguir diferencias en grado, en la propiedad de un objeto, también se pueden distinguir diferencias iguales entre objetos, se tiene una medida de intervalo. Una forma de distinguir variables que se miden en esta escala, es que el cero no indica que hay ausencia de la variable. Un ejemplo típico de una variable que se mide en esta escala, es la temperatura cuando se mide en grados Fahrenheit o en grados Centígrados, pues éstas como es ya conocido, no son escalas absolutas, sino relativas. Sabemos que la diferencia entre 30º C y 35º C es la misma que entre 45º C y 50º C y si se dice que un líquido se encuentra a 0º C, no significa que no tiene temperatura.

Escala de razón o proporcional
En esta escala se cumplen todas las características que en las anteriores, además de que el cero sí indica una ausencia de la variable, por ejemplo, si la variable son los gastos semanales de una persona y nos dice que no tuvo gastos durante la semana, entonces es válido decir que sus gastos semanales fueron iguales a cero. Hay muchas variables de interés en la economía y administración que se evalúan en una escala de razón, otra podría ser la antigüedad de una persona en una empresa; si sabemos de alguien que apenas va a entrar a trabajar ahí y no tiene antigüedad se puede decir que su antigüedad es igual a cero años o meses.
ELECCIÓN DE UNA PRUEBA ESTADÍSTICA

Esta tarea puede resultar desde sencilla hasta difícil, dependiendo del número de variables que se deseen incluir en el estudio. En este artículo, solamente se incluirán pruebas que se aplican a una o dos variables, si se tienen más variables se podrían aplicar varias pruebas. Lo primero que se debe hacer es establecer el objetivo o propósito de la prueba para la variable o variables seleccionadas y las limitaciones que se pudieran tener en cuanto a los supuestos que se deben cumplir en las pruebas paramétricas. Si después de considerar esto, la prueba no se considera robusta, entonces es más conveniente buscar una prueba de la estadística no paramétrica y que resulte más confiable. Antes de pasar a revisar algunas de las pruebas con las que se cuenta en la estadística no paramétrica, se hará una revisión de los supuestos que generalmente se tienen que cumplir en algunas de las pruebas paramétricas más utilizadas.

Dentro de las pruebas paramétricas, se tienen para muestras grandes y para muestras pequeñas. Un supuesto que se aplica a ambas es que la muestra que se toma debe haber sido seleccionada en forma aleatoria o probabilística. En las pruebas paramétricas de muestra pequeña, se requiere el supuesto de que las muestras fueron extraídas de una población con distribución normal y cuando se trata de dos o más muestras también se requiere una prueba de igualdad de varianzas. Existen pruebas estadísticas por medio de las cuales se podría comprobar esto, sin embargo suele no dársele importancia a esto y se pasa por alto. El análisis de varianza, también se basa en el supuesto de normalidad de las poblaciones y en el de que sus varianzas son iguales.

En las pruebas en las que se tienen menos supuestos, es en las de muestra grande, las cuales se pueden aplicar sin saber o comprobar si la población o poblaciones eran normales, estas pruebas se dice que son robustas, porque no es necesario que se cumpla dicho supuesto. Cuando la prueba que se requiere no es robusta, no es necesario correr el riesgo de estar equivocados en las conclusiones, en ellos. En cambio, se dispone de muchas pruebas estadísticas no paramétricas que tienen una aplicación semejante a las paramétricas de muestra pequeña en las que se tienen menos supuestos.
PRUEBAS NO PARAMÉTRICAS

En estas técnicas, solamente se necesitan conocimientos elementales de matemáticas, pues los métodos son relativamente más sencillos que en las pruebas paramétricas. En estas pruebas, también se tienen supuestos, pero son pocos y no tienen que ver con la naturaleza de la distribución de la población, por lo que a estas técnicas también se les conoce como de libre distribución.

Una limitación que tienen es que no son aplicables a casos en los que se desean manejar muchas variables al mismo tiempo, para estos casos, sí se requeriría una prueba paramétrica; lo que sí se requiere y en general es el supuesto que se debe cumplir en la mayoría de las pruebas no paramétricas para confiar en ellas, es que la muestra haya sido seleccionada en forma probabilística.

Además del problema de los supuestos, algunos experimentos o estudios que se deseen realizar producen respuestas que no es posible evaluar con la escala que tiene más ventajas, por ejemplo, cuando los datos solamente se encuentran en una escala ordinal como cuando se evalúan las habilidades de los vendedores, o el atractivo de cinco modelos de casas, o la preferencia por sopas de cinco marcas diferentes. En general aspectos como la habilidad o preferencias de una alimento o producto, solamente los podemos ordenar; resultados de este tipo se presentan frecuentemente en estudios de mercado y en otros del campo de las ciencias sociales.

Las pruebas que se mencionarán son las que se podrían necesitar con mayor frecuencia, se mencionarán sus principales características y aplicaciones, además de la prueba paramétrica a la que podrían substituir en caso necesario, así como los supuestos en los que se basa la prueba, que como se podrá ver, son menos rigurosos que para las pruebas paramétricas.
1. Prueba de signos de una sola muestra
Se cree que esta prueba es la más antigua dentro de la estadística no paramétrica, pues se reporta en la literatura desde 1710 por Arbuthnott.2
Esta prueba corresponde a la prueba de media de una sola muestra y se recurre a ella cuando la muestra es de menos de 30 elementos y no se puede sostener el supuesto de normalidad de la población.

Se le llama prueba del signo porque la información contenida en la muestra seleccionada se puede transformar en un conjunto de signos más y menos; y cuando se hace la prueba no se hace uso de la magnitud de los valores de la muestra, sino solamente se consideran los signos.
Ésta se aplica cuando se muestrea una población simétrica continua de tal manera que la probabilidad de que una valor sea mayor que la media o menor que la media es de un medio. Para esta prueba se utiliza la distribución binomial.

En esta prueba se tiene la hipótesis nula H0 : m = m0 contra la alternativa pertinente, pudiendo ser ésta de uno o dos extremos. Los supuestos que se deben tomar en cuenta para aplicarla, son los siguientes: se tiene una muestra aleatoria que proviene de una población con mediana desconocida, la variable de interés se mide en escala ordinal o más fuerte y esta misma variable es de naturaleza continua .Cuando la variable se mide en escala ordinal, las hipótesis se referirán a la mediana y no a la media.

2. Prueba U de Mann- Whithey para muestras aleatorias independientes
Cuando se quieren comparar las ubicaciones relativas de dos poblaciones o cuando se quiere determinar si pertenecen a una misma población, dando por hecho que se trabaja con muestras aleatorias independientes, se utiliza esta prueba propuesta por Mann y Whitney en 1947.3
Ésta es una alternativa a la prueba t de Student de dos muestras para medias. Se puede recurrir a esta prueba no paramétrica cuando el supuesto de normalidad no se cumple o el relativo a la igualdad de varianzas poblacionales.

El procedimiento que se sigue en esta prueba, consiste en unir las dos muestras y posteriormente ordenar sus valores que toman independientemente de la muestra a que pertenecen para que después se les asignen los rangos a la muestra conjunta. Luego se calcularán para cada muestra, la suma de los rangos que le correspondan y estas sumas se utilizan para obtener la estadística de prueba.

Para realizar esta prueba, usando sus rangos correspondientes, se puede utilizar la distribución binomial cuando las muestras son pequeñas, o también se puede utilizar una tabla que ha sido elaborada especialmente para esta prueba, llamada tabla U; la cual fue hecha basándose en la distribución binomial. Cuando los tamaños de muestra son de 10 o mayores, se puede utilizar la distribución normal estándar. Los supuestos en los que se basa, son: que cada una de las muestras haya sido obtenida de una distribución aleatoria continua, que las muestras sean independientes y que la escala de medición empleada sea por lo menos la ordinal.

3. Prueba H de suma de rangos o prueba de Kruskal-Wallis para comparar k muestras independientes
También se conoce esta prueba como prueba H de Kruskal-Wallis para diseños completamente aleatorizados.

Cuando se tiene interés o necesidad de probar una hipótesis nula en la que se afirma que k tratamientos son iguales o que k muestras aleatorias independientes provienen de poblaciones idénticas, siendo k > 2, la prueba estadística que se realizaría dentro de la estadística paramétrica sería el análisis de varianza de un sentido y para la prueba se utilizaría la distribución F; sin embargo, cuando la escala es ordinal o se desconfía del supuesto de que las muestras provienen de poblaciones con forma de distribución normal, se puede utilizar esta prueba para muestras independientes. La hipótesis alternativa sería que al menos dos poblaciones tienen una distribución diferente.

Esta prueba solamente se puede usar cuando el tamaño de cada muestra sea mayor o igual a cinco. Se puede afirmar que el procedimiento que se realiza en esta prueba es una extensión del utilizado en la prueba U de Mann-Withney. Para proceder a realizar esta prueba, se utiliza la distribución ji cuadrada con (k-1) grados de libertad, siendo k el número de muestras con las que se trabaja.

Pruebas de aleatoriedad
Muchos métodos de tipo inferencial, se basan en el supuesto de que se manejan muestras aleatorias. Cuando se tiene una aplicación en la que es difícil saber si esta suposición se justifica o cuando no es posible seleccionar una muestra aleatoria por contar solamente con cierta información; se tienen dentro de las técnicas no paramétricas varios métodos que hacen posible juzgar la aleatoriedad sobre la base del orden o secuencia en el que se realizan las observaciones o en el que los puntajes u observaciones fueron obtenidos originalmente. Lo que se analiza es si aparecen patrones de los que se sospeche no sean aleatorios.

En las variables de tipo nominal, una corrida es una sucesión de letras u otro símbolo idénticos que van seguidos o precedidos de otra letra, símbolo, diversas letras o de ninguna, si se encuentra en el inicio o al final de una sucesión.4 Por ejemplo, cuando se lanza una moneda diez veces y si representamos por A el águila y con S el sol, se puede presentar la siguiente sucesión de resultados:
A SS AAA S AA S
1 2 3 4 5 6
Aquí se presentan seis corridas o rachas. Esta prueba puede aplicarse a variables de tipo cualitativo y cuantitativo, en el segundo caso, se utiliza la mediana como medida de referencia y a los valores que caigan arriba de ella se les asigna un signo positivo (+) o una letra como por ejemplo la A y a los que caigan abajo de ella, se les asigna el signo negativo (-) o una letra distinta, como por ejemplo la B y a partir de los signos o letras asignados, se identifican las rachas o corridas.

En estos casos, el número de corridas que se tiene es una buena indicación de una posible falta de aleatoriedad, que se presentaría con pocas o demasiadas corridas. Aquí se prueba aleatoriedad en el proceso de generación de una serie de observaciones de una variable aleatoria que sólo toma dos valores y la probabilidad de cada uno de ellos es 0.5, por lo cual la prueba se basa en una distribución binomial con probabilidad igual a 0.5. Se tiene una tabla realizada a partir de la distribución mencionada, mediante la que se hace la prueba de aleatoriedad de rachas en la que se encuentran los valores críticos del número de rachas tomando en cuenta el número de elementos de una clase (n1) y el número de elementos de la otra clase (n2). Cuando n1 y n2 son mayores que 20, la distribución muestral se puede determinar en forma muy aproximada con una distribución de probabilidad normal.

Medidas de asociación
Cuando se tienen observaciones formadas por una pareja de valores a partir de dos variables, surge la pregunta o necesidad de conocer acerca de si las variables estarán o no relacionadas y qué tan fuerte es esa relación. Para saber esto, generalmente se piensa en obtener un coeficiente de correlación que nos indique el grado de relación lineal entre las variables, pero debe tenerse cuidado de no interpretarlo como una medida de la relación causal entre las variables y también tomar en cuenta que si la relación no es lineal, la correlación no detecta la relación existente entre las variables.

En la estadística paramétrica se puede calcular el coeficiente de correlación de Pearson, que se puede aplicar a variables que se miden en escala de intervalo o mayor, pero bajo el supuesto de que los datos se distribuyen en base a una distribución normal bivariada, cuando esto no se cumple o cuando la escala de medida solamente es ordinal, es preferible usar una medida de asociación de las que se tienen en la estadística no paramétrica.

Un coeficiente de correlación que se basa en rangos y que es muy utilizado, es el de Sperman rs, éste resultado es muy fácil de calcular porque su cálculo es semejante al de correlación que generalmente se usa. Sperman desarrolló un trabajo en 1940 donde presentó este coeficiente que en lugar de utilizar los valores de las variables, utilizaba los rangos asociados a ellas, mediante éste se tiene una medida de asociación y además permite probar hipótesis; el único supuesto que tiene es que la escala de medida de la variable es al menos ordinal.5
Además de este coeficiente que nos permite medir la asociación entre dos variables, hay otras medidas de asociación para aquéllos casos en los que la escala con la que se miden las variables es de tipo nominal.

CONCLUSIÓN

Después de conocer para qué nos pueden servir las pruebas estadísticas no paramétricas y los supuestos que tienen, así como algunas pruebas paramétricas y los supuestos que se deben cumplir en ellas, se puede apreciar que si no se tiene información acerca del cumplimiento de ellos o si no se hacen las pruebas estadísticas pertinentes para ello, sería preferible recurrir a las no paramétricas, también llamadas de distribución libre, pues en ninguna de ellas se contempla el supuesto de que la distribución de la población tenga determinadas características. Tal vez el problema al que se enfrenten algunos los estudiantes o investigadores, sea el desconocimiento acerca de la estadística no paramétrica o la poca importancia que se le da al cumplimiento de los supuestos en los que se basan las pruebas paramétricas.

Aunque las pruebas correspondientes a la estadística no paramétrica no sean muy conocidas, son relativamente sencillas, pues la mayoría de ellas se basan en rangos en lugar de en valores de la variable o variables; en este artículo solamente se dio un panorama acerca de los casos a los que se podrían aplicar, realmente su aplicación podría ser muy amplia dentro del campo administrativo, sobre todo cuando las variables de interés se miden en una escala entre la nominal y la de intervalo, como suele suceder en los estudios en mercadotecnia y de recursos humanos.

martes, 6 de noviembre de 2007

GEOESTADÍSTICA



INTRODUCCIÓN

En el campo de las geociencias es comun que encontremos variables organizadas espacialmente. Para el estudio de estas variables son utilzados diversos procedimientos geoestadísticos de estimación y simulación. Esto es realizado a mediante un conjunto de muestras tomadas en localizaciones del dominio en que se manifiesta un fenómeno a estudiar y consideradas representativas de su realidad, que por lo general es siempre desconocida, estos procedimientos permiten la descripción o caracterización de las variables con dos fines diferentes, primero, proporcionar valores estimados en localizaciones de interés y segundo, generar valores que en conjunto presenten iguales características de dispersión que los datos originales. La geología y la minería es el campo típico para la aplicación de estos modelos, campo en el que surge y se desarrolla la Geoestadística como ciencia.


ORIGEN ESPECIFICO DE LA GEOESTADÍSTICA

La exploración y evaluación de yacimientos minerales útiles es una de las actividades fundamentales que toda empresa minera debe desarrollar durante su vida útil, destacándose entre otras tareas: el pronóstico científico en la localización de los yacimientos minerales útiles, la elaboración de métodos eficaces para la explo­ración y la evaluación geólogo económico de los yacimientos para su explotación. Todo esto condicionado al agotamiento de los recursos producto de la explotación y a las fluctuaciones de las cotizaciones del mercado. Los trabajos de búsqueda y exploración se dividen en estadios que son resultado de la aplicación de un principio importante del estudio del subsuelo, el Principio de Aproximaciones Sucesivas. Cada uno de los estadios culmina con la determinación lo más aproximada posible de los recursos minerales del yacimiento, actividad fundamental de las empresas geólogo - mineras conocida como cálculo de recursos y reservas.

El desarrollo de la minería ha traído unido el perfeccionamiento de los métodos de búsqueda de los minerales útiles, y los de la determinación de su cantidad y utilidad para la extracción, además, el mundo minero se hace cada vez más competitivo y las compañías necesitan evaluar su potencial económico. Existen actualmente dos formas de realizar el cálculo de reservas, los métodos clásicos y los modernos. Como clásicos se pueden destacar, el de “Bloques Geológicos” y el de “Perfiles Paralelos”, éstos se caracterizan por el uso de valores medios o media ponderadas de los contenidos de la exploración en bloques definidos convenientemente. Estos métodos son eficientes cuando la información disponible presenta determinada regularidad, pero en la práctica, la gran diversidad de formas en que se presentan los datos ha llevado a la utilización de técnicas matemáticas y estadísticas para resolver un único problema, estimar valores desconocidos a partir de los conocidos, para la estimación y caracterización de los recursos y reservas. En los últimos años muchas investigaciones se han desarrollado con este fin, existiendo mayor interés en las estimaciones a nivel local que a nivel global. Claro está, no existe un método por muy sofisticado que sea, que permita obtener resultados exactos.

Nuestro objetivo es hablar de los métodos más eficientes que proporcionen la mayor información posible de los datos disponibles, es decir, los modernos, de los que se pueden citar entre los geomatemáticos: El Inverso de la Distancia, Triangulación, Splines, etc. Aún más, buscando el mejor estimador que minimice la varianza del error de estimación surge la Geoestadística por los trabajos de G. Matheron en la Escuela Superior de Minas de París, basado en conceptos iniciales de trabajos de H.S. Sichel en 1947 y 1949, en la aplicación de la distribución lognormal en minas de oro, seguido por la famosa contribución de D.G. Krige en la aplicación del análisis de regresión entre muestras y bloques de mena. Estos trabajos fijaron la base de la Geoestadística Lineal, además, de la introducción de la teoría de funciones aleatorias por B. Matern en el estudio de la variación espacial de campos forestales. La Geoestadística se consolidó y desarrollo en los últimos 30 años como ciencia aplicada casi exclusivamente en el campo minero, la cual ha sido ampliamente usada, existiendo como ciencia aplicada que da respuesta a necesidades prácticas y concretas. Se reconoce como una rama de la estadística tradicional, que parte de la observación de que la variabilidad o continuidad espacial de las variables distribuidas en el espacio tienen una estructura particular, desarrollándose herramientas matemáticas para el estudio de estas variables dependientes entre si, llamadas según Matheron variables regionalizadas, quien elaboró su teoría como se presenta en Matheron (1970), Journel y Huijbregts (1978), David (1977) y de Fouquet (1996). En resumen, la aplicación de la teoría de los procesos estocásticos a los problemas de evaluación de reservas de distintos tipos de materias primas minerales y en general a las ciencias naturales en el análisis de datos distribuidos espacial y temporalmente dio origen a lo que hoy se conoce como Geoestadística.

GEOESTADÍSTICA, CONCEPTO

La Geoestadística se define como la aplicación de la Teoría de Funciones Aleatorias al reconocimiento y estimación de fenómenos naturales o como el estudio de las variables numéricas distribuidas en el espacio, siendo una herramienta útil en el estudio de estas variables . Su punto de partida es asumir una intuición topo-probabilista. Los fenómenos distribuidos en el espacio, la mineralización en un yacimiento mineral por ejemplo, presenta un carácter mixto, un comportamiento caótico o aleatorio a escala local, pero a la vez estructural a gran escala, como se muestra en la siguiente figura:



Se puede entonces sugerir la idea de interpretar este fenómeno en términos de Función Aleatoria (FA), es decir, a cada punto x del espacio se le asocia una Variable Aleatoria (VA) Z(x), para dos puntos diferentes x e y, se tendrán dos VAs Z(x) y Z(y) diferentes pero no independientes, y es precisamente su grado de correlación el encargado de reflejar la continuidad de la mineralización, o de cualquier otro fenómeno en estudio, de modo que el éxito de esta técnica es la determinación de la función de correlación espacial de los datos. Su estimador, El Krigeaje, tiene como objetivo encontrar la mejor estimación posible a partir de la información disponible, y en efecto, el valor estimado obtenido Z*(x) de un valor real y desconocido Z(x), consiste en una combinación lineal de pesos asociados a cada localización donde fue muestreado un valor Z(xi) (i = 1,…n) del fenómeno estudiado, observando dos condiciones fundamentales: 1.- que el estimador sea insesgado. E[Z* - Z] = 0, y 2.- que la varianza Var[Z* - Z] sea mínima, consiguiéndose de este modo minimizar la varianza de error de estimación.
A diferencia de otros métodos de interpolación, como por ejemplo el inverso de la distancia, el krigeaje utiliza en la estimación las características de variabilidad y correlación espacial del fenómeno estudiado, por lo que su uso implica un análisis previo de la información con el objetivo de definir o extraer de esta información inicial un modelo que represente su continuidad espacial. Una vez logrado, estamos en condiciones de obtener el mejor valor posible en cada localización o bloque a estimar a partir de los datos medidos, acompañada de la varianza de krigeaje como medida del error de la estimación realizada, lo que distingue al krigeaje de otros métodos de interpolación.
VARIABLES ALEATORIAS REGIONALIZADAS

Continuando con el caso minero, la información inicial para realizar el cálculo de reservas es el resultado del análisis de los testigos de perforación, o muestras de afloramiento, obtenido en los laboreos de exploración, que como una variable aleatoria puede tomar cualquier valor dentro de un rango determinado. Esta es la característica fundamental que distingue a este tipo de variable, además de su valor, una posición en el espacio, hecho éste al que Matheron denominó Variable Aleatoria Regionalizada, la cual está presente en la mayor parte de los estudios geológicos (Pawlowsky et al., 1995) y fenómenos naturales. Al respecto en Journel y Huijbregts (1978) y David (1977) se dedica el capítulo II y V respectivamente a la teoría de la variable regionalizada. Capítulos donde se presentan los conceptos fundamentales de la Geoestadística, en la que particularmente Journel y Huijbregts (1978) plantea que la definición de variable regionalizada como una variable distribuida en el espacio es puramente descriptiva y envuelve una interpretación probabilística, refiriéndose a que, desde el punto de vista matemático una variable regionalizada es simplemente una función f(x) que toma valores en todos los puntos x de coordenadas (xi, yi, zi) en el espacio tridimensional. Sin embargo, es muy frecuente que estas funciones varíen tan irregularmente en el espacio que impiden un estudio matemático directo, y se hace necesario realizar un análisis de variabilidad de la información disponible, sugiriendo un estudio profundo de la función variograma como veremos más adelante.

En términos teóricos es oportuno aclarar que una variable aleatoria (VA) es una variable que puede tomar ciertos valores de acuerdo a cierta distribución de probabilidades. Un valor medido en cada punto xi es considerado como una realización z(xi) de una VA Z(xi) cuya media es m(xi). En los puntos x donde no existen valores medidos es desconocida la propiedad que se estudia, pero están bien definidos y pueden asimismo considerarse variables aleatorias Z(x). Al conjunto de todas las mediciones z(x) en el área de estudio de la variable regionalizada puede considerarse como una realización particular del conjunto de VAs (Z(x), x Î área de estudio). A este conjunto de VAs se llama Función Aleatoria y se escribe Z(x). De modo que al extender el concepto de función aleatoria al espacio de una o más dimensiones, aparece la noción aleatoria y estructural de una variable regionalizada: primero Z(x) como VA y segundo que las VAs Z(x) y Z(x+h) no son en general independientes, si no que están relacionadas por la estructura espacial de la variable regionalizada original Z(x).
CONCEPTOS DE VARIABLE ALEATORIA REGIONALIZADA

En el estudio de las variables aleatorias regionalizadas es importante presentar conceptos que se señalan en Journel y Huijbregts (1978) y David (1977) y que son utilizados por la mayoría de los autores donde se aplican los métodos geoestadísticos como herramienta fundamental de trabajo.
Estos conceptos son:

Región: se refiere al espacio en el cual existe y se estudia el fenómeno natural.
Localización: Es el punto de una región en la cual se define una variable aleatoria regionalizada.
Soporte Geométrico: Está determinado por el elemento físico sobre el cual se realiza la determinación de la variable aleatoria regionalizada, esto no es más que la muestra unitaria, sobre la cual estudiaremos el atributo de interés.
Momentos de primer orden:
Si la función de distribución de Z(xi) tiene una media definida, será una función de la localización xi. m(xi) = E{Z(xi)}
Momento de segundo orden:
Si la varianza (Var) de Z(xi) existe, entonces se define como el momento de segundo orden y será también una función de la localización xi.
Var {Z(xi)} = E{[Z(xi) - m(xi)] 2}
Si la varianza de las variables Z(xi) y Z(xj) existe entonces la covarianza (Cov) de las éstas también existe y es función de las localizaciones xi y xj.
Cov[Z(xi), Z(xj)] = E{[Z(xi) - m(xi)][Z(xj) - m(xj)]}
si xi = xj ; Cov[Z(xi), Z(xj)] = Var {Z(xi)}
La función variograma o función estructural se define como la varianza de la diferencia Z(xi) - Z(xj).
Var{Z(xi) - Z(xj)} = 2g(xi, xj}
la magnitud g(xi, xj} = ½ Var{Z(xi) - Z(xj)} se denomina semivariograma.

También se puede definir el correlograma estandarizando, la covarianza para los valores xi - xj = h = 0 como: r (h) = C(h)/C(0) -1 £ r £ 1
donde: C(h) es la covarianza a la distancia h,
C(0) es la covarianza en el origen.

Existen relaciones entre estas medidas de correlación:
g(h} = C(0) - C(h) con g(0) = 0
r (h) = 1 - g(h)/C(0)