Una metodologia para encontrar el mejor clasificador en decision empresarial.

Author:Vega Vilca, Jose C.
Position:Ensayo
Pages:63(11)
 
FREE EXCERPT

RESUMEN

En la investigacion, se presenta una metodologia para mejorar las estrategias de analisis en situaciones donde la clasificacion supervisada se convierte en la herramienta fundamental de decision empresarial. La necesidad de catalogar a los nuevos clientes en uno de varios grupos, definidos de acuerdo a las caracteristicas del sujeto, es analizada mediante el calculo de la tasa de error. Con este proposito, se elaboraron programas en lenguaje R para calcular la tasa de error de cada uno de los nueve clasificadores, usando el metodo de validacion cruzada 10 (Stone, 1974), en 50 permutaciones de los datos en estudio. Para cada conjunto de datos analizados se demostro, mediante ANOVA, que efectivamente existen diferencias significativas en el promedio de tasas de error de los clasificadores (p=0.00); por lo tanto, se concluye que el mejor clasificador es aquel con la minima tasa de error.

PALABRAS CLAVE: CLASIFICACION SUPERVISADA, VALIDACION CRUZADA, TASA DE ERROR, CLIENTE, DECISION ESTADISTICA, ANALISIS MULTIVARIABLE.

ABSTRACT

In this research, a methodology is presented to improve strategies of analysis in situations where supervised classification becomes the fundamental tool for business decision. The need to categorize the new customers into one of several groups, according to the characteristics of the subject, is analyzed through the calculation of the error rate. Programs were written using the statistical software package R, to calculate the error rate of each of nine classifiers, using cross-validation method 10 (Stone, 1974), in the 50 permutations of the data under consideration. For each of the analyzed data sets it was demonstrated, through ANOVA, that there are indeed significant differences in the average error rates of classifiers (p=0.00); therefore, it is concluded that the best classifier is the one with the lowest error rate.

KEYWORDS: SUPERVISED CLASSIFICATION, CROSS VALIDATION, ERROR RATE, CUSTOMER, STATISTICAL DECISION, MULTIVARIATE ANALYSIS.

  1. INTRODUCCION

    Un analisis adecuado tanto de las caracteristicas o dinamicas de comportamiento de los clientes actuales o potenciales resulta fundamental, asi como de los datos sobre insumos, mercados, distribuidores, etc., los cuales son basicos para el diseno de estrategias empresariales. En este articulo, se plantea una metodologia para mejorar las estrategias de analisis de datos en situaciones donde los clientes, al igual que los insumos o cualquier otro sujeto de estudio (personas, animales o cosas), deben ser catalogados correctamente en grupos definidos de acuerdo a sus caracteristicas, para encontrar patrones favorables o negativos. Asi, por ejemplo, los solicitantes de prestamo ante una entidad bancaria brindan informacion personal como ingresos, edad, sexo, situacion familiar, antiguedad en su puesto de trabajo, gastos, numero de dependientes, etc. Estas caracteristicas estan registradas en la base de datos del banco. A partir de los datos obtenidos en casos antiguos, se identifican los rasgos particulares de los clientes cumplidores, con el fin de determinar si se conceden o no los prestamos a los solicitantes.

    La Clasificacion Supervisada (Witten, Frank y Hall, 2011) es una herramienta estadistica, cuyo proposito es construir un clasificador con minima tasa de error de clasificacion, con la finalidad de ubicar nuevos sujetos en uno de los grupos posibles, de acuerdo a las caracteristicas del sujeto y del grupo donde sera ubicado. Para la construccion del clasificador se necesita una matriz de datos X de orden n x p , donde n indica el numero de sujetos y p el numero de variables en estudio. Cada fila de la matriz X contiene las respuestas de cada sujeto a las p-variables. Ademas es necesario un vector de grupos o clases Y de orden n x 1 que contiene un indicador del grupo al que pertenecen cada uno de los n sujetos.

    En el proceso de clasificacion de un nuevo sujeto, este puede ser ubicado en un grupo que realmente no le corresponde; en ese momento, se considera que el clasificador ha cometido error de clasificacion. Resulta indispensable conocer la tasa de error de clasificacion, definida como la probabilidad que tiene el clasificador de ubicar un nuevo sujeto en una categoria que no le corresponde. Ademas, se debe experimentar con muchos clasificadores para encontrar un clasificador con minima tasa de error. En este trabajo se calcula la tasa de error de nueve clasificadores sobre cada una de dos diferentes bases de datos en estudio; el mejor clasificador queda definido por la tasa de error minima, que no necesariamente es el mismo para ambos conjunto de datos.

    La investigacion esta enfocada en las siguientes hipotesis:

    * Existen diferencias significativas entre los promedios de la tasa de error de los nueve clasificadores aplicados sobre un mismo conjunto de datos.

    * No existe un clasificador que logre, en cualquier conjunto de datos, detectar la minima tasa de error.

  2. METODOLOGIA

    En este trabajo se analizan las caracteristicas de los nuevos clientes de una empresa, con la finalidad de predecir su comportamiento. La clientela nueva sera catalogada en categorias establecidas segun el comportamiento de los clientes actuales de una empresa, -con la finalidad de elaborar estrategias empresariales particulares de acuerdo a las caracteristicas del grupo de clientes. En general, el problema de predecir el comportamiento de un nuevo cliente, desde la optica de clasificacion supervisada, se resume de la siguiente manera:

    Problema: Se tiene un nuevo sujeto caracterizado por las p-variables estudiadas. ?En cual de los G grupos debe ser clasificado?

    Respuesta: El nuevo sujeto debe ser clasificado en el grupo, donde la probabilidad de pertenecer a dicho...

To continue reading

REQUEST YOUR TRIAL