3 results
Search Results
Now showing 1 - 3 of 3
Item Clasificación de litología y estimación de vetas en testigos de sondajes diamantino usando machine learning y visión computacionalAutores: Arriagada Silva, Sebastián IgnacioProfesor Guía: Reyes Jara, Manuel RolandoLa exploración geológica y la descripción de muestras de corteza terrestre son de suma importancia para la evaluación de yacimientos minerales. Por esta razón, existen múltiples esfuerzos por mejorar la metodología de descripción o de mapeo de rocas, siendo los algoritmos de machine learning basados en redes neuronales una potencial herramienta para estandarizar, automatizar y agilizar estos procesos. Este trabajo aborda la aplicación de dos tipos de modelos de machine learning, con el objetivo de clasificar la litología y estimar la presencia de vetas utilizando fotografías digitales de sondajes tipo diamantino. El primer tipo de modelo es generado a través del proceso Automated Machine Learning (AutoML), el cual adapta modelos de clasificación preexistentes con buenos rendimientos en bases de datos estandarizadas y los optimiza para ser entrenados en una nueva base de datos. La clasificación de imágenes fue utilizada para la inferencia de la litología, del estado geotécnico y de la presencia de vetas. El segundo tipo, correspondiente un modelo cGAN (Conditional Generative Adversarial Networks), está compuesto por dos redes neuronales enfrentadas en un juego de suma cero, en donde si uno gana el otro pierde, obteniendo destacados resultados en tareas como la transferencia de estilos en imágenes. Este modelo fue utilizado para la segmentación de mineralización en vetas. Para cuantificar el desempeño de los modelos se utilizaron 5 métricas derivadas de las correspondientes matrices de confusión. Con respecto a los resultados de la clasificación litológica, el mejor rendimiento se consiguió utilizando la etiqueta binaria correspondiente a “litología de interés” y “otro tipo”, junto con entrenar un modelo diferente especializado en cada estado geotécnico presente (roca fracturada, molida, intacta y semi intacta). Se obtiene en conjunto un acierto del 79% de las veces y un 59% de posibilidades de que al reconocer la litología de interés, esta sea correctamente etiquetada. El mayor rendimiento se obtiene dentro de la roca intacta con 78% y 79% respectivamente. Al analizar los datos clasificados erróneamente según la información obtenida por observación directa (verdad fundamental), se detectan casos que corresponden a potenciales zonas de transición entre la litología de interés y otras. Por lo tanto, si bien aún no se obtiene un nivel de asertividad necesario para automatizar por completo el proceso de mapeo, esta metodología presenta una potencial utilidad para realizar un perfil coherente de cada litología y detectar errores dentro de mapeos anteriores. Con respecto a la estimación de vetas, al segmentar las zonas de mineralización observable en las fotografías, es posible estimar su área con una exactitud del 97% y una precisión del 83% con respecto a los datos de prueba segmentados manualmente por un humano. La efectividad de estimación se ve reducida por factores como la variabilidad de tonalidades a lo largo de la roca y la presencia de zonas de alto brillo en la superficie. Aplicando ambas metodologías, es posible realizar inferencias dentro de nuevos sondajes a una rapidez por sobre 1 metro por segundo. Se recomienda utilizar esta herramienta como apoyo para agilizar el proceso de mapeo, pre clasificando y segmentando las zonas con altos niveles de certeza y señalar las zonas con mayor incerteza para la validación manual por parte del equipo de geología. // ABSTRACT: Geological exploration and description of earth's crust samples are of prime importance for the evaluation of mineral deposits. For this reason, there are multiple efforts to improve the methodology of description or rock mapping, being machine learning algorithms based on neural networks a potential tool to standardize, automate and streamline these processes. This work addresses the application of two types of machine learning models, with the objective of classifying lithology and estimating the presence of veins using digital photographs of diamond drill holes. The first type of model is generated through the Automated Machine Learning (AutoML) process, which adapts pre-existing classification models with good performance in standardized databases and optimizes them to be trained on a new database. The image classification was used for inference of lithology, geotechnical state and presence of veins. The second type, corresponding to a cGAN (Conditional Generative Adversarial Networks) model, is composed of two neural networks facing each other in a zero-sum game, where if one wins the other loses, obtaining outstanding results in tasks such as the transfer of styles in images. This model was used for the segmentation of mineralization in veins. To quantify the performance of the models, 5 metrics derived from the corresponding confusion matrices were used. With respect to the lithological classification results, the best performance was achieved by using the binary label corresponding to "lithology of interest" and "other type", together with training a different model specialized in each geotechnical state present (fractured, ground, intact and semi-intact rock). Overall a 79% success rate is obtained and a 59% chance that when recognizing the lithology of interest, it is correctly labeled. The highest performance is obtained within intact rock with 78% and 79% respectively. When analyzing the misclassified data according to the information obtained by direct observation (ground truth), cases are detected that correspond to potential transition zones between the lithology of interest and others. Therefore, although a level of assertiveness necessary to fully automate the mapping process is not yet obtained, this methodology presents a potential utility to make a coherent profile of each lithology and to detect errors within previous mappings. With respect to vein estimation, by segmenting the zones of observable mineralization in the photographs, it is possible to estimate their area with an accuracy of 97% and an accuracy of 83% with respect to test data manually segmented by a human. The estimation effectiveness is reduced by factors such as the variability of shades along the rock and the presence of high brightness zones on the surface. By applying both methodologies, it is possible to make inferences within new drillholes at a speed of over 1 meter per second. It is recommended to use this tool as a support to speed up the mapping process, pre-classifying and segmenting the zones with high levels of certainty and pointing out the zones with higher uncertainty for manual validation by the geology team.Item Development and application of consumer credit scoring models using profit-based V classification measuresAutores: Verbraken, T.; Bravo, C.; Weber, R.; Baesens, B.This paper presents a new approach for consumer credit scoring, by tailoring a profit-based classification performance measure to credit risk modeling. This performance measure takes into account the expected profits and losses of credit granting and thereby better aligns the model developers' objectives with those of the lending company. It is based on the Expected Maximum Profit (EMP) measure and is used to find a trade-off between the expected losses - driven by the exposure of the loan and the loss given default and the operational income given by the loan. Additionally, one of the major advantages of using the proposed measure is that it permits to calculate the optimal cutoff value, which is necessary for model implementation. To test the proposed approach, we use a dataset of loans granted by a government institution, and benchmarked the accuracy and monetary gain of using EMP, accuracy, and the area under the ROC curve as measures for selecting model parameters, and for determining the respective cutoff values. The results show that our proposed profit-based classification measure outperforms the alternative approaches in terms of both accuracy and monetary value in the test set, and that it facilitates model deployment. (C) 2014 Elsevier B.V. All rights reserved.Item A profit measure with deterministic and stochastic effects for data mining modelsAutores: Garrido Céspedes, Franco EduardoProfesor Guía: Bravo Román, CristiánEn la actualidad los entornos de negocios se están volviendo más competitivos, solo aquellos que toman decisiones informadas se mantienen exitosos, por lo tanto es imperativo tomar siempre decisiones bien informadas con el objetivo de lograr el fin último de los negocios, alcanzar la utilidad más alta posible. Business Analytics es un área que incluye el uso de modelos de Data Mining para tomar decisiones de negocios de manera informada, pero a pesar de que existe una amplia variedad de modelos, existen pocas medidas para estos modelos que consideren los costos y beneficios asociados a las decisiones conducidas por éstos. En este contexto nosotros tratamos de enriquecer el estado del arte de la toma de decisiones a través de una mejora a una medida de utilidad, para lo cual identificamos una medida de utilidad y extendimos su dominio esperando modelar la variabilidad de los costos y beneficios en los ambientes de negocios con alta variabilidad, proporcionando una medida capaz de modelar un número más amplio de contextos de negocios. Este nuevo enfoque consiste en la adición de choques aleatorios a las distribuciones de costo y beneficio de una medida conocida como Expected Maximum Profit, la nueva medida es llamada R-EMP. La investigación puso en marcha un experimento sintético y otro empírico en un contexto de credit scoring. El experimento sintético fue desarrollado simulando un conjunto de datos, y el caso empírico fue basado en un conjunto de datos de una empresa financiera de Chile. Para ambos experimentos se utilizó Regresión Logística para clasificar si un cliente cometió default o no, utilizando como criterio de selección nuestra medida (R-EMP), una medida frecuentemente usada conocida como AUC, una media de perdidas conocida como H-measure y nuestra medida primaria EMP. Luego seleccionamos nuestros choques aleatorios como información aleatoria normalmente distribuida, replicamos 5.000 veces y simultáneamente muestreando de forma estratificada las dos clases desbalanceadas, teniendo como resultado de ambos experimentos un acuerdo sobre la mejora en la utilidad cuando la medida R-EMP fue utilizada como criterio de selección. Como conclusión validamos la incorporación de choques aleatorios para mejorar una herramienta para la toma de decisiones como lo es la medida EMP, entonces nosotros recomendamos el uso de la medida R-EMP como criterio de selección en ambientes de negocios muy variables. Para investigaciones futuras sería interesante incorporar choques aleatorios en otras aplicaciones de negocios como la fuga de clientes, además de probar otras variedades de choques y además capturar choques asociados a contextos reales para incorporarlos como entrada a la medida R-EMP. / ABSTRACT: Nowadays business environments are becoming more competitive, just those who take informed decisions remain successful, so it is imperative to take informed decisions to reach the businesses ultimate goal, achieve a profit as high as possible. Business Analytics is an area which includes the use of Data Mining models to take informed business decisions. There is a wide variety of models, but there are few measures for those models that takes in consideration the costs and benefits associated to the decisions driven by them. In this context we aim to enrich the state-of-art on decision making tools by generating a new profit-driven measure. We identify a profit-driven measure and extent its domain aiming to model the variability of costs and benefits for highly-variable business environments, providing a measure able to model a wider number of business contexts. This new approach consist into adding random shocks to the cost-benefit distributions of a measure known as Expected Maximum Profit, the new measure is called R-EMP. The research established a synthetic and empirical experiment in a context of credit scoring. The synthetic case was developed simulating a credit scoring data set, and the empirical case was based on Chilean financial institution dataset. For both experiments we used the Logistic Regression model to classify if a client fall in default or not, using as selecting criterion of attributes our measure (R-EMP), a commonly used measure known as AUC, a measure of losses known as H-measure and our primary measure known as EMP. Then, we selected our random shocks as random normally distributed information, replicating 5,000 times and simultaneously applied stratified sampling accordingly to the two imbalanced classes. The results of both experiments agrees that using R-EMP measure as selection criterion drives to the improvement of the total profit for the company. As conclusion we validate the incorporation of random shocks to improve a decision making tool EMP measure. We recommended the use of R-EMP measure as selection criteria on highly-variable business environments. For future research it would be interesting to incorporate random shocks to another business applications like churn prediction, also trying to test another variety of shocks, and also to capture a real business shock and incorporate this as input for the R-EMP measure.