Université de technologie de Compiègne. Compiègne (France)
June 7th, 2013
Original summary:
El contenido de esta tesis está orientado hacia el desarrollo de nuevos algoritmos que permitan incluir técnicas de selección de variable dentro del propio mecanismo de optimización. En la Parte I, se introduce el contexto en el que este trabajo se ha desarrollado y el proyecto que lo financió. También se detallan en esta primera parte los conceptos teóricos necesarios para entender los modelos así como una revisión del estado del arte. La primera contribución de esta tesis se explica en la Parte II, donde se describe el algoritmo de aprendizaje supervisado GLOSS y la teoría que lo sostiene así como algunos experimentos que verifican su rendimiento en comparación con otros algoritmos de última generación. La segunda contribución se detalla en la Parte III, con una estructura análoga a la de la Parte II pero para el dominio de aprendizaje no supervisado. El algoritmo de clustering MIX-GLOSS adapta el algoritmo que hemos desarrollado al dominio no supervisado a través de un mecanismo EM modificado que garantiza la convergencia.
English summary:
This thesis deals with the development of estimation algorithms with embedded feature selection the context of high dimensional data, in the supervised and unsupervised frameworks. The contributions of this work are materialized by two algorithms, GLOSS for the supervised domain and Mix-GLOSS for unsupervised counterpart. Both algorithms are based on the resolution of optimal scoring regression regularized with a quadratic formulation of the group-Lasso penalty which encourages the removal of uninformative features. The theoretical foundations that prove that a group-Lasso penalized optimal scoring regression can be used to solve a linear discriminant analysis bave been firstly developed in this work. The theory that adapts this technique to the unsupervised domain by means of the EM algorithm is not new, but it has never been clearly exposed for a sparsity-inducing penalty. This thesis solidly demonstrates that the utilization of group-Lasso penalized optimal scoring regression inside an EM algorithm is possible. Our algorithms have been tested with real and artificial high dimensional databases with impressive resuits from the point of view of the parsimony without compromising prediction performances.
Citation:
L.F. S. Merchante (2013), Learning algorithms for sparse classification. Université de technologie de Compiègne. Compiègne (France).