Sesión Estadística, Ciencia de Datos e Inteligencia Artificial
Martes 17 de septiembre
Mañana - Aula 21
Horario | Título | Expositor/a |
---|---|---|
9:40 ~ 10:00 | Métodos de Predicción de Series Temporales Simbólicas de Intervalos. | Cecilia Evelyn Martínez |
10:05 ~ 10:25 | Análisis Estadístico de las Características Habitacionales de la Población de Cuyo . Censo 2022 | Lilian Adriana Mallea |
10:30 ~ 10:50 | Técnicas matriciales para la clasificación de discursos presidenciales | Ian Bounos |
Tarde - Aula 21
Horario | Título | Expositor/a |
---|---|---|
14:30 ~ 14:50 | Regresión robusta para composiciones con distribución Dirichlet generalizada. | Marina Fragalá |
14:55 ~ 15:15 | Análisis de interacciones de alto orden en señales de iEEG y MEG a través de cuantificadores y distancias entre Hipergrafos en distintos estados cerebrales | Dalma Bilbao |
15:20 ~ 15:40 | Reign-and-Conquer: Cluster Analysis with a Different Number of Clusters per Margin | Gabriel Martos Venturini |
16:20 ~ 16:40 | Análisis de relaciones entre variables espaciales y de contexto en partidos de la Liga Española de Fútbol | Pablo Mislej |
16:45 ~ 17:05 | Sistemas de recomendación para datos en alta dimensión: Una nueva propuesta metodológica basada en cestas de consumo | Maria Florencia Acosta |
17:10 ~ 17:30 | Análisis de datos y aprendizaje automático para estrategias de carrera en la Fórmula 1: GP Silverstone 2024 | Ezequiel Francisco Chocobar |
Miércoles 18 de septiembre
Mañana - Aula 21
Horario | Título | Expositor/a |
---|---|---|
9:40 ~ 10:00 | Test de Hipótesis para la varianza de un número grande de poblaciones. | Daniela Rodriguez |
10:05 ~ 10:25 | Pruebas de hipótesis robustas en modelos parcialmente lineales de índice simple | María Florencia Statti |
10:30 ~ 10:50 | Estimación robusta en modelos lineales generalizados de alta dimensión | Marina Valdora |
Resúmenes
Martes 17 de septiembre, 9:40 ~ 10:00
Métodos de Predicción de Series Temporales Simbólicas de Intervalos.
Cecilia Evelyn Martínez
Universidad Nacional de San Juan - Facultad de Ciencias Exactas, Físicas y Naturales., Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Los datos simbólicos son un paradigma de representación de la información que surge a fines de los ochenta (Diday, 1987) bajo la premisa de que las variables clásicas, es decir, aquellas que a cada individuo le asignan un único valor, no son capaces de representar con fidelidad algunas situaciones. El análisis de datos simbólicos nos presenta una nueva manera de procesar información de diversas clases. En este sentido, los datos simbólicos, a diferencia de los clásicos, permiten representar conceptos de una manera sintética y descriptiva. La característica fundamental de los datos simbólicos es que permiten la descripción de elementos o fenómenos donde exista una variabilidad interna. Los conceptos implican variabilidad ya que por ejemplo, las distintas realizaciones de ese concepto pueden ser algo diferentes entre sí. La variabilidad surge de manera natural al agregar observaciones; dicha agregación puede ser contemporánea, es decir, si se recopilan observaciones recogidas en un mismo instante temporal o cuando el instante temporal no es importante, o bien, temporal, cuando el criterio de agregación es el tiempo y se recopilan observaciones ocurridas a lo largo de una unidad de tiempo, por ejemplo, una hora, un día, una año, etc.
Al tener una estructura distinta que la de los datos clásicos, las técnicas de análisis del paradigma clásico no son válidas para analizar los datos simbólicos. Por ello, es necesario desarrollar un nuevo catálogo de métodos que sean capaces de extraer el conocimiento de este nuevo tipo de datos. Éste es el propósito del análisis de datos simbólicos.
Nuestro trabajo se centra en la descripción y pronóstico de las Series Temporales Simbólicas de Intervalo (STI), las cuales proporcionan una ventaja única para explorar la evolución de variables a lo largo del tiempo y que pueden ser un paso vital a la hora de decidir y planificar estratégicamente.
El análisis y la predicción de series de tiempo de intervalo tienen aplicaciones significativas en una amplia gama de campos, desde la economía y la meteorología hasta la salud pública y la industria. Capturan cómo variables cambian con el tiempo, revelando patrones cambiantes ocultos, y proporciona la base para la detección de anomalías, la predicción de eventos futuros, y la comprensión de ciclos y tendencias.
En el presente trabajo se abordan cuestiones metodológicas relativas al modelado y pronóstico de las STI, la selección de técnicas apropiadas para su análisis e interpretación de los resultados. Las mismas se aplican a series temporales de intervalo en un contexto financiero, tomando como ejemplo el Índice de Dow Jones y el Índice S $\&$ P 500.
Trabajo en conjunto con: Lilian Adriana Mallea (Universidad Nacional de San Juan, Argentina).
Referencias
[1] Arroyo Gallardo, Javier. Tesis para la obtencióon del título de doctor: Méetodos de Predicción para Series Temporales de Intervalos e Histogramas. Departamento de Organizacióon Industrial Escuela Técnica Superior de Ingeniería (ICAI) Universidad Pontificia Comillas. Madrid, año 2008.
[2] Arroyo, Javier; Gonzáles Rivera, Gloria; Maté, Carlos. ``Forecasting with interval and histogram data Some financial applications".
[3] Diday, Edwin; Noirhomme Fraiture, Monique. ``Symbolic data analysis and the SODAS software".
[4] Diday, Edwin; Monique Noirhomme-Fraiture. ``Symbolic Data Analysis and the SODAS Software".
Martes 17 de septiembre, 10:05 ~ 10:25
Análisis Estadístico de las Características Habitacionales de la Población de Cuyo . Censo 2022
Lilian Adriana Mallea
Universidad Nacional de San Juan, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
En el presente trabajo se analizan, desde un enfoque estadístico de datos clásicos y de datos simbólicos, las condiciones habitacionales de la población de Cuyo en viviendas particulares. La fuente es el INDEC y los datos corresponden al Censo Nacional de Población, Hogares y Viviendas 2022 de las provincias de San Juan, Mendoza y San Luis ([5], [6], [7]). En el análisis clásico, la unidad experimental o microdato es el Departamento de cada una de las provincias de Cuyo. Siguiendo este enfoque se lleva a cabo un Análisis Factorial Exploratorio y posterior Clustering a partir de los factores principales, [4]. Con el propósito de realizar un Análisis de Datos Simbólicos (ADS) se agrupan los departamentos en clases o macrodatos según dos conceptos que permiten obtener los objetos simbolicos (OS) [1] a analizar. Se agrupan de acuerdo al concepto “Departamentos centrales de la Provincia”, en el que se incluye a Capital y sus departamentos aledaños, coincidentes aproximadamente, con los aglomerados urbanos de las respectivas provincias. El segundo de los conceptos se denomina “Otros departamentos”. En ambos casos se obtienen tres OS. En el enfoque simbólico se realiza una visualización y descripción simbólica de los objetos obtenidos ([2], [3]). De esta forma se logra, con la complementación de ambos tipos de análisis de datos, caracterizar zonas de cada provincia de Cuyo de acuerdo a las caracteristicas de vivienda de su población, como así también comparar las condiciones habitacionales de la población de las tres provincias.
Palabras Clave: Población. Cuyo. Censo2022. Datos clásicos. Datos simbólicos.
Trabajo en conjunto con: Jose Ernesto Torres (Universidad Nacional de San Juan) y Leonel Ganga (Universidad Nacional de San Juan).
Referencias
[1] L. Billard, L., Diday, E. Symbolic Data Analysis: Conceptual Statistics and Data Mining. 2007.
[2] H. Bock, E. Diday. Analysis of Symbolic Data: Exploratory methods for extracting statistical information from complex data. Springer-Verlar, Berlin-Heidelberg, 2000.
[3] E. Diday. An Introduction to Symbolic Data Analysis and the Sodas Software. University Paris,Dauphine, 2000
[4] D. Peña. Análisis de datos multivariantes. Madrid, Mc Graw Hill. 2002.
[5] Censo Nacional de Población, Hogares y Viviendas 2022. Resultados Definitivos. Provincia de San Juan. INDEC.2023.
[6] Censo Nacional de Población, Hogares y Viviendas 2022. Resultados Definitivos. Provincia de Mendoza. INDEC.. 2023.
[7] Censo Nacional de Población, Hogares y Viviendas 2022. Resultados Definitivos. Provincia de San Luis. INDEC.. 2023.
Martes 17 de septiembre, 10:30 ~ 10:50
Técnicas matriciales para la clasificación de discursos presidenciales
Ian Bounos
Universidad de Buenos Aires, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
En este trabajo se muestra cómo pueden utilizarse métodos de reducción de dimensionalidad basados en matrices para la clasificación de autores de discursos presidenciales. La representación de textos como matrices de frecuencias, en la cual cada columna es una palabra del vocabulario, suele presentar el desafío de la alta dimensionalidad, por lo cual es preciso utilizar técnicas para reducir dicha dimensión. En este estudio, se emplean 1108 discursos de los presidentes Alberto Fernández, Cristina Fernández de Kirchner y Mauricio Macri, obtenidos mediante técnicas de scraping de páginas oficiales. Se utilizan dos métodos de reducción de dimensionalidad basados en matrices: el Análisis de Componentes Principales (PCA) y la Factorización No Negativa de Matrices (NMF), con el objetivo de reducir la dimensión de las matrices y, en primer lugar, obtener una visualización de los discursos. En una segunda instancia, se utiliza la versión reducida como entrada para un algoritmo de K vecinos más cercanos, con el fin de clasificar los textos, es decir, determinar a qué presidente corresponde cada uno, con una separación entre el conjunto de datos de entrenamiento y testeo. Se concluye con una comparación de ambos métodos, no solo en términos cuantitativos, evaluando su rendimiento predictivo, sino también en términos cualitativos para permitir una interpretación más profunda de los resultados obtenidos.
Trabajo en conjunto con: Dirección de Juan Pablo Pinasco (Universidad de Buenos Aires).
Referencias
[1] Natural language processing
[2] Ciencia de datos
[3] Non negative matrix factorization
[4] Análisis de componentes principales
Martes 17 de septiembre, 14:30 ~ 14:50
Regresión robusta para composiciones con distribución Dirichlet generalizada.
Marina Fragalá
Universidad Nacional de General Sarmiento, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
El problema del análisis estadístico de datos composicionales sigue siendo una fuente de preocupación desde que en 1897 Karl Pearson pusiera de manifiesto la inadecuación de los métodos estadísticos clásicos para el estudio de los mismos. Los datos composicionales son realizaciones de vectores aleatorios positivos de suma constante. Suelen darse en forma de proporciones, porcentajes o concentraciones. Son habituales en ciencias aplicadas como biología, química, geología, economía, medicina, sociología, etc. Por eso es tan imprescindible disponer de herramientas adecuadas para su análisis.
Una posible distribución para las composiciones es la Dirichlet. Como los modelos de Dirichlet no siempre ajustan bien, Monique Graf (2020) propuso una generalización de dicha distribución, denominada distribución Beta Generalizada Simplicial (SGB). Esta distribución es lo suficientemente flexible como para adaptarse a muchas situaciones prácticas. La estimación por máxima verosimilitud y los modelos de regresión SGB fueron desarrollados por la misma autora.
En esta charla propondremos generalizaciones robustas con buenas propiedades asintóticas. Analizaremos cómo se comportan estos estimadores en escenarios de simulación con outliers y lo compararemos con el estimador clásico de Graf.
Trabajo en conjunto con: Marina Valdora (Instituto de Cálculo, Universidad de Buenos Aires - Conicet) y Alfio Marazzi (Facultad de Biología y Medicina, Universidad de Lausanne, Suiza).
Referencias
[1] Aitchison J. (1986). The statistical analysis of compositional data. Monographs on statistics and applied probability. Chapman and Hall Ltd (reprinted 2003 with additional material by the Blackburn Press, London (UK).
[2] Aitchison J. (2003). The Statistical Analysis of Compositional Data. The Black- burn Press, Caldwell, NJ.
[3] García Ben M., Martínez E., Yohai V.J. (2006). Robust estimation for the multivariate linear model based on a Tau-scale. Journal of Multivariate Analysis 97, 1600 - 1622.
[4] Graf M. (2020). Regression for compositions based on a generalization of the Dirichlet distribution. Statistical Methods & Applications.
[5] Graf M. (2020). SGB: Simplicial Generalized Beta Regression, R package.
[6] Marazzi A., Valdora M., Yohai V.J., Amiguet M. (2019). A robust conditional maximum likelihood estimator for generalized linear models with a dispersion parameter. Test. 28(1), 223-241.
Martes 17 de septiembre, 14:55 ~ 15:15
Análisis de interacciones de alto orden en señales de iEEG y MEG a través de cuantificadores y distancias entre Hipergrafos en distintos estados cerebrales
Dalma Bilbao
Instituto de Matemática Aplicada del Litoral - IMAL, CONICET, UNL, CCT CONICET Santa Fe, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
En 1960, Claude Berge propuso la teoría de hipergrafos como una extensión natural de la teoría de grafos, permitiendo representar interacciones de orden superior. Formalmente, un hipergrafo no dirigido es un par $\mathcal{H} = (\mathcal{V, E})$, donde $\mathcal{V}$ es el conjunto de vértices y $\mathcal{E}$ es un subconjunto de partes no vacías de $\mathcal{V}$ que cubren $\mathcal{V}$. Los elementos de $\mathcal{E}$ se llaman hiperaristas, es decir, \( e \neq \emptyset \) para todo $ e \in \mathcal{E}$ y $ \bigcup_{e \in \mathcal{E}} e = \mathcal{V} $.\\ En neurociencia, la caracterización y diferenciación de estados cerebrales son fundamentales para comprender los mecanismos subyacentes en diversas funciones cognitivas y patologías neurológicas. La capacidad inherente de los hipergrafos para establecer relaciones de alto orden permite modelar las múltiples conexiones existentes entre diferentes regiones cerebrales a partir de datos de Electroencefalograma (EEG) y Magnetoencefalograma (MEG), capturando así la complejidad de las conexiones neuronales. Existe una amplia literatura sobre medidas de disimilitud de grafos. Algunos de estos conceptos permiten inducir distancias naturales entre hipergrafos, al considerar el hipergrafo como un grafo ponderado no dirigido inducido por su matriz de adyacencia $\mathcal{A(H)}$.
En este trabajo, proponemos un enfoque innovador que utiliza tres cuantificadores asociados a un hipergrafo:
Entropía, \( S(H) = -\sum_{i=1}^{n-1} \lambda_i \log_2 \lambda_i \), siendo \(\lambda_i\) los autovalores asociados a la matriz laplaciana del hipergrafo \(L(H)\).
Centralidad de vértices, \( C_1(v) = d(v) = \sum_{e \in E} h(v, e) \).
Centralidad de hiperaristas, \( C_2(e) = \delta(e) = \sum_{v \in V} h(v, e) \), donde \( h(v, e) \) representa un elemento de la matriz de incidencia \( H \) de \( H \).
A partir de estos cuantificadores, definimos tres nociones de distancias entre hipergrafos con el mismo número de vértices y el mismo número de hiperaristas.
Distancia Espectral: Dados los hipergrafos $\mathcal{ H} = \mathcal{(V, E)}$ y $\tilde{\mathcal{H}} = \mathcal{(V,\tilde{E})}$, sean $H$ y $\tilde{H} $ sus respectivas matrices de incidencia, $\mathcal{ L}$ y $\mathcal{\tilde{L}}$ los laplacianos normalizados asociados. Las matrices Laplacianas $\mathcal{ L}$ y $\mathcal{\tilde{L}}$ proporcionan los autovalores correspondientes \( 0 = \lambda_0 \leq \lambda_1 \leq \ldots \leq \lambda_{n-1} \) y \( 0 = \tilde{\lambda}_0 \leq \tilde{\lambda}_1 \leq \ldots \leq \tilde{\lambda}_{n-1} \). Estas dos secuencias, consideradas como vectores en \( \mathbb{R}^{n-1} \), tienen definidas las \( p \)-distancias, \( 1 \leq p \lt \infty \)
\[ D_s^p(\mathcal{H}, \tilde{\mathcal{H}}) = \left( \frac{1}{n} \sum_{i=1}^{n-1} |\lambda_i - \tilde{\lambda}_i|^p \right)^{1/n}. \]
El caso más importante es \( p = 2 \), que define la estructura del espacio de Hilbert en \( \mathbb{R}^{n-1} \).
Distancia de Centralidad de Vértices: Dados $\mathcal{H}$ y $\tilde{\mathcal{H}}$. Denotemos \( C \) y \( \tilde{C} \) a las respectivas funciones de centralidad de vértices $$C(v)=\sum_{e \in \mathcal{E}} h(v, e)\hspace{0.2cm}\text{y}\hspace{0.2cm} \tilde{C}(v)=\sum_{\tilde{e} \in \tilde{\mathcal{E}}} h(v,\tilde{e})$$
Una disimilitud entre $\mathcal{H}$ y $\tilde{\mathcal{H}}$ que toma en cuenta la centralidad de los vértices está dada por
\[ D_{vc}(\mathcal{H}, \tilde{\mathcal{H}}) = \max_{v \in \mathcal{V}} | C(v) - \tilde{C}(v) |. \]
Distancia de Centralidad de Hiperaristas: Sean $\mathcal{H}$ y $\tilde{\mathcal{H}}$ dos hipergrafos con el mismo número de hiperaristas \( m = |\mathcal{E}| = |\tilde{\mathcal{E}}| \). Los datos empíricos y la construcción del modelo que usaremos generan un orden natural, dado por las bandas de frecuencias, para los dos conjuntos de hiperaristas \( \mathcal{E} = \{ e_1, \ldots, e_m \} \) y \( \tilde{\mathcal{E}} = \{ \tilde{e}_1, \ldots, \tilde{e}_m \} \). En esta situación, una distancia basada en la centralidad de hiperaristas entre \( \mathcal{H} \) y \( \tilde{\mathcal{H}} \) puede definirse por
\[ D_{hc}(\mathcal{H}, \tilde{\mathcal{H}}) = \max_{i=1,\ldots,m} | C(e_i) - \tilde{C}(\tilde{e}_i) |= \max_{i=1,\ldots,m} \left| \sum_{v \in \mathcal{V}} h(v, e_i) - \sum_{\tilde{v} \in \tilde{V}} h(v, \tilde{e}_i) \right|. \]
Con estas distancias definidas, nuestro estudio se centra en su aplicación sobre hipergrafos que modelan distintos estados de sueño en ratas y distintos estados de epilepsia en humanos, siendo nuestro objetivo poder diferenciar entre estos distintos estados cerebrales en cada uno de los casos bajo estudio. Para ello trabajamos sobre hipergrafos construidos a partir de tres conjuntos de datos reales de señales neurofisiológicas. El primer conjunto consiste en registros de iEEG intracraneal de nueve ratas, cada una en cuatro estados de sueño distintos: vigilia activa (AW), movimiento ocular rápido (REM), vigilia tranquila (QW) y sueño no REM (NREM). El segundo conjunto incluye EEG de cuero cabelludo con 19 electrodos, obtenidos de seis pacientes epilépticos en diferentes estados cerebrales. Por último, el tercer conjunto de datos contiene señales de magnetoencefalografía (MEG) de dos pacientes con epilepsia generalizada, el primero con epilepsia generalizada primaria y el segundo con epilepsia generalizada secundaria. Los resultados muestran que estas nociones de distancias entre hipergrafos, obtenidos a partir de las seis bandas de frecuencias usuales en cada estado, permiten, razonablemente, distinguir diferentes estados cerebrales.
Trabajo en conjunto con: Dr. Diego Mateos (Instituto de Matemática Aplicada del Litoral - IMAL, CONICET, UNL, Santa Fe), y Dr Hugo Aimar del Instituto de Matemática Aplicada del Litoral (IMAL-CONICET-UNL,Santa Fe).
Martes 17 de septiembre, 15:20 ~ 15:40
Reign-and-Conquer: Cluster Analysis with a Different Number of Clusters per Margin
Gabriel Martos Venturini
UTDT, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
An often overlooked pitfall of model-based clustering is that it typically results in the same number of clusters per margin, an assumption that may not be natural in practice. We develop a clustering method that takes advantage of the sturdiness of model-based clustering, while attempting to mitigate this issue. The proposed approach allows each margin to have a varying number of clusters and employs a strategy game-inspired algorithm, named "Reign-and-Conquer", to cluster the data. Since the proposed clustering approach only specifies a model for the margins, but leaves the joint unspecified, it has the advantage of being partially parallelizable; hence, the proposed approach is computationally appealing as well as more tractable for moderate to high dimensions than a "full" (joint) model-based clustering approach. A battery of numerical experiments on simulated data indicates an overall good performance of the proposed methods in a variety of scenarios, and real datasets are used to showcase their usefulness in practice.
Trabajo en conjunto con: Miguel de Carvalho, The University of Edinburgh, UK y Andrej Svetlosak, The University of Edinburgh, UK.
Martes 17 de septiembre, 16:20 ~ 16:40
Análisis de relaciones entre variables espaciales y de contexto en partidos de la Liga Española de Fútbol
Pablo Mislej
Instituto de Cálculo - Universidad de Buenos Aires, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Durante un partido de fútbol se sucede una enorme cantidad de eventos, individuales y colectivos, entre los cuales se destacan las posiciones en el campo de juego que ocupan a cada tiempo $T$ los 22 jugadores y la pelota; sumado a lo anterior podemos anexar el resultado parcial del encuentro, cuál de los equipos es local, la duración promedio de posesión del balón por cada escuadra, etc. Esta colección de variables espaciales y de contexto genera un ecosistema de información que -de contar con un muestrario significativo de partidos de un campeonato dado- permite obtener conclusiones acerca del comportamiento de los futbolistas en esa división.
En septiembre de 2023 el club de fútbol Real Racing Club de Santander, que milita en la Segunda División de España, y el Instituto de Cálculo de la Universidad de Buenos Aires, firmaron un convenio de colaboración para incentivar la investigación en temas de ciencia de datos aplicada al fútbol. En ese marco la Liga Española habilitó a que este grupo acceda a la información detallada que sobre cada partido de dicha competencia se trackea en la plataforma Mediacoach [1]. Se repasarán los diferentes hallazgos surgidos del estudio.
Trabajos como [2] y [3] de reciente publicación dan cuenta del tipo de análisis que emergen en esta línea de investigación.
Trabajo en conjunto con: Andrés Farall (Universidad de Buenos Aires, Argentina), Diego Brunetti (Universidad de Buenos Aires, Argentina), Sebastián Ceria (Real Racing Club de Santander, España), Guillermo Durán (Universidad de Buenos Aires, Argentina), Manuel Durán (Universidad de Buenos Aires, Argentina) y Nicolás Marucho (Universidad de Buenos Aires, Argentina).
Referencias
[1] ``Media Coach.'' Wikipedia, La enciclopedia libre. URL https://en.wikipedia.org/wiki/Media\_Coach.
[2] Lago-Peñas, Carlos, et al. ``Do elite soccer players cover longer distance when losing? Differences between attackers and defenders.'' International Journal of Sports Science & Coaching 16.3 (2021): 840-847.
[3] Lorenzo-Martinez, Miguel, et al. ``Do elite soccer players cover less distance when their team spent more time in possession of the ball?.'' Science and Medicine in Football 5.4 (2021): 310-316.
Martes 17 de septiembre, 16:45 ~ 17:05
Sistemas de recomendación para datos en alta dimensión: Una nueva propuesta metodológica basada en cestas de consumo
Maria Florencia Acosta
FICH-UNL, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Los sistemas de recomendación son herramientas matemáticas que, a partir de datos nos recomiendan productos o servicios. Los más conocidos son los que utilizan las plataformas de transmisión de contenido (streaming), pero cada vez se utilizan más en comercio electrónico, bancos, plataformas de enseñanza, entre otros.
Un sistema de recomendación no es más que un método de filtrado que toma la información relevante para el problema, descartando la información que no es completamente informativa para el mismo. La mayoría de los métodos de recomendación se basan en factorización de matrices, y pueden ser del tipo colaborativo o no colaborativo. El primero, se basa en utilizar la información de usuarios para realizar la recomendación, mientras que el segundo solo utiliza la información del usuario en cuestión. Estos métodos son basados en datos (data-driven) y por lo tanto son métodos automáticos, que necesitan ser entrenados a partir de bases de datos confiables.
Para el caso particular de métodos de recomendación basados en análisis de cestas de consumo, la cantidad de productos involucrados en el problema puede ser significativamente mayor a la cantidad de cestas, por lo que el problema se torna de alta dimensionalidad, surgiendo en este caso una matriz de cesta-productos dispersa (sparse). Las metodologías clásicas utilizadas en este tipo de problemas generalmente utilizan matrices de cesta-productos binarias, reglas de asociación y/o medidas de similaridad que no contemplan la alta dimensionalidad del problema.
En el presente trabajo proponemos un nuevo método basado en aglomerado (clustering) que utiliza una matriz de cesta-productos sparse compuesta por la participación en las ventas totales de cada producto, donde las recomendaciones surgen de acuerdo a la similaridad de las cestas de consumo pero considerando el peso que tiene cada producto en las ventas totales. A su vez, se utiliza una medida de similaridad apta para alta dimensionalidad de los datos, buscando pesar los agrupamientos con otros factores relevantes para el sistema de recomendación como ser el tamaño del cliente, la asignación del gasto, y la importancia del ítem recomendado en los ingresos por ventas. Mas aún, este método resulta invariante ante cambios generalizados de precios, resultando así adecuado en contextos inflacionarios.
La motivación de esta metodología surge de la necesidad de una firma mayorista que vende alrededor de 1500 productos alimenticios y busca recomendar productos a sus clientes considerando no sólo la probabilidad de compra sino también su relevancia al ingreso por venta generado.
Trabajo en conjunto con: Rodrigo García Arancibia (UNL & CONICET), Pamela Llop (FIQ-UNL & CONICET) y Mariel Guadalupe Lovatto (FIQ-UNL & CONICET).
Referencias
[1] Sarkar, Soham and Ghosh, Anil K, On perfect clustering of high dimension, low sample size data, IEEE transactions on pattern analysis and machine intelligence, volume 42, number 9, pages 2257-2272 , 2019, IEEE.
[2] Hahsler, Michael and Grün, Bettina and Hornik, Kurt, Arules-A computational environment for mining association rules and frequent item sets, Journal of statistical software, volume 14, number 15, pages 1-25, 2005, University of California at Los Angeles.
[3] Boztg, Yasemin and Reutterer, Thomas, A combined approach for segment-specific market basket analysis, European Journal of Operational Research, volume 187, number 1, pages 294-312, 2008, Elsevier.
[4] Reutterer, Thomas and Dan, Daniel, Cluster analysis in marketing research, Handbook of market research, 221-249, 2021, Springer.
[5] Hahsler, Michael and Karpienko, Radoslaw, Visualizing association rules in hierarchical groups, Journal of Business Economics, volume 87, pages 317-335, 2017, Springer.
Martes 17 de septiembre, 17:10 ~ 17:30
Análisis de datos y aprendizaje automático para estrategias de carrera en la Fórmula 1: GP Silverstone 2024
Ezequiel Francisco Chocobar
Facultad de Ciencias Exactas - Universidad Nacional de Salta , Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
En este estudio, exploramos técnicas avanzadas de análisis de datos aplicadas al contexto de un Gran Premio de Fórmula 1 (GP), centrándonos en un caso particular: el GP de Silverstone de 2024. Nuestro objetivo principal es mejorar la predicción del rendimiento de los pilotos y las estrategias de carrera mediante el uso de herramientas computacionales y técnicas estadísticas. Comenzamos utilizando Boxplots, diagrama de cajas y bigotes, para analizar los datos de la segunda sesión de práctica (FP2) previa al GP. Estos gráficos nos permiten visualizar la dispersión de los tiempos de vuelta de los pilotos, identificando tendencias y posibles discrepancias entre los competidores. En el caso nos pueden proporcionar indicadores clave sobre el rendimiento relativo de cada piloto, como la consistencia en el ritmo de carrera. Luego nos enfocamos en otros métodos para analizar la telemetría y datos meteorológicos para optimizar las estrategias de parada en boxes durante la carrera. Utilizamos modelos de regresión lineal para estimar la degradación de los neumáticos y redes neuronales recurrentes (LSTM) para predecir los tiempos por vuelta en tiempo real. Nuestra metodología integra herramientas avanzadas de análisis de datos con programación en Python utilizando diferentes librerías, entre ellas FastF1. Las conclusiones obtenidas del análisis exploratorio y del modelado con aprendizaje automático (machine learning) nos permiten no solo optimizar estrategias actuales, sino también proponer futuros estudios que expandan el análisis a más variables y técnicas avanzadas.
Trabajo en conjunto con: Cinthia Noelia del Valle Vides (Universidad Nacional de Salta, Argentina) y Esteban Ernesto Rodríguez (Universidad Nacional de Salta, Argentina).
Referencias
[1] C. Ahumada, Notas de Estadística Descriptiva, Universidad Nacional de Salta, 2015
[2] J.L Devore, Probabilidad y Estadísticas para Ingeniería y Ciencias, Cengage Learning, 2008.
[3] Rondelli, Massimo, The Future of Formula 1 Racing: Neural Networks to Predict Tyre Strategy, Universita di Bologna, Italia. 2022
[4] Bahit, E., Curso: Python para principiantes, safecreative, 2012
[5] Chatfield, Chris. The Analysis of Time Series: An Introduction, Sixth Edition. Reino Unido: CRC Press, 2003.
[6] https://docs.fastf1.dev/, Biblioteca con datos de F1
Miércoles 18 de septiembre, 9:40 ~ 10:00
Test de Hipótesis para la varianza de un número grande de poblaciones.
Daniela Rodriguez
Universidad Torcuato Di Tella - Instituto de Calculo, CONICET, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
En esta charla presentaremos una propuesta de test de hipótesis para probar la igualdad de las varianzas de k poblaciones a partir de muestras independientes de cada una de ellas. En contraste con el escenario clásico, donde k se mantiene fijo y el tamaño de la muestra de cada población aumenta, aquí se asume que k es grande y el tamaño de cada muestra es pequeño en comparación con k. Se propone un nuevo test estudiando su distribución asintótica del estadístico bajo la hipótesis nula de igualdad de las k varianzas, así como bajo alternativas, lo que nos permite estudiar la consistencia del test. También se investigan dos aproximaciones bootstrap a la distribución nula del estadístico. Presentaremos un estudio de simulación para mostrar el comportamiento de la propuesta para muestras finitas y una aplicación a un conjunto de datos reales.
Trabajo en conjunto con: María Dolores Jiménez Gamero (Universidad de Sevilla, España) y Marina Valdora (Universidad de Buenos Aires y CONICET, Argentina).
Miércoles 18 de septiembre, 10:05 ~ 10:25
Pruebas de hipótesis robustas en modelos parcialmente lineales de índice simple
María Florencia Statti
Instituto de Cálculo, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Gran parte de la actividad en robustez concierne al proceso de estimación, pero más allá de desarrollar estimadores robustos, el problema de realizar tests robustos también merece gran atención. De hecho, los tests de hipótesis son parte de la práctica habitual que realiza una persona que trabaja con datos. Por ejemplo, cuando se ajusta un modelo lineal, después del proceso de estimación y a fin de completar el análisis, se suelen hacer tests individuales sobre cada parámetro para verificar si es nulo o no, y así facilitar la interpretación del ajuste realizado. Este trabajo se propone introducir un estadístico robusto que permita contrastar hipótesis que involucren a la componente lineal del modelo.
En general, los test robustos han recibido un tratamiento menos extendido que la estimación robusta. Sin embargo, es sabido que los procedimientos de tests de hipótesis basados en la metodología clásica suelen heredar su sensibilidad a datos atípicos, en el sentido de que una pequeña cantidad de observaciones puede afectar el nivel o la potencia de los tests.
Es así que desarrollar tests de hipótesis que bajo contaminación retengan un nivel de significación estable, es deseable. Los trabajos de Heritier y Ronchetti (1994) y Cantoni y Ronchetti (2001) figuran entre los primeros que van en esta dirección en el campo de modelos paramétricos, el primero en un contexto general, mientras que el segundo está más enfocado a un modelo lineal generalizado. Estos autores también investigan la estabilidad del nivel asintótico bajo contaminación. Más recientemente, Bianco, Boente y Martínez (2006) y Bianco y Martínez (2009) estudian tests robustos en el caso del modelo parcialmente lineal y en el modelo logístico, respectivamente. Maronna et al. (2019) tratan el problema de tests robustos y en particular, se ocupan en el modelo lineal de los tests robustos de tipo Wald.
Consideremos el Modelo Parcialmente Lineal de Índice Simple (MPLIS) en el que se observa un vector $(y,\mathbf{x},\mathbf{t})$, donde la variable respuesta $y$ se relaciona con los dos vectores de covariables $\mathbf{x}$ y $\mathbf{t}$ mediante la ecuación \[ y=\boldsymbol{\beta}_0^t\mathbf{x}+\eta_0(\boldsymbol{\theta}_0^t\mathbf{t})+\sigma_0\epsilon \,, \] siendo $\mathbf{x} \in \mathbb{R}^p$ y $\mathbf{t} \in \mathbb{R}^q$, y donde $\boldsymbol{\beta}_0 \in \mathbb{R}^p$, $\boldsymbol{\theta}_0 \in \mathbb{R}^q$ y $\sigma_0 \in \mathbb{R}$ son parámetros desconocidos y la función real univariada continua $\eta_0$ también lo es. Además asumiremos que el error $\epsilon$ es independiente del vector de covariables $ (\mathbf{x},\mathbf{t}) $.
Para que el modelo sea identificable, supondremos que $||\boldsymbol{\theta}_0||=1$ y que su primera componente es positiva, ya que por el hecho de que $\eta_0$ sea desconocida, sólo la dirección del vector $\boldsymbol{\theta}_0$ puede ser reconocida.
La complejidad intrínseca del modelo que presenta una parte paramétrica y otra no paramétrica, hacen que el estudio de tests de hipótesis se vuelva un mayor desafío. Liang et al. (2010) desarrollan pruebas de hipótesis lineales para los coeficientes lineal e índice simple y proponen un test de bondad de ajuste para la componente no paramétrica. Este trabajo utiliza un método de perfiles que, al basarse en mínimos cuadrados, permite que datos atípicos influyan en la estimación y en consecuencia, en los estadísticos de las pruebas de hipótesis que se consideran allí.
En este trabajo, se proponen pruebas de hipótesis que involucran al parámetro lineal basadas en un estadístico de tipo Wald con el objetivo de que sean resistentes a la presencia de un pequeño porcentaje de observaciones anómalas.
Suponemos que tenemos una muestra aleatoria de vectores $(y_i,\mathbf{x}_i,\mathbf{t}_i) \subset \mathbb{R}^{p+q+1}$ para $ i \in \{1,...,n\}$, que siguen el modelo antes descripto y el objetivo será decidir entre las hipótesis \[ H_0: \boldsymbol{\beta}_0=\boldsymbol{\beta}_* \quad \mbox{contra} \quad H_1: \boldsymbol{\beta}_0 \neq \boldsymbol{\beta}_*\,. \]
Para evaluar el comportamiento de la propuesta se realizaron simulaciones para cuantificar niveles de significación y potencia de los tests, y compararlos con los obtenidos en versiones clásicas.
Gran parte de este trabajo es parte de la tesis de doctorado de la autora bajo la dirección de la Dra. Ana M. Bianco, que se puede descargar en https://web.dm.uba.ar/files/tesis_doc/statti.pdf
Referencias
[1] Bianco A., Boente G. y Martinez E. (2006) Robust tests in semiparametric partly linear models. Scandinavian Journal of Statistics, 33: 435-450.
[2] Bianco A. y Martinez E. (2009) Robust testing in the logistic regression model. Computational Statistics and Data Analysis, 53: 4095 - 4105.
[3] Cantoni E. y Ronchetti E. (2001) Robust inference for generalized linear models. Journal of the American Statistical Association, 96: 1022-1030.
[4] Heritier S. y Ronchetti E. (1994) Robust Bounded-Influence Tests in General Parametric Models. Journal of the American Statistical Association, Vol. 89, No. 427. 897-904.
[5] Liang H., Liu X., Li R. y Tsai C. L. (2010) Estimation and testing for partially linear single-index models. The Annals of Statistics, 38(6): 3811-3836.
[6] Maronna R. A., Martin R. D., Salibián-Barrera M. y Yohai V. J. (2019) Robust statistics: theory and methods (with R). Second edition - John Wiley & Sons, Ltd.
Miércoles 18 de septiembre, 10:30 ~ 10:50
Estimación robusta en modelos lineales generalizados de alta dimensión
Marina Valdora
Universidad de Buenos Aires, Argentina - Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Los modelos lineales generalizados (GLM) son una herramienta importante en el análisis de datos. En problemas de alta dimensión, los métodos tradicionales fallan, porque se basan en la suposición de que el número de observaciones es mayor que el número de covariables. El problema de los datos de alta dimensión ha sido ampliamente estudiado y se han propuesto procedimientos penalizados; ver, por ejemplo, [1]. Si una pequeña proporción de los datos observados es atípica, los métodos clásicos para estos modelos se vuelven inestables y poco fiables. Estimadores robustos para modelos lineales de alta dimensión han sido propuestos en [2] y [3], entre otros. En [4] se introdujeron M-estimadores robustos penalizados para GLM, mientras que en [5] se propusieron estimadores robustos penalizados para la regresión logística. Los MT-estimadores propuestos en [6] son particularmente adecuados para GLM; sin embargo, necesitan buenas estimaciones iniciales; ver [7]. En este trabajo presentamos MT-estimadores penalizados para GLM, ilustramos sus propiedades teóricas y métodos computacionales y mostramos resutados de simulaciones y ejemplos.
Trabajo en conjunto con: Claudio Agostinelli (Universidad de Trento, Italia).
Referencias
[1] J. Friedman, T. Hastie, and R. Tibshirani. The elements of statistical learning, volume 1. Springer, 2001.
[2] R.A. Maronna. Robust ridge regression for high-dimensional data. Technometrics, 53(1):44–53, 2011.
[3] E. Smucler and V.J. Yohai. Robust and sparse estimators for linear regression models. Computational Statistics & Data Analysis, 111:116–130, 2017.
[4] M. Avella-Medina and E. Ronchetti. Robust and consistent variable selection in high-dimensional generalized linear models. Biometrika, 105(1):31–44, 2018.
[5] A.M. Bianco, G. Boente, and G. Chebi. Penalized robust estimators in sparse logistic regression. Test, 1-32., 2021.
[6] M. Valdora and V.J. Yohai. Robust estimators for generalized linear models. Journal of Statistical Planning and Inference, 146:31–48, 2014.
[7] C. Agostinelli, M. Valdora, and V.J. Yohai. Initial robust estimation in generalized linear models. Computational Statistics & Data Analysis, 134:144–156, 2019.