UMA 2022

Reunión Anual de la Unión Matemática Argentina

 

Sesión Estadística

 

 

Resúmenes


Método de Regresión Lineal de Covarianza simbólica para datos de intervalo

Jorgelina Carrizo

Universidad Nacional de San Juan, Argentina   -   jorgelinav_carrizo@yahoo.com.ar

El an\'alisis de datos simb\'olicos es un campo relativamente nuevo de estad\'{\i}stica, que ampl\'{\i}a el an\'alisis de datos cl\'asico teniendo en cuenta la variabilidad y estructura intr\'{\i}nseca de los datos. La adaptaci\'on de la regresi\'on cl\'asica a datos simb\'olicos, especialmente a datos de intervalo, se ha transformado en un tema de creciente investigaci\'on desde que Billard y Diday (2000) presentaron el primer enfoque para ajustar un modelo de regresi\'on lineal a conjuntos de datos simb\'olicos de intervalos desde una perspectiva del SDA. Este trabajo presenta el m\'etodo de regresi\'on lineal, denominado M\'etodo de Covarianza Simb\'olica, que permite reconstruir el estimador de m\'{\i}nimos cuadrados de un modelo de regresi\'on lineal cl\'asica, en base a las definiciones de varianza y covarianza muestral simb\'olica de Billard (2007, 2008). Estas definiciones tienen en cuenta tanto las variaciones internas como externas de los datos de intervalo, como as\'{\i} tambi\'en la dependencia entre todas las variables de manera integral. Por lo tanto, a diferencia de otros m\'etodos que ajustan dos modelos de regresi\'on lineal, uno para los puntos medios del intervalo y el otro para los rangos del mismo, este nuevo enfoque construye un modelo directamente para los datos de intervalo. El m\'etodo presentado se aplica a datos reales y se compara su desempe\~no y facilidad de interpretaci\'on, respecto al M\'etodo del Centro y al M\'etodo del Centro y Rango. Para esta evaluaci\'on se utilizan el error cuadr\'atico medio y el coeficiente de correlaci\'on.

Palabras Claves: An\'alisis de datos simb\'olicos; Variables simb\'olicas de intervalo; Regresi\'on simb\'olica. Covarianza simb\'olica.

Referencias

[1] Billard and Diday (2000). Regression analysis for interval-valued data.In: Proc. of IFCS00, Belgium, pp. 369-374,Springer.

[2] Billard, L. (2007). Dependencies and Variation Components of Symbolic Interval-Valued Data.

[3] Billard, L. (2008). Sample Covariance Functions for Complex Quantitative Data. Processing, World Conferences International Association of Statistical Computing 2008, Yokohama, Japan.

[4] Billard, L. and Diday, E. (2000). Regression Analysis for Interval-Valued Data. Data analysis, Classificaiton, and Related Methods (eds. H.A.L. Kiers, J.-P.

[5] Billard, L. and Diday, E. (2003). From the Statistics of Data to the Statistics of Knowledge: Symbolic Data Analysis.

[6] Billard, L. and Diday, E. (2007). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester.

[7] Douzal-Chouakria, A., Billard, L. and Diday E. (2009). Principal Component Analysis for Interval-valued Observations. Submitted manuscript.

[8] Lima Neto, E.A and de Carvalho F.A.T. (2010). Constrained Linear Regression Models for Symbolic Interval-valued Variables.

[9] Lima Neto, E.A., de Carvalho F.A.T. and Freire, E.S. (2005). Applying Constrained Linear Aggression Models to Predict Interval-Valued Data.

[10] Xu, W. (2010), Symbolic data analysis: regression of data with interval values.

Ver PDF


Predicción de eventos comportamentales utilizando series de tiempo

Rocio Guadalupe Fonseca

Universidad Nacional de Córdoba, Argentina   -   rocio.fonseca@mi.unc.edu.ar

El comportamiento de animales de laboratorio es estudiado usualmente por medio de la observación directa, utilizando catálogos de conductas predefinidas. El uso de videocámaras y otros métodos de registro han permitido determinar tipo y duración de eventos y evitar posibles efectos subjetivos del observador en la recolección de los datos. Sin embargo la determinación de eventos en señales derivadas de sensores de alta precisión como los acelerómetros, es muy difícil de lograr por inspección, por lo cual es necesario entrenar métodos de clasificación usando datos sincronizados, segmentados manualmente, de series derivadas de videograbaciones, además de los datos de acelerómetros.

Se recolectaron los datos tanto de video como registros de acelerómetros colocados en codornices japonesas para crear una database de comportamientos que se utilizan para entrenar algoritmos de tipo red neuronal de clasificación. Esta red es capaz de encontrar eventos poco frecuentes.

Se estudió la optimalidad de una red neuronal Long Short Time Memory (LSTM) entrenada con nuestros datos, los cuales son series multivariadas de las coordenadas espaciales del acelerómetro (aX, aY, aZ) medidas cuando éste es colocado sobre el cuerpo del animal , permiten almacenar información traducible en la diversidad de comportamientos mediante el análisis de señales generadas por el propio movimiento y por la acción de la gravedad.

Una característica de este tipo de red es que la información puede permanecer introduciendo bucles en el diagrama, por lo que pueden recordar estados previos y utilizar esta información para decidir cuál será el siguiente paso. Esto las hace muy adecuadas para manejar series de tiempo, como estas relacionadas al comportamiento animal.

Se entrenó una unidad LSTM con una puerta de entrada, una capa LSTM seguida de una capa fully connected, una capa softmax y por último una capa de clasificación. La capa de entrada tiene tamaño 3, ya que para secuencias vectoriales se define como un escalar positivo correspondiente al número de características. La capa LSTM tiene 20 unidades ocultas con modo de salida que devuelve la secuencia completa. Tenga en cuenta que no es necesario especificar la longitud de la secuencia con la que se trabajará.

Al momento de entrenar la red se seleccionaron los hiperparámetros de descenso por el gradiente estocástico para el solver, un valor de 0.80 para la contribución del paso anterior, notar que la contribución es un valor escalar entre 0 y 1. Además como tasa de aprendizaje inicial del entrenamiento se tomo 0.5 y un umbral de degrado del gradiente igual a 2, consiguiendo una buena clasificación del 97.5%

Ver PDF


A quantitative Heppes Theorem, multivariate Bernoulli distributions and more

Ricardo Fraiman

Centro de Matemática, Universidad de la República, Uruguay, Uruguay   -   fraimanricardo@gmail.com

Proving some extensions of a theorem of Heppes on finitely supported discrete probability measures, we address the problems of classification and testing based on projections. In particular, when the support of the distributions is known in advance (as for instance for multivariate Bernoulli distributions), a single suitably chosen projection determines the distribution. Several applications of these results are considered. If we have time we will also consider the problem of testing for ellipsoidal distributions from finite number of projections.

Joint work with Leonardo Moreno and Thomas Ransford

Trabajo en conjunto con: Leonardo Moreno (Universidad de la República, Uruguay) y Thomas Ransford (Universitè Laval, Canada).

Ver PDF


CONTROLLED-VARIABLE SELECTION BASED ON CHAOS THEORY FOR THE TENNESSEE EASTMAN PLANT

Sergio Federico Yapur

Facultad Ingeniería Química - UNL, Argentina   -   syapur@yahoo.com

This work explores a link between chaotic signals and the selection of controlled variables for plantwide control system design. Some results are shown for the Tennessee Eastman plant, which is well-known for being a challenging process in the field of plant-wide control. This article provides a systematic, data-driven method to select which variables should be controlled. However, since plantwide control problems are inherently complex, this work does not intend to provide a definite solution, but a complementary analysis to take into account towards the final control system design. The discussion highlights the potential hidden in the chaos theory to reduce the complexity of the resulting control system.

Ver PDF