UMA 2022

 

Sesión Estadística

Método de Regresión Lineal de Covarianza simbólica para datos de intervalo

Jorgelina Carrizo

Universidad Nacional de San Juan, Argentina   -   jorgelinav_carrizo@yahoo.com.ar

El an\'alisis de datos simb\'olicos es un campo relativamente nuevo de estad\'{\i}stica, que ampl\'{\i}a el an\'alisis de datos cl\'asico teniendo en cuenta la variabilidad y estructura intr\'{\i}nseca de los datos. La adaptaci\'on de la regresi\'on cl\'asica a datos simb\'olicos, especialmente a datos de intervalo, se ha transformado en un tema de creciente investigaci\'on desde que Billard y Diday (2000) presentaron el primer enfoque para ajustar un modelo de regresi\'on lineal a conjuntos de datos simb\'olicos de intervalos desde una perspectiva del SDA. Este trabajo presenta el m\'etodo de regresi\'on lineal, denominado M\'etodo de Covarianza Simb\'olica, que permite reconstruir el estimador de m\'{\i}nimos cuadrados de un modelo de regresi\'on lineal cl\'asica, en base a las definiciones de varianza y covarianza muestral simb\'olica de Billard (2007, 2008). Estas definiciones tienen en cuenta tanto las variaciones internas como externas de los datos de intervalo, como as\'{\i} tambi\'en la dependencia entre todas las variables de manera integral. Por lo tanto, a diferencia de otros m\'etodos que ajustan dos modelos de regresi\'on lineal, uno para los puntos medios del intervalo y el otro para los rangos del mismo, este nuevo enfoque construye un modelo directamente para los datos de intervalo. El m\'etodo presentado se aplica a datos reales y se compara su desempe\~no y facilidad de interpretaci\'on, respecto al M\'etodo del Centro y al M\'etodo del Centro y Rango. Para esta evaluaci\'on se utilizan el error cuadr\'atico medio y el coeficiente de correlaci\'on.

Palabras Claves: An\'alisis de datos simb\'olicos; Variables simb\'olicas de intervalo; Regresi\'on simb\'olica. Covarianza simb\'olica.

Referencias

[1] Billard and Diday (2000). Regression analysis for interval-valued data.In: Proc. of IFCS00, Belgium, pp. 369-374,Springer.

[2] Billard, L. (2007). Dependencies and Variation Components of Symbolic Interval-Valued Data.

[3] Billard, L. (2008). Sample Covariance Functions for Complex Quantitative Data. Processing, World Conferences International Association of Statistical Computing 2008, Yokohama, Japan.

[4] Billard, L. and Diday, E. (2000). Regression Analysis for Interval-Valued Data. Data analysis, Classificaiton, and Related Methods (eds. H.A.L. Kiers, J.-P.

[5] Billard, L. and Diday, E. (2003). From the Statistics of Data to the Statistics of Knowledge: Symbolic Data Analysis.

[6] Billard, L. and Diday, E. (2007). Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley, Chichester.

[7] Douzal-Chouakria, A., Billard, L. and Diday E. (2009). Principal Component Analysis for Interval-valued Observations. Submitted manuscript.

[8] Lima Neto, E.A and de Carvalho F.A.T. (2010). Constrained Linear Regression Models for Symbolic Interval-valued Variables.

[9] Lima Neto, E.A., de Carvalho F.A.T. and Freire, E.S. (2005). Applying Constrained Linear Aggression Models to Predict Interval-Valued Data.

[10] Xu, W. (2010), Symbolic data analysis: regression of data with interval values.

Ver resumen en PDF