Comunicaciones

Resumen

Sesión Estadística, Probabilidad y Ciencias de Datos

Utilización de técnicas de Machine Learning para la detección de ransomware en red de Bitcoin

Yanina Ditz

Facultad de Ingeniería, Universidad Nacional de La Pampa, Argentina   -   Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

La acelerada transformación digital a nivel global ha convertido la seguridad de la información en una prioridad fundamental, frente al incremento en la complejidad y frecuencia de los ciberataques, en particular los de tipo ransomware. Esta clase de amenazas puede ocasionar pérdidas de datos críticos e interrumpir seriamente las operaciones. En este contexto, las blockchains de Bitcoin se han transformado en objetivos atractivos para los ciberdelincuentes debido a su carácter descentralizado y pseudoanónimo, lo que dificulta la recuperación de activos comprometidos. Ante esta necesidad, nuestra investigación se enfocan en desarrollar técnicas eficaces de detección temprana de ransomware en blockchains de Bitcoin, con el fin de mitigar estas amenazas de gran impacto. Se adaptan y comparan tres algoritmos de aprendizaje automático: regresión logística (RL), eXtreme Gradient Boosting (XGBoost) y una red neuronal Long Short Term Memory (LSTM), evaluando su eficiencia en la clasificación de transacciones como legítimas o asociadas a ransomware. En este trabajo se utiliza un conjunto de datos reales de transacciones de Bitcoin y se destaca la importancia de técnicas como el balanceo de datos para mejorar el rendimiento del modelo. El modelo LSTM alcanzó un rendimiento destacado tanto en el desbalanceo como con los datos balanceados, registrando un $99,9\%$ en exactitud, precisión, sensibilidad y F1-score, con una tasa de error mínima de $8,7 \cdot 10^{-6}$. Por su parte, el modelo XGBoost obtuvo métricas cercanas al $97\%$. En este caso, la aplicación de técnicas de balanceo resultó determinante para optimizar la sensibilidad y el F1-score, corrigiendo las deficiencias presentes en el dataset original. La matriz de confusión asociada mostró una tasa de error de $3\%$. En contraste, RL presentó mejoras moderadas, alcanzando una exactitud del $61\%$, una precisión del $60\%$, una sensibilidad del $68\%$ y un F1-score del $63\%$, aproximadamente. Si bien el balanceo contribuyó a una mejora en el desempeño, este último modelo continuó siendo el de menor rendimiento relativo, con una tasa de error de $39\%$. En síntesis, los resultados demuestran que los modelos más complejos, como LSTM y XGBoost, exhiben una capacidad superior en la detección de ransomware, lo que subraya su potencial para fortalecer la seguridad digital.

Trabajo en conjunto con: Gabriela Minetti (Universidad Nacional de La Pampa, Argentina).

Ver resumen en PDF