En el ámbito financiero, la detección de transacciones atípicas o anómalas es una tarea crítica para garantizar la seguridad, integridad y eficiencia de los sistemas bancarios. Estas transacciones, que se desvían significativamente del comportamiento esperado, pueden ser indicativas de actividades fraudulentas, errores operativos, fallas técnicas o incluso patrones de comportamiento inusuales de los clientes. Identificar y analizar estos atípicos no solo ayuda a prevenir pérdidas económicas, sino también a mejorar la experiencia del usuario y a cumplir con regulaciones financieras y normativas de cumplimiento.
La identificación de atípicos en transacciones bancarias se basa en el análisis de grandes volúmenes de datos, donde técnicas avanzadas de ciencia de datos y machine learning desempeñan un papel fundamental. Estas técnicas permiten analizar patrones históricos, detectar desviaciones en tiempo real y clasificar transacciones como normales o sospechosas. Sin embargo, este proceso no está exento de desafíos, como el desbalance de clases (donde las transacciones fraudulentas son una minoría), la evolución constante de los métodos de fraude y la necesidad de minimizar falsos positivos para no afectar la experiencia del cliente.
Objetivo
Identificación de atípicos en transacciones bancarias es detectar de manera eficiente y precisa aquellas operaciones que se desvían significativamente del comportamiento esperado, con el fin de prevenir actividades fraudulentas, errores operativos o comportamientos inusuales.
Metodologia
CRISP-DM
Datos utilizados
El conjunto de datos recopilado corresponde a 8.174 muestras de actividad financiera.
Modelos usados
- Local Outlier Factor (LOF)
- Isolation Forest (ISO)
- Unsupervised Outlier Detection
Mide la desviación local de la densidad de una muestra dada con respecto a sus vecinos. Es local en el sentido de que la puntuación de la anomalía depende de qué tan aislado esté el objeto con respecto a la vecindad circundante.
Aísla las observaciones seleccionando aleatoriamente una característica y luego seleccionando aleatoriamente un valor dividido entre los valores máximo y mínimo de la característica seleccionada.
Estimar el soporte de una distribución de alta dimensión, basado en libsvm.
Visualización de datos

Resultados
Se identificaron únicamente 8 observaciones atípicas de un total de 1000, lo que representa el 0.8% del conjunto de datos. Este resultado es coherente con la documentación consultada y sugiere que la mayoría de las transacciones siguen patrones esperados dentro del comportamiento financiero típico. La baja proporción de atípicos resalta la efectividad de los mecanismos de control y monitoreo implementados, aunque también refuerza la importancia de mantener y mejorar las técnicas de detección para identificar posibles casos de fraude o anomalías que puedan evolucionar con el tiempo.
Sugerencias
- Realizar un nuevo diseño de experimento
- Es recomendable replantear el diseño experimental, incorporando técnicas de validación cruzada y métricas adicionales para evaluar el rendimiento del modelo en diferentes escenarios. Esto permitiría identificar posibles sesgos y mejorar la generalización del modelo.
- Aumentar el tamaño de la muestra
- Dado que los modelos de detección de atípicos suelen mejorar su precisión con un mayor volumen de datos, se sugiere ampliar el conjunto de muestras. Esto no solo potenciaría la capacidad predictiva del modelo, sino que también permitiría capturar patrones más complejos y reducir el riesgo de sobreajuste.
- Implementar el método de votación (voting)
- Para minimizar la tasa de falsos positivos, se propone utilizar un enfoque de ensemble learning, específicamente el método de votación, que combina las predicciones de múltiples modelos. Esta estrategia aprovecha las fortalezas de cada algoritmo individual, mejorando la robustez y confiabilidad de las detecciones.
Adicionales
- Link a repositorio: Github