Funciones de pérdida comunes en la visión artificial moderna

CONTENIDO

COMPARTIR TAMBIÉN

Funciones de pérdida comunes en la visión artificial moderna

Las funciones de pérdida comunes en visión artificial incluyen el error cuadrático medio (EMM), la entropía cruzada, la pérdida de Dice y las pérdidas L1/L2. Una función de pérdida mide la diferencia entre las predicciones de un modelo y los resultados reales en tareas de visión artificial. Los modelos utilizan funciones de pérdida para centrarse en características importantes de cada imagen, lo que les ayuda a mejorar la precisión y el rendimiento. En la clasificación, la pérdida de entropía cruzada suele generar mejores resultados, mientras que el ECM se prefiere para la regresión. La función de pérdida en un sistema de visión artificial afecta directamente la capacidad de un modelo para aprender y adaptarse a los datos de imagen.

Puntos clave

  • Las funciones de pérdida miden qué tan bien predice un modelo de visión artificial y lo ayudan a aprender reduciendo errores.
  • Diferentes funciones de pérdida se adaptan a diferentes tareas: entropía cruzada para clasificación, MSE o MAE para regresión y pérdida de Dice para segmentación.
  • Elegir la función de pérdida correcta mejora la precisión del modelo, maneja desafíos como valores atípicos y desequilibrios de clases y acelera el entrenamiento.
  • Los modelos avanzados combinan múltiples funciones de pérdida para crear imágenes realistas y conservar detalles importantes.
  • Pruebas y adaptación de funciones de pérdida A sus datos y tareas se obtienen mejores resultados de visión artificial.

Fundamentos de la función de pérdida

¿Qué es una función de pérdida?

Una función de pérdida mide la precisión con la que un modelo de aprendizaje automático predice la respuesta correcta. En visión artificial, la función de pérdida compara la salida del modelo con la etiqueta o valor real. El modelo utiliza esta información para ajustar sus parámetros durante el entrenamiento. Redes neuronales Se basan en funciones de pérdida para obtener mejores predicciones. El proceso de minimización ayuda al modelo a reducir la diferencia entre sus predicciones y los resultados reales.

Muchos sistemas de aprendizaje automático utilizan funciones de pérdida como un tipo de función de coste. La función de coste representa el error total en todos los ejemplos del conjunto de datos. Por ejemplo, el error cuadrático medio (EMM) y el error absoluto medio (EMA) son opciones comunes para tareas de regresión. Estas funciones de pérdida ayudan a las redes neuronales a aprender, ya que penalizan con mayor rigor los errores grandes o son robustas ante valores atípicos.

Nombre de la función de pérdida Definición matemática Relevancia de los datos empíricos en los sistemas de visión artificial
Error cuadrático medio (MSE) ( texto{MSE} = frac{1}{N} suma_{i=1}^N (y_i – hat{y}_i)^2 ) Supone ruido gaussiano en las tareas de regresión; enfatiza errores más grandes al elevarlos al cuadrado.
Error absoluto medio (MAE) (texto{MAE} = frac{1}{N} suma_{i=1}^N y_i – sombrero{y}_i ) Robusto ante valores atípicos; se utiliza cuando el ruido de los datos no es gaussiano o tiene cola pesada.
Pérdida de entropía cruzada binaria ( L_{BCE} = -frac{1}{N} suma_{i=1}^N [y_i log hat{y}_i + (1-y_i) log (1-hat{y}_i)] ) Modela resultados probabilísticos en clasificación binaria; se alinea con distribuciones de etiquetas empíricas.
Entropía cruzada categórica ( L_{CCE} = -suma_{i=1}^C y_i log hat{y}_i ) Se utiliza en la clasificación de múltiples clases; se alinea con las distribuciones de probabilidad de clase empírica.

Estas funciones de pérdida se configuran a partir de los datos y el ruido presentes en las tareas de visión artificial. Ayudan a las redes neuronales a centrarse en reducir el error de predicción y mejorar el rendimiento.

Por qué son importantes las funciones de pérdida

Las funciones de pérdida desempeñan un papel fundamental en el aprendizaje automático y la visión artificial. Guían las redes neuronales durante el entrenamiento, mostrando la distancia entre las predicciones del modelo y las respuestas correctas. Cuando un modelo utiliza la función de pérdida correcta, aprende características importantes de las imágenes y mejora su precisión.

Las funciones de pérdida también incluyen términos de regularización, como las penalizaciones L1 y L2. Estos términos ayudan a controlar la complejidad de las redes neuronales y a prevenir problemas como la desaparición o la explosión de gradientes. Esto mantiene la estabilidad del entrenamiento y facilita la generalización del modelo a nuevos datos.

En los modelos de visión artificial, la elección de la función de pérdida afecta la rapidez y precisión del aprendizaje del modelo. Por ejemplo, la pérdida de entropía cruzada ponderada píxel por píxel ayuda a corregir el desequilibrio de clases en la segmentación de imágenes. La pérdida perceptual permite a las redes neuronales capturar características de alto nivel, no solo diferencias de píxeles. La pérdida de consistencia de ciclo mejora la calidad de la traducción de imágenes, garantizando que las imágenes generadas puedan volver a su forma original.

Los estudios demuestran que el uso de funciones de pérdida adaptativas puede reducir las tasas de error en los modelos de aprendizaje profundo. Por ejemplo, los modelos de conteo de multitudes que utilizan una función de pérdida compuesta experimentaron una reducción del error absoluto medio de hasta un 12.2 % en algunos conjuntos de datos. Esto demuestra que una función de pérdida adecuada puede marcar una gran diferencia en el rendimiento del modelo y la minimización del error.

Funciones de pérdida en visión artificial

Funciones de pérdida de clasificación

Las tareas de clasificación en visión artificial requieren que los modelos asignen etiquetas a imágenes u objetos. Las redes neuronales utilizan funciones de pérdida Para medir la coincidencia de sus predicciones con la clase real. La función de pérdida más común para la clasificación de imágenes es la pérdida de entropía cruzada. Esta función compara la distribución de probabilidad predicha con las etiquetas de clase reales.

  • Entropía cruzada binaria
    La entropía cruzada binaria se utiliza cuando solo hay dos clases. La fórmula es:
    [
    L_{BCE} = -frac{1}{N} suma_{i=1}^N [y_i log hat{y}_i + (1-y_i) log (1-hat{y}_i)]
    ]
    Las redes neuronales utilizan entropía cruzada binaria para aprender de cada imagen y reducir el error de predicción. Esta función de pérdida es eficaz para tareas como detectar la presencia o ausencia de un objeto.

  • Entropía cruzada categórica
    La entropía cruzada categórica se utiliza para la clasificación multiclase. La fórmula es:
    [
    L_{CCE} = -suma_{i=1}^C y_i log hat{y}_i
    ]
    Las redes neuronales utilizan la entropía cruzada categórica para comparar las probabilidades de clase predichas con la clase real. Esta función de pérdida ayuda a los modelos a aprender a clasificar imágenes en diversas categorías, como animales o vehículos.

  • Pérdida de bisagra
    La pérdida de bisagra se utiliza a menudo en máquinas de vectores de soporte para la clasificación. Facilita que el modelo cree un margen entre clases. Si bien puede mejorar la clasificación basada en márgenes, es posible que no proporcione resultados probabilísticos como la entropía cruzada.

La pérdida de entropía cruzada es popular en visión artificial porque proporciona gradientes claros para las redes neuronales durante el entrenamiento. Sin embargo, trata a todas las clases por igual, lo que puede causar problemas cuando algunas clases aparecen con más frecuencia que otras. La pérdida focal puede ser útil al reducir la ponderación de las clases comunes y centrarse en las menos comunes.

La siguiente tabla compara el rendimiento de diferentes funciones de pérdida de clasificación en conjuntos de datos populares:

Tipo de función de pérdida Comparación de funciones de pérdida Conjuntos de datos utilizados Métricas de rendimiento Observaciones clave
Pérdidas de clasificación Entropía cruzada binaria, pérdida de bisagra, entropía cruzada categórica, pérdida de bisagra multiclase MNIST, CIFAR-10 Precisión, puntuación F1, curvas ROC La entropía cruzada binaria ofrece interpretabilidad probabilística. La pérdida de bisagra puede mejorar la clasificación basada en márgenes. Existen desventajas en la estabilidad de la optimización.

Las redes neuronales entrenadas con pérdida de entropía cruzada suelen alcanzar una alta precisión en tareas de clasificación de imágenes y detección de objetos. Sin embargo, el desequilibrio de clases puede reducir el rendimiento. Los investigadores han desarrollado nuevas funciones de pérdida y métodos de conjunto para mejorar los resultados, especialmente en la clasificación de imágenes médicas.

Funciones de pérdida de regresión

Las tareas de regresión en visión artificial predicen valores continuos, como la ubicación de un objeto en una imagen. Las redes neuronales utilizan funciones de pérdida para medir el error de predicción entre los valores predichos y los reales.

  • Error cuadrático medio (MSE)
    El error cuadrático medio es la función de pérdida más común para la regresión. Su fórmula es:
    [
    texto{MSE} = frac{1}{N} suma_{i=1}^N (y_i – hat{y}_i)^2
    ]
    Las redes neuronales utilizan el error cuadrático medio para penalizar los errores de predicción grandes. Esta función de pérdida asume que el ruido en los datos sigue una distribución gaussiana. El error cuadrático medio (MSE) es sensible a los valores atípicos porque eleva el error al cuadrado, lo que aumenta aún más los errores grandes.

  • Error absoluto medio (MAE)
    El error absoluto medio es otra función de pérdida popular para la regresión. Su fórmula es:
    [
    texto{MAE} = frac{1}{N} suma_{i=1}^N |y_i – sombrero{y}_i|
    ]
    MAE penaliza los errores linealmente, lo que lo hace más robusto ante valores atípicos. Las redes neuronales utilizan MAE cuando los datos contienen ruido o valores atípicos que podrían afectar el entrenamiento.

  • Pérdidas L1 y L2
    La pérdida L1 es lo mismo que el error absoluto medio. La pérdida L2 es otro nombre para el error cuadrático medio. Ambas ayudan a las redes neuronales a aprender al minimizar el error de predicción, pero responden de forma diferente a los valores atípicos.

Una comparación de las funciones de pérdida de regresión muestra diferencias importantes:

  • El error cuadrático medio proporciona gradientes suaves para las redes neuronales, lo que ayuda con el entrenamiento.
  • El error absoluto medio es menos sensible a los valores atípicos, lo que lo hace útil para datos de imágenes ruidosos.
  • La elección entre MSE y MAE depende de los datos y del objetivo del modelo.

La siguiente tabla resume los hallazgos de estudios que comparan funciones de pérdida de regresión:

Tipo de función de pérdida Comparación de funciones de pérdida Conjuntos de datos utilizados Métricas de rendimiento Observaciones clave
Pérdidas de regresión MAE frente a MSE MNIST, CIFAR-10 Precisión, puntuación F1, AUC MAE muestra robustez ante valores atípicos. MSE proporciona gradientes más suaves, pero es sensible a errores grandes.

Los investigadores descubrieron que el error cuadrático medio funciona mejor cuando el ruido en los datos de imagen es gaussiano. Sin embargo, el error absoluto medio funciona mejor cuando hay valores atípicos. La validación cruzada ayuda a seleccionar la mejor función de pérdida para una tarea determinada.

  • Los mínimos cuadrados ordinarios minimizan el error cuadrático medio y funcionan bien cuando los datos no tienen valores atípicos.
  • La regresión de cresta puede superar a los mínimos cuadrados ordinarios en términos de error cuadrático medio cuando los datos tienen multicolinealidad.
  • La elección de la función de pérdida afecta el modo en que el modelo maneja el ruido y el error de predicción en las imágenes.

Funciones de pérdida de segmentación

Las tareas de segmentación semántica requieren que los modelos etiqueten cada píxel de una imagen. Las redes neuronales utilizan funciones de pérdida especializadas para medir la precisión con la que sus predicciones coinciden con la segmentación real.

  • Pérdida de dados
    La pérdida de dados mide la superposición entre las máscaras de segmentación predichas y las reales. La fórmula es:
    [
    texto{Dados} = frac{2 suma_{i=1}^N y_i hat{y}i}{suma{i=1}^N y_i + suma_{i=1}^N hat{y}_i}
    ]
    Las redes neuronales utilizan la pérdida de Dice para mejorar la precisión de la segmentación, especialmente cuando las regiones objetivo son pequeñas o están desequilibradas.

  • Pérdida de intersección sobre unión (IoU)
    La pérdida de IoU, también llamada pérdida de Jaccard, mide la intersección dividida por la unión de las máscaras predichas y reales. Esta función de pérdida ayuda a las redes neuronales a centrarse en los límites correctos de las imágenes.

  • Pérdida de entropía cruzada para segmentación
    La pérdida de entropía cruzada también se utiliza en tareas de segmentación. Las redes neuronales utilizan la entropía cruzada píxel por píxel para comparar cada píxel predicho con la etiqueta real. La entropía cruzada ponderada puede ayudar con el desequilibrio de clases.

Los estudios demuestran que la pérdida de Dice supera a la pérdida de entropía cruzada entre 1 y 6 puntos porcentuales en la precisión de segmentación en los distintos conjuntos de datos. Las funciones de pérdida modificadas pueden mejorar las puntuaciones de segmentación entre un 5 % y un 15 % en lesiones pequeñas. Asignar un peso cero a los píxeles de fondo puede aumentar la precisión en 6 puntos porcentuales en las imágenes del fondo de ojo.

La siguiente tabla resume las mejoras en las tareas de segmentación utilizando funciones de pérdida especializadas:

Conjunto de datos/Tarea Función de pérdida/Variación Mejora cuantificada
Segmentación de lesiones pequeñas Funciones de pérdida modificadas Aumento del 5% al 15% en las puntuaciones de segmentación
En todos los conjuntos de datos Pérdida de dados vs. Entropía cruzada Dice supera en 1 a 6 puntos porcentuales
Segmentación por resonancia magnética Ponderación de falsos positivos frente a falsos negativos Mejora de hasta 12 puntos porcentuales
Imágenes del fondo del ojo (EFI) Asignar peso cero al fondo Mejora de 6 puntos porcentuales
Objetivos pequeños difíciles (EFI) Modificaciones de pérdidas Mejora de 6 a 9 puntos porcentuales
Arquitecturas de red DeepLabV3 frente a UNet y FCN DeepLabV3 supera en todos los conjuntos de datos

Un estudio reciente sobre la segmentación de imágenes médicas reveló que métricas comunes como la superposición de Dice podrían no siempre reflejar la relevancia clínica. El estudio sugiere que se necesitan nuevas métricas de evaluación y funciones de pérdida para obtener resultados fiables en casos complejos.

Las redes neuronales entrenadas con funciones de pérdida de segmentación como Dice e IoU logran mejores resultados en la segmentación semántica y la detección de objetos. Estas funciones de pérdida ayudan a los modelos a aprender a identificar límites y regiones en imágenes complejas.

A continuación se muestra un gráfico que muestra el uso de funciones de pérdida en diferentes dominios:

Gráfico de barras que muestra el recuento de funciones de pérdida en varios dominios

Sistema de visión artificial con función de pérdida

Impacto en el rendimiento del modelo

El sistema de visión artificial con función de pérdida determina cómo las redes neuronales aprenden de las imágenes. La elección de la función de pérdida afecta... rendimiento del modelo De muchas maneras. Por ejemplo, un estudio sobre la reidentificación de fauna silvestre comparó la pérdida de tripletes con la pérdida de Proxy-NCA. Los modelos entrenados con pérdida de tripletes alcanzaron puntuaciones más altas de Recall@1, lo que implica una mayor precisión de identificación. La pérdida de Proxy-NCA facilitó el entrenamiento, pero no mejoró significativamente los resultados. Esto demuestra que la función de pérdida puede modificar métricas clave como la precisión media y la recuperación.

Las funciones de pérdida guían las redes neuronales durante el entrenamiento midiendo el error. Ayudan al modelo a actualizar sus parámetros para reducir errores. Algunas funciones de pérdida, como el error cuadrático medio, penalizan más los errores grandes. Otras, como el error absoluto medio, gestionan mejor los valores atípicos. El sistema de visión artificial con función de pérdida también afecta la eficiencia computacional. Algunas funciones de pérdida requieren más cálculos, lo que puede ralentizar el entrenamiento. La función de coste, que suma todos los errores, ayuda al modelo a centrarse en las características importantes de la imagen.

La siguiente tabla muestra cómo las funciones de pérdida específicas mejoran el rendimiento en tareas reales:

Tarea de visión Función de pérdida Beneficio cuantificado
Detección de objetos Pérdida focal Aumento de ~5% en la precisión
Segmentación de imágenes médicas Pérdida de dados Aumento de hasta el 10% en el coeficiente de dados

Cómo elegir la función de pérdida adecuada

Seleccionar el mejor sistema de visión artificial con función de pérdida requiere una cuidadosa reflexión. El modelo debe gestionar valores atípicos, desequilibrios de clases y limitaciones computacionales. Para la clasificación, la pérdida de entropía cruzada es eficaz porque compara las probabilidades predichas con las etiquetas reales. Para la regresión, el error cuadrático medio o el error absoluto medio pueden ser más adecuados, dependiendo de los datos.

Las funciones de pérdida personalizadas son útiles cuando las estándar no solucionan el problema. Por ejemplo, en TensorFlow, los desarrolladores pueden combinar pérdidas para tareas especiales.

def vae_loss(y_true, y_pred):
    kl_loss = vae_kl_loss(y_true, y_pred)
    rc_loss = vae_rc_loss(y_true, y_pred)
    kl_weight_const = 0.01
    return kl_weight_const * kl_loss + rc_loss

Al elegir una función de pérdida, tenga en cuenta estos consejos:

  • Comprueba si los datos contienen valores atípicos. Si los hay, utiliza el error absoluto medio.
  • Busca desequilibrio de clases. Prueba con pérdida de dados o pérdida focal para mayor precisión.
  • Piense en la velocidad de entrenamiento. Algunas funciones de pérdida requieren más tiempo para calcularse.
  • Pruebe diferentes funciones de pérdida para ver cuál proporciona la mejor mejora del modelo.

El sistema de visión artificial con función de pérdida juega un papel clave en mejora y precisión del modeloLos expertos en aprendizaje automático suelen probar varias opciones antes de encontrar la que mejor se adapte a su tarea de imagen.

Funciones de pérdida avanzadas

Modelos generativos

Los modelos generativos crean nuevas imágenes que parecen reales. Estos modelos utilizan funciones de pérdida especiales para facilitar su aprendizaje. Una función de pérdida importante es la pérdida adversarialEsta pérdida proviene de las Redes Generativas Antagónicas (GAN). En una GAN, dos redes compiten. Una red intenta crear imágenes falsas. La otra intenta distinguir las imágenes reales de las falsas. La pérdida antagónica ayuda a ambas redes a mejorar.

Los investigadores utilizan conceptos estadísticos avanzados como la Estimación de Máxima Verosimilitud y el entrenamiento adversarial. Estos métodos ayudan al modelo a comprender la distribución real de los datos. Por ejemplo, la pérdida de Wasserstein utiliza una distancia especial para mejorar la estabilidad del entrenamiento. La pérdida adversarial relativista compara directamente imágenes reales y falsas. Esto produce mejores resultados y un entrenamiento más estable. Un estudio probó una nueva pérdida llamada RMCosGAN en conjuntos de datos como CIFAR-10 y MNIST. Los resultados mostraron una mayor calidad de imagen y una mayor estabilidad del entrenamiento que las funciones de pérdida anteriores.

Las pérdidas adversarias ayudan a los modelos a crear imágenes con más detalle y menos errores. También hacen que el entrenamiento sea más estable.

Pérdidas combinadas

Algunas tareas requieren más de una función de pérdida. Las pérdidas combinadas combinan varios tipos de pérdida para guiar el modelo. Por ejemplo, la traducción de imagen a imagen utiliza conjuntamente la pérdida adversarial, la pérdida de consistencia cíclica y la pérdida perceptual. Cada pérdida cumple una función. La pérdida adversarial hace que las imágenes parezcan reales. La pérdida de consistencia cíclica comprueba si la imagen puede volver a su forma original. La pérdida perceptual ayuda al modelo a centrarse en las características importantes, no solo en los píxeles.

  • Las funciones de pérdida combinadas ayudan a los modelos a:
    • Crea imágenes que parezcan reales y claras
    • Mantenga los detalles importantes en la imagen
    • Aprenda tanto de las características a nivel de píxel como de las de alto nivel

La siguiente tabla muestra cómo diferentes funciones de pérdida funcionan juntas en modelos avanzados:

Tipo de modelo Funciones de pérdida utilizadas Beneficio
GAN Adversario, Wasserstein, Relativista Entrenamiento estable, mejor calidad de imagen.
Traducción de imágenes Adversario, Ciclo-consistencia, Perceptual Imágenes realistas, conservación de detalles.
En pintura Adversario, Pixel-wise, Perceptual Rellena las partes faltantes, mantiene la estructura.

Los modelos modernos utilizan estas pérdidas combinadas para resolver problemas complejos de imagen. Van más allá de la simple entropía cruzada o el error cuadrático medio. Esto les permite crear imágenes que parecen reales y conservan características importantes.


Las funciones de pérdida desempeñan un papel fundamental en la visión artificial, ya que guían el aprendizaje y mejoran los resultados. Ayudan a comparar las predicciones con las respuestas reales, mejorando los modelos con el tiempo.

  • Las funciones de pérdida se pueden adaptar para tareas como clasificación o segmentación.
  • Guían la optimización y brindan retroalimentación para obtener mejores resultados.
Función de pérdida Caso de uso Beneficio
Entropía cruzada Clasificación de la imagen Maneja bien las probabilidades
Pérdida de dados Segmentación médica Aborda el desequilibrio de clases

Para aprender más, recursos como la documentación de Ultralytics y Neptune.ai ofrecen guías prácticas sobre funciones de pérdida.

Preguntas Frecuentes

¿Cuál es el propósito principal de una función de pérdida en la visión artificial?

Una función de pérdida ayuda a un modelo a aprender, mostrando la distancia entre sus predicciones y las respuestas correctas. El modelo utiliza esta retroalimentación para mejorar su precisión durante el entrenamiento.

¿Cómo afecta la elección de la función de pérdida a los resultados del modelo?

La función de pérdida modifica la forma en que un modelo aprende. Algunas funciones de pérdida funcionan mejor para ciertas tareas. Por ejemplo, la pérdida de Dice facilita la segmentación, mientras que la entropía cruzada es eficaz para la clasificación.

¿Puede un modelo utilizar más de una función de pérdida al mismo tiempo?

Sí, algunos modelos combinan varias funciones de pérdida. Esto ayuda al modelo a aprender diferentes cosas, como hacer que las imágenes parezcan reales y conservar detalles importantes. Las pérdidas combinadas suelen mejorar los resultados.

¿Qué función de pérdida debería utilizar alguien para la segmentación de imágenes?

La mayoría de los expertos utilizan la pérdida de Dice o la pérdida de entropía cruzada para la segmentación de imágenes. La pérdida de Dice funciona bien cuando el área objetivo es pequeña o las clases están desequilibradas. La entropía cruzada mejora la precisión a nivel de píxel.

Vea también

Una guía completa sobre umbralización en sistemas de visión

Principales bibliotecas de procesamiento de imágenes utilizadas en visión artificial

Explorando la visión artificial basada en píxeles en las tecnologías actuales

Una descripción general de los métodos de aprendizaje activo y de pocos intentos

Principios esenciales de la detección de bordes en la visión artificial

Vea también

Una mirada al año 2025 sobre los beneficios del sistema de visión artificial con análisis de reflectancia de superficies
Una mirada al año 2025 sobre los beneficios del sistema de visión artificial con análisis de reflectancia de superficies
e1de9a8e30f54b22900171cb917c9834
carcasa de la bomba
Explicación de los sistemas de visión artificial para la inspección de calidad para fabricantes
Cómo funcionan los sistemas de visión artificial de reconocimiento facial
Definición de sistemas de visión artificial para navegación autónoma en 2025
Sistemas de visión artificial para verificación de ensamblajes y su papel en el control de calidad
Cómo las herramientas de nube de puntos impulsan la visión artificial en 2025
Explorando la definición y funcionalidad de las herramientas de etiquetado en visión artificial
Ir al Inicio