Explicación de los sistemas de visión artificial con detector de una sola etapa

CONTENIDO

COMPARTIR TAMBIÉN

Explicación de los sistemas de visión artificial con detector de una sola etapa

Un sistema de visión artificial con detector de una sola etapa utiliza una sola pasada de red para detectar objetos de forma rápida y directa. Estos sistemas omiten el paso de propuesta de región y predicen objetos y sus ubicaciones en imágenes a alta velocidad. Modelos recientes como YOLOv7 alcanzan los 120 fotogramas por segundo con una precisión fiable, como se muestra a continuación.

Gráfico de barras que compara los modelos YOLO en FPS y mAP

Las industrias utilizan la tecnología de sistemas de visión artificial con detector de una sola etapa en áreas como robótica, monitoreo de tráfico y fabricación porque la detección en tiempo real ayuda a aumentar la seguridad y la productividad.

Puntos clave

  • Los detectores de una sola etapa realizan la detección de objetos en un solo paso, lo que los hace mucho más rápidos que los detectores de dos etapas.
  • Estos sistemas predicen directamente la ubicación y las clases de objetos, omitiendo pasos adicionales para aumentar la velocidad y la eficiencia.
  • Modelos como YOLO y SSD ofrecen detección en tiempo real con buena precisión, adecuada para robótica, vigilancia y dispositivos móviles.
  • Los detectores de una sola etapa manejan diferentes tamaños de objetos utilizando cuadrículas, cajas de anclaje o métodos sin anclaje para una detección flexible.
  • Elegir entre detectores de una o dos etapas Depende de la necesidad de velocidad o mayor precisión en su aplicación.

Sistema de visión artificial con detector de una sola etapa

Concepto principal

Un sistema de visión artificial con detector de una sola etapa realiza la detección de objetos procesando una imagen en una sola pasada a través de una red neuronal convolucional. Este enfoque omite la etapa de propuesta de región propia de los detectores de dos etapas. En su lugar, el sistema predice cuadros delimitadores y etiquetas de clase directamente a partir de la imagen de entrada. El proceso comienza con la extracción de características mediante un red troncal, a menudo preentrenado con un gran conjunto de datos. La estructura principal elimina las capas de clasificación y genera mapas de características con un tamaño espacial reducido, pero con una mayor profundidad de canal. Estos mapas de características permiten al detector realizar predicciones de detección de objetos para cada región de la imagen a la vez.

Los modelos de detección de objetos más populares, como YOLO, SSD, RetinaNet y FCOS, utilizan este enfoque de una sola etapa. Cada modelo adapta la estructura principal y los cabezales de predicción para mejorar la detección y la clasificación. Por ejemplo, YOLO divide la imagen en celdas de cuadrícula, y cada celda se encarga de predecir los objetos cuyos centros se encuentran dentro de ella. SSD utiliza múltiples cuadrículas a diferentes escalas, mientras que RetinaNet introduce la pérdida focal para corregir el desequilibrio de clases. FCOS representa un método de detección de objetos totalmente convolucional de una sola etapa que no depende de cajas de anclaje.

Los detectores de una sola etapa destacan en aplicaciones en tiempo real porque combinan la extracción de características, la clasificación y la regresión de cuadro delimitador en una red unificada. Esta integración proporciona alta velocidad y eficiencia, lo que los hace ideales para entornos dinámicos.

Estudios empíricos demuestran que los sistemas de visión artificial con detector de una sola etapa superan a los métodos tradicionales tanto en velocidad como en precisión. En conjuntos de datos de referencia, los detectores de una sola etapa como YOLO y SSD alcanzan mayores fotogramas por segundo (FPS) y mantienen una alta precisión en comparación con los detectores de dos etapas. Por ejemplo, YOLO alcanza aproximadamente 45 FPS con una precisión media promedio (mAP) del 63.4 %, mientras que SSD alcanza 59 FPS con una mAP del 79.8 % en el conjunto de datos VOC2007. RetinaNet mejora la precisión promedio entre un 6 % y un 9 % con respecto a los modelos anteriores en el conjunto de datos COCO. Estos resultados resaltan las ventajas prácticas de los detectores de una sola etapa para la detección de objetos en tiempo real.

CARACTERÍSTICAS PRINCIPALES

Los sistemas de visión artificial con detector de una sola etapa ofrecen varias características clave que los diferencian de otros modelos de detección de objetos:

  • Detección y clasificación directaEl detector predice cuadros delimitadores y probabilidades de clase en una sola pasada. Este proceso de detección de objetos, totalmente convolucional y de una sola etapa, elimina la necesidad de un paso independiente de propuesta de región.
  • Celdas de cuadrícula y cabezas de predicciónModelos como YOLO y SSD dividen la imagen en celdas de cuadrícula. Cada celda contiene múltiples cabezas de predicción, cada una especializada para diferentes tamaños y formas de objetos. El detector asigna cada objeto de verdad fundamental a la cabeza de predicción con la mayor IOU (Intersección sobre Unión) en la caja de verdad fundamental. Esta estrategia mejora el aprendizaje y la precisión.
  • Cajas de anclaje y detección multiescalaSSD utiliza múltiples cuadrículas y cuadros de anclaje a diferentes escalas y relaciones de aspecto. Este diseño permite al detector gestionar objetos de diversos tamaños. YOLO utiliza cuadros de anclaje derivados de la agrupación k-medias en el conjunto de datos de entrenamiento, mientras que SSD utiliza un enfoque basado en fórmulas.
  • Puntuaciones de confianza y supresión no máximaCada cabeza de predicción genera una puntuación de confianza que indica la probabilidad de la presencia de un objeto. La supresión no máxima elimina los cuadros delimitadores superpuestos, garantizando que solo se conserven las predicciones más fiables.
  • Entrenamiento eficiente y robustezEl enfoque de una sola etapa reduce la necesidad de anotación a nivel de píxel, lo que facilita la escalabilidad a grandes conjuntos de datos. Los modelos de detección de objetos de una sola etapa totalmente convolucionales, como YOLOv5, han demostrado alta precisión y recuperación en imágenes médicas, con puntuaciones F1 equilibradas y bajos falsos positivos para ciertos tipos de lesiones.
  • Rendimiento en tiempo realLos detectores de una sola etapa requieren menos recursos computacionales, lo que permite su implementación en dispositivos móviles y de borde. Esta eficiencia facilita la detección en tiempo real en aplicaciones como robótica, vigilancia y fabricación.
Modelo Columna vertebral Estrategia de cuadrícula/anclaje Juego de disparos en primera persona (VOC2007) mAP (%) Característica notable
YOLO Red oscura/ResNet Cuadrícula única, cajas de anclaje ~ 45 63.4 Predicciones rápidas basadas en cuadrícula
SSD VGG-16 Cajas de anclaje con múltiples cuadrículas ~ 59 79.8 Detección multiescala
RetinaNet ResNet + FPN Cajas de anclaje, pérdida focal ~ 30 80+ Maneja el desequilibrio de clases
FCOS Resnet Sin ancla, totalmente conv. ~ 35 80+ Predicción densa y sin anclas
  • Los detectores de una etapa, como YOLOv5, han alcanzado una alta precisión (hasta 0.927) y una tasa de recuperación (alrededor de 0.796) en tareas de detección de objetos médicos, con puntuaciones F1 equilibradas y una media baja de falsos positivos. Estos resultados demuestran que los modelos de detección de objetos de una etapa totalmente convolucionales pueden igualar o incluso superar el rendimiento de los detectores de dos etapas en numerosos escenarios.
  • La asignación de objetos de verdad de campo a los cabezales de predicción mediante IOU garantiza que cada detector se especialice en determinados tipos o tamaños de objetos. Esta especialización, combinada con la puntuación de confianza y la supresión no máxima, permite obtener predicciones precisas y fiables sobre la detección de objetos.

Detección de objetos en tiempo real

Rapidez y eficiencia

Detectores de una etapa Se han convertido en la opción preferida para tareas de detección de objetos en tiempo real. Estos detectores procesan imágenes rápidamente porque omiten el paso de propuesta de región y predicen todos los cuadros delimitadores y clases en una sola pasada de red. Este diseño permite al detector analizar cada imagen del conjunto de datos en milisegundos, lo que lo hace ideal para aplicaciones que requieren retroalimentación instantánea.

Las arquitecturas ligeras, como Mini-YOLOv4-tiny, muestran claras mejoras tanto en velocidad como en eficiencia. Por ejemplo, Mini-YOLOv4-tiny alcanza casi el doble de velocidad de inferencia en dispositivos móviles en comparación con YOLOv4-tiny, a la vez que reduce los parámetros en un 37 % y los FLOP en un 19 %. El modelo también mejora la Precisión Media Promedio (mAP) en el conjunto de datos PASCAL VOC en un 0.3 % y en el conjunto de datos MS COCO en un 2.8 %. La Intersección sobre Unión (IoU) aumenta un 4.02 %, lo que significa que el detector ajusta las cajas de verdad de campo con mayor precisión.

Gráfico de barras que muestra las mejoras de detección y eficiencia de Mini-YOLOv4-tiny con respecto a YOLOv4-tiny

La comparación de diferentes modelos en el mismo conjunto de datos destaca la eficiencia de los detectores de una sola etapa. Por ejemplo, YOLOv8 procesa cada imagen en 25 milisegundos y alcanza un mAP del 55.2 %. YOLOv5, otro detector popular, tarda 30 milisegundos por imagen con un mAP del 50.5 %. Estos modelos utilizan arquitecturas más pequeñas, lo que facilita su implementación en dispositivos edge. En cambio, los detectores de dos etapas, como Faster R-CNN y Mask R-CNN, requieren más tiempo por imagen y utilizan modelos más grandes, lo que los hace menos prácticos para la implementación en tiempo real.

Modelo Velocidad de inferencia (ms/imagen) Precisión (mAP@0.5) Notas sobre eficiencia y despliegue
YOLOv8 25 55.2% Modelo rápido, pequeño y de uso en tiempo real.
YOLOv5 30 50.5% Línea base, más lento que YOLOv8
RetinaNet N/A Bueno Más lento que YOLO, buena precisión.
R-CNN más rápido Más lento que el de una sola etapa Mayor precisión No apto para tareas en tiempo real

Aplicaciones

Las industrias dependen de detectores de una sola etapa para muchos detección de objetos en tiempo real Tareas. La robótica, la vigilancia y los sistemas embebidos se benefician de la velocidad y eficiencia de estos detectores. En robótica, el detector debe procesar rápidamente cada imagen del conjunto de datos para que las máquinas reaccionen a su entorno. Los sistemas de vigilancia utilizan detectores para escanear señales de video e identificar objetos o personas en tiempo real. Los sistemas embebidos, como los de cámaras inteligentes o drones, requieren modelos ligeros que puedan ejecutarse en hardware limitado.

Los avances recientes en el diseño de detectores han mejorado tanto la precisión como la eficiencia. Por ejemplo, YOLOv9 alcanza una Precisión Media del 72.8 % en el conjunto de datos MS COCO, con un tiempo de inferencia de tan solo 23 milisegundos por imagen. El tamaño del modelo se reduce a 58 MB, lo que lo hace ideal para su implementación en el borde. YOLOv9 también reduce los parámetros en un 49 % y los requisitos computacionales en un 43 % en comparación con YOLOv8, a la vez que aumenta el mAP en un 0.6 %. Estas mejoras permiten al detector ajustarse con mayor precisión a los objetos reales y gestionar conjuntos de datos más grandes con menos hardware.

Gráfico de barras que compara las métricas mAP promedio en diferentes variantes de entrenamiento

En entornos industriales, la combinación de imágenes de conjuntos de datos sintéticos y reales con la ampliación de datos produce un mAP promedio más alto y una mejor generalización. Por ejemplo, un detector entrenado con datos sintéticos y reales alcanza un mAP promedio del 66.7 % y muestra una alta precisión y recuperación. Este enfoque ayuda al detector a reconocer objetos de verdad de campo en entornos complejos. La capacidad de procesar grandes conjuntos de datos y comparar rápidamente las etiquetas de verdad de campo convierte a los detectores de una sola etapa en la mejor opción para la detección de objetos en tiempo real en aplicaciones modernas.

Detección de objetos en una etapa frente a detección en dos etapas

Detección de objetos en una etapa frente a detección en dos etapas

Diferencias en el flujo de trabajo

La detección de objetos en una etapa y el enfoque en dos etapas utilizan diferentes canales de detección. En un sistema de una etapa, el detector procesa la imagen en una sola pasada. El detector predice los cuadros delimitadores y las etiquetas de clase directamente desde el mapa de características. Este canal omite el paso de propuesta de región. El detector utiliza anclas en el mapa de características y aplica la IOU para comparar las predicciones con los objetos de referencia. Cada cabezal de predicción calcula la IOU con los cuadros de referencia para asignar detecciones. El detector vuelve a utilizar la IOU durante la supresión no máxima para conservar solo los mejores cuadros delimitadores.

Los detectores de dos etapas, como Faster R-CNN, siguen un proceso más complejo. La primera etapa utiliza una Red de Propuestas de Regiones (RPN) para generar regiones candidatas. Posteriormente, el detector aplica la agrupación de ROI para extraer características de estas propuestas. La segunda etapa clasifica cada región y refina el cuadro delimitador. Este proceso utiliza IOU para vincular las propuestas con los objetos de referencia en ambas etapas. La siguiente tabla destaca las principales diferencias en el flujo de trabajo:

Aspecto Detectores de dos etapas (por ejemplo, Faster R-CNN) Detectores de una etapa (por ejemplo, RetinaNet)
Flujo de trabajo Dos pasos: RPN y luego clasificación Predicción directa de una sola pasada
Propuesta de Región RPN genera anclas y propuestas Anclajes utilizados directamente en mapas de características
Agrupación de ROI Presente, añade gastos generales Ausente, simplificado
Eficiencia de entrenamiento Más lento, más intensivo desde el punto de vista computacional Más rápido, más eficiente
Manejo de componentes no diferenciables Utiliza aproximaciones para la agrupación del ROI Utiliza funciones de pérdida diferenciables
Implicación práctica Alta precisión, mayor coste En tiempo real, eficiente

Precisión y casos de uso

La elección entre detectores de una o dos etapas depende de la necesidad de velocidad o alta precisión. Detectores de una etapa, como YOLO y RetinaNet, destacan en tareas de detección en tiempo real. El detector compara las cajas predichas con los objetos reales mediante IOU, lo que garantiza una precisión de detección rápida y estable. En escenarios como vehículos autónomos o vigilancia, el detector debe procesar las imágenes rápidamente. El flujo de detección utiliza IOU para comparar cada caja predicha con las etiquetas reales, manteniendo una latencia baja.

Los detectores de dos etapas, como Faster R-CNN, alcanzan una alta precisión en entornos complejos. El detector utiliza IOU en cada etapa para comparar propuestas y predicciones con objetos de verdad fundamental. Este método es eficaz para el análisis de imágenes médicas, el reconocimiento facial y las imágenes satelitales, donde la precisión de detección es crucial. Estudios comparativos muestran que la detección de objetos en una etapa mantiene una precisión estable en imágenes de calidad alta y media, mientras que el enfoque de dos etapas ofrece un mejor rendimiento en imágenes de baja calidad. En pruebas reales, YOLOv8 alcanza una mayor precisión en la mayoría de los conjuntos de datos, pero Faster R-CNN lo supera en casos difíciles. El proceso de detección en ambos sistemas se basa en IOU y la coincidencia con objetos de verdad fundamental para garantizar resultados fiables.

Consejo: Al elegir un detector, tenga en cuenta su aplicación. Para tareas en tiempo real, los detectores de una etapa ofrecen velocidad y eficiencia. Para tareas que requieren alta precisión, el método de dos etapas puede ser más adecuado.

Detalles técnicos

Funciones de pérdida

Los detectores de una sola etapa utilizan funciones de pérdida para mejorar las predicciones y gestionar el desequilibrio de clases en el conjunto de datos. La pérdida focal, utilizada en RetinaNet, ayuda al modelo a centrarse en objetos difíciles de detectar al reducir la confianza dada a los negativos fáciles. Este enfoque aumenta la precisión, especialmente cuando el conjunto de datos tiene muchos más objetos de fondo que objetos de destino. Los estudios muestran que la pérdida focal y las pérdidas relacionadas superan a otras a medida que el conjunto de datos se vuelve más desequilibrado. Por ejemplo, la pérdida focal puede aumentar la precisión en aproximadamente un 5% en tareas de detección de objetos. Los investigadores también utilizan métricas como la puntuación F1 y las curvas ROC para comparar las funciones de pérdida. Estas métricas miden qué tan bien el modelo coincide con las predicciones de los objetos de verdad fundamental. La documentación técnica describe cómo las funciones de pérdida combinan términos de clasificación y regresión, utilizando IOU para hacer coincidir las predicciones con los cuadros de verdad fundamental. Si bien algunos estudios no aíslan el rendimiento de la función de pérdida, muestran que mejores funciones de pérdida conducen a una mayor confianza en las predicciones y una mejor precisión.

Basado en anclas y sin anclas

Los detectores de una sola etapa utilizan métodos con o sin anclas para generar predicciones. Los modelos con anclas, como YOLO y SSD, colocan cuadros de ancla predefinidos en el mapa de características. El modelo ajusta estos cuadros para que coincidan con los objetos de la realidad del terreno en el conjunto de datos. Sin embargo, los anclajes predefinidos pueden no cubrir todos los tamaños de objeto, lo que resulta en un IOU más bajo y menos confianza en las predicciones. Los modelos sin anclas, como FCOS, predicen los centros de los objetos directamente sin usar cuadros de ancla. Comparaciones recientes muestran que los métodos sin anclas logran una precisión similar o mejor que los basados en anclas, especialmente para objetos pequeños. Por ejemplo, un método sin anclas alcanzó una precisión promedio cercana a la de los modelos multietapa en un conjunto de datos complejo, con solo un 0.3% de diferencia. Los modelos sin anclas también muestran un IOU y una confianza más altos al hacer coincidir las predicciones con los objetos de la realidad del terreno, lo que los hace robustos para diversos conjuntos de datos.

Método Conjunto de datos mapa Pagarés Notas
YOLOv4 (basado en ancla) DIOR 24.5% Baja Menor precisión para objetos de gran tamaño
Sin ancla DIOR ~Cascada-RCNN 49.8% Mejor para la detección de objetos pequeños

Consideraciones de capacitación

El entrenamiento de detectores de una sola etapa requiere un manejo cuidadoso del conjunto de datos, los umbrales de IOU y las asignaciones de datos de referencia. El modelo debe aprender a hacer coincidir las predicciones con los cuadros de datos de referencia mediante IOU. Establecer el umbral de IOU correcto garantiza que solo las predicciones con alta confianza se consideren detecciones correctas. Si el umbral es demasiado bajo, el modelo puede aceptar coincidencias deficientes, lo que reduce la precisión. Si es demasiado alto, puede pasar por alto objetos reales. El aumento de datos ayuda al modelo a generalizar al exponerlo a diversas imágenes del conjunto de datos. El modelo también necesita etiquetas de datos de referencia equilibradas para evitar sesgos. Durante el entrenamiento, el modelo ajusta su confianza en cada predicción en función de su coincidencia con el objeto de referencia. Los investigadores recomiendan el monitoreo. puntuaciones de confianza y IOU durante el entrenamiento para garantizar que el modelo mejore la precisión y la confiabilidad en todo el conjunto de datos.


Los sistemas de visión artificial con detector de una sola etapa ofrecen una detección de objetos rápida y precisa para aplicaciones en tiempo real. Son ideales para entornos con recursos limitados y tareas dinámicas, como la robótica o la agricultura, donde la velocidad es fundamental.

  1. Los detectores de dos etapas ofrecen alta precisión pero requieren más potencia de cálculo.
  2. Los detectores de una sola etapa como YOLOv10 y RetinaNet proporcionan inferencias rápidas y modelos eficientes.
  3. La elección del sistema adecuado depende de las necesidades de la aplicación y de los recursos disponibles.
de Injusticias Ventajas clave Destacados Rendimiento
YOLOv10 Velocidad en tiempo real, entrenamiento de principio a fin 1.8 veces más rápido que el RT-DETR-R18, 46 % menos de latencia
RetinaNet Maneja desequilibrios de clases y detección de múltiples escalas. Precisión de última generación, más rápido que los modelos de dos etapas
Det eficiente Escalabilidad flexible, red troncal eficiente Pequeño, rápido y preciso para dispositivos móviles y periféricos

Los tomadores de decisiones pueden utilizar el análisis de criterios múltiples para adaptar los sistemas de detección a objetivos específicos, garantizando así la mejor opción para cada escenario.

Preguntas Frecuentes

¿Qué hace que un detector de una sola etapa sea diferente de un detector de dos etapas?

Un detector de una sola etapa predice la ubicación y las clases de objetos en un solo paso. Un detector de dos etapas primero encuentra posibles regiones de objetos y luego las clasifica. Los detectores de una sola etapa funcionan más rápido y son ideales para tareas en tiempo real.

¿Pueden funcionar los detectores de una sola etapa en dispositivos móviles?

Sí, muchos detectores de una sola etapa utilizan modelos ligeros. Estos modelos requieren menos memoria y energía. Dispositivos como teléfonos inteligentes y drones pueden usarlos para una detección rápida de objetos.

¿Son los detectores de una sola etapa lo suficientemente precisos para aplicaciones de seguridad?

Detectores de una sola etapa como YOLO y RetinaNet alcanzan una alta precisión. Muchas industrias las utilizan para tareas de seguridad, como la monitorización del tráfico o de máquinas. Ofrecen un excelente equilibrio entre velocidad y precisión.

¿Cómo manejan los detectores de una sola etapa objetos de distintos tamaños?

La mayoría de los detectores de una sola etapa utilizan cuadros de anclaje o cuadrículas multiescala. Estas características ayudan al sistema a detectar objetos pequeños y grandes en las imágenes. Algunos modelos, como el FCOS, utilizan métodos sin ancla para una mayor flexibilidad.

Vea también

Entendiendo cómo la electrónica impulsa los sistemas de visión artificial

El papel de las cámaras en la tecnología de visión artificial

Cómo el procesamiento de imágenes mejora los sistemas de visión artificial

Soluciones de visión artificial para detectar defectos en productos

Guía completa sobre visión artificial en semiconductores

Vea también

carcasa de la bomba
Explicación de los sistemas de visión artificial para la inspección de calidad para fabricantes
Cómo funcionan los sistemas de visión artificial de reconocimiento facial
Definición de sistemas de visión artificial para navegación autónoma en 2025
Sistemas de visión artificial para verificación de ensamblajes y su papel en el control de calidad
Cómo las herramientas de nube de puntos impulsan la visión artificial en 2025
Explorando la definición y funcionalidad de las herramientas de etiquetado en visión artificial
¿Cuáles son las principales aplicaciones y casos de uso de los sistemas de visión artificial?
Guía para principiantes sobre bibliotecas de procesamiento de imágenes de profundidad en visión artificial
Comprensión de las aplicaciones de Python y C++ en visión artificial
Ir al Inicio