Cómo los modelos codificador-decodificador impulsan la visión artificial moderna

CONTENIDO

COMPARTIR TAMBIÉN

Cómo los modelos codificador-decodificador impulsan la visión artificial moderna

Los modelos de codificador-decodificador han transformado la forma en que las computadoras ven y comprenden el mundo. Estudios recientes demuestran que estos modelos, al utilizarse en un sistema de visión artificial (modelo de codificador-decodificador), ayudan a las máquinas a extraer y comprimir detalles importantes de una imagen. Posteriormente, la reconstruyen mediante técnicas avanzadas de aprendizaje automático. Este proceso mejora la precisión y el rendimiento, incluso con menos datos. Las cifras a continuación muestran el rendimiento de diferentes modelos en la extracción y reconstrucción de información visual:

Configuración del modelo Precisión <5% Precisión <10% Precisión <20%
MiniCPM (SimVec + CoT) 53.84% 69.23% 80.77%
MiniCPM (CoT) 29.23% 45.76% 69.23%
MiniCPM (respuesta directa) 26.92% 41.92% 25.38%
MiniCPM (sin entrenamiento) 11.92% 17.69% 57.69%
Qwen-VL (SimVec + CoT) 5.38% 10.00% 18.08%
Qwen-VL (CoT) 12.31% 21.54% 35.77%
Qwen-VL (respuesta directa) 11.54% 19.62% 31.15%
Qwen-VL (sin entrenamiento) 7.31% 13.46% 21.15%
GPT-4o 16.54% 29.62% 42.69%
DeepSeek-VL 10.00% 17.31% 26.92%

Gráfico de barras agrupadas que compara la precisión de los modelos en diferentes umbrales

Las personas utilizan modelos codificador-descodificador en muchas herramientas de aprendizaje automático que potencian funciones como la edición de fotografías y los coches autónomos.

Puntos clave

  • Los modelos codificador-decodificador ayudan a las computadoras a comprender y recrear imágenes comprimiendo detalles importantes y luego reconstruyendo la imagen con precisión.
  • Estos modelos mejoran las tareas de visión artificial, como el subtitulado de imágenes, la detección de objetos y la conducción autónoma, extrayendo características clave y reduciendo el ruido.
  • El codificador comprime las imágenes en una forma compacta, el espacio latente almacena información esencial y el decodificador reconstruye la imagen con finos detalles.
  • El uso de conexiones de salto y mecanismos de atención aumenta la precisión, especialmente en tareas como la segmentación de imágenes y los sistemas multimodales que combinan imágenes y texto.
  • Los modelos codificador-decodificador ofrecen entrenamiento más rápido, mejor rendimiento y pueden manejar múltiples tareas, lo que los hace vitales para las aplicaciones de visión artificial modernas y futuras.

Sistema de visión artificial con modelo codificador-decodificador

¿Qué es un modelo codificador-decodificador?

Un modelo de codificador-decodificador constituye la columna vertebral de muchos sistemas de visión artificial modernos. Estos modelos pertenecen a un grupo llamado modelos de secuencia a secuenciaProcesan datos de entrada, como imágenes o texto, y los convierten a un formato o secuencia diferente. El codificador toma la entrada y la comprime en un formato compacto llamado vector de contexto. Este vector contiene la información más importante de la entrada. El decodificador utiliza este vector para generar la salida, que puede ser una oración traducida, un pie de foto o una imagen reconstruida.

Los investigadores han diseñado modelos de codificador-decodificador con tres partes principales: el codificador, el vector de contexto y el decodificador. El codificador utiliza la autoatención para comprender las relaciones dentro de la entrada. El vector de contexto resume la entrada. El decodificador crea la salida paso a paso, utilizando la información del vector de contexto. Modelos secuencia a secuencia como estos funcionan bien para tareas como máquina traductoraSubtítulos de imágenes y resúmenes. Admiten entradas y salidas de diferentes longitudes, lo que las hace flexibles para diversas aplicaciones de aprendizaje automático.

¿Por qué utilizar modelos codificador-decodificador en visión?

Los modelos codificador-decodificador ofrecen varias ventajas para la visión artificial. Destacan en la extracción de características, lo que significa que pueden encontrar y utilizar las partes más importantes de una imagen. Esta capacidad les permite un buen rendimiento en tareas como la traducción automática, donde la entrada y la salida pueden diferir en longitud y estructura. En un sistema de visión artificial (modelo codificador-decodificador), estos modelos pueden comprimir datos de imágenes de alta dimensión en una potente representación latente. Este proceso reduce el ruido y mejora la generalización.

Estudios empíricos demuestran que los modelos codificador-decodificador superan a los modelos solo decodificadores en tareas de visión y lenguaje. La siguiente tabla compara su precisión y eficiencia:

Métrico Modelo codificador-decodificador Modelo de solo decodificador Mejora (%)
VQAv2 (Razonamiento visual) + 11.21% de precisión Base Codificador-decodificador superior
TextVQA (multimodal) + 8.17% de precisión Base Codificador-decodificador superior
ChartQA (Análisis visual estructurado) + 7.28% de precisión Base Codificador-decodificador superior
Latencia del primer token (GPU) 86 ms 149 ms reducción de un 42%
Latencia del primer token (CPU) 1591 ms 2242 ms reducción de un 29%
Latencia del primer token (NPU) 189 ms 358 ms reducción de un 47%
Rendimiento (GPU) 37.4 tokens/seg 9.7 tokens/seg aumento de 3.9×
Rendimiento (CPU) 15.3 tokens/seg 4.0 tokens/seg aumento de 3.8×
Rendimiento (NPU) 123.8 tokens/seg 26.5 tokens/seg aumento de 4.7×

Gráfico de barras que muestra los beneficios de latencia y rendimiento de los modelos de codificador-decodificador en GPU, CPU y NPU

Un sistema de visión artificial (modelo codificador-decodificador) también se beneficia de un entrenamiento e inferencia más rápidos. Estos modelos procesan la entrada una sola vez, lo que ahorra tiempo y recursos. Son compatibles con los avances modernos en aprendizaje automático, como los Transformadores de Visión. Diversos estudios demuestran que cargar todos los pesos del codificador-decodificador preentrenados durante el ajuste fino produce mejores resultados y una convergencia más rápida. Este enfoque logra el mismo rendimiento con menos pasos de entrenamiento, lo que lo hace ideal para tareas de visión artificial del mundo real, como la traducción automática y el subtitulado de imágenes.

Nota: Los modelos codificador-decodificador pueden gestionar múltiples tareas simultáneamente, como la clasificación y la segmentación, de forma similar al sistema visual humano. Esta capacidad multitarea los convierte en una excelente opción para desarrollar sistemas de visión avanzados.

Descripción de la arquitectura

Descripción de la arquitectura

codificador

El codificador es la primera etapa de los modelos de codificador-decodificador. Toma la imagen original y la transforma en un conjunto de características significativas. En muchos sistemas, el codificador utiliza una red neuronal convolucional. Esta red escanea la imagen con pequeños filtros, capturando patrones como bordes, formas y texturas. Cada capa del codificador extrae características más complejas, desde líneas simples hasta objetos detallados. Los transformadores también funcionan como codificadores en algunos modelos. Utilizan la autoatención para encontrar relaciones entre las diferentes partes de la imagen, lo que ayuda al modelo a comprender la escena completa.

Los investigadores han probado diferentes tipos de codificadores, como redes neuronales recurrentes y transformadores. Los transformadores suelen ofrecer un rendimiento superior o igual al de los modelos recurrentes. El codificador puede incluso usar hardware avanzado, como la fotónica de silicio, para comprimir imágenes a alta velocidad y bajo consumo. Por ejemplo, un codificador basado en fotónica de silicio procesa imágenes mediante señales ópticas, lo que reduce el consumo de energía 100 veces en comparación con las GPU. Este enfoque mantiene intacta la estructura de la imagen y es eficaz con imágenes de gran tamaño.

Aspecto Resumen de evidencia
Arquitectura del dispositivo El codificador es un dispositivo totalmente óptico basado en fotónica de silicio con N guías de onda de entrada monomodo que codifican (sqrt{N} veces sqrt{N}) bloques de píxeles, una guía de onda multimodo, una capa de dispersión aleatoria y M fotodetectores (M < N) que realizan transformaciones aleatorias locales para la compresión de imágenes.
Principio operativo La codificación se modela como una multiplicación de matriz de transmisión lineal (O = TI), comprimiendo bloques de imagen ópticamente a alta velocidad y bajo consumo, y realizando la reconstrucción electrónicamente.
Estudios de simulación Las simulaciones numéricas utilizaron conjuntos de datos de imágenes estándar (DIV2K, Flickr2K) y matrices de transmisión sintéticas para evaluar la calidad de la compresión y la reconstrucción, demostrando el impacto del tamaño del kernel en el rendimiento.
Validación Experimental Se caracterizó experimentalmente un prototipo con 16 entradas (bloques de 4×4 píxeles), confirmando una calidad de compresión comparable a JPEG y una eliminación de ruido comparable a las redes neuronales, y una robustez a las imperfecciones de fabricación después de la calibración.
Métricas de rendimiento El codificador puede procesar 1 terapíxel/s a ~16 GHz con 100 veces menos energía por operación de acumulación múltiple que las GPU, lo que permite una compresión de imágenes de alto rendimiento y bajo consumo.
Función del codificador en un sistema híbrido Funciona como la primera capa de compresión en un autocodificador optoelectrónico híbrido, realizando transformaciones aleatorias locales ópticamente, mientras que la electrónica digital maneja la reconstrucción y el procesamiento posterior.
Bases teóricas El enfoque de codificación aleatoria se basa en la teoría de detección compresiva, que respalda la reducción de la dimensionalidad y la compresión eficiente después de la formación de la imagen.
Ventajas del tamaño del kernel local Las transformaciones locales preservan la estructura espacial, reducen la propagación del ruido, permiten una compresión escalable para imágenes grandes y evitan problemas de moteado de bajo contraste.
Posibles extensiones Enfoque aplicable a datos RGB, hiperespectrales o de series temporales y otras tareas de procesamiento de imágenes como inferencia o clasificación.

El diseño del codificador afecta la capacidad de aprendizaje del modelo. Aumentar el número de bloques del codificador ayuda al modelo a aprender patrones complejos, pero también ralentiza el entrenamiento. Las tasas de abandono del codificador, establecidas entre 0.1 y 0.2, mejoran el rendimiento al evitar el sobreajuste. Los tamaños de parche más pequeños, como 16×16 píxeles, aumentan la eficacia del codificador y reducen el tiempo de entrenamiento. Los codificadores eficientes permiten que los modelos de codificador-decodificador converjan más rápido y utilicen menos memoria.

Espacio latente

Después de que el codificador procesa la imagen, crea una versión comprimida llamada espacio latente. Este espacio contiene las características más importantes de forma compacta. El espacio latente actúa como puente entre el codificador y el decodificador. Reduce el tamaño de los datos, facilitando el trabajo del modelo con las imágenes.

Los autocodificadores variacionales utilizan el espacio latente para convertir imágenes en vectores cortos. Estos vectores conservan los detalles principales, pero pierden algunas características sutiles, especialmente los detalles pequeños o de alta frecuencia. El tamaño del espacio latente es importante. Un espacio latente más pequeño obliga al modelo a centrarse en las características más importantes, pero también puede dificultar la reconstrucción perfecta de la imagen original. Los investigadores utilizan funciones de pérdida especiales para garantizar que el espacio latente capture información útil. Por ejemplo, algunos modelos utilizan la divergencia de Kullback-Leibler para mantener el espacio latente organizado y significativo.

  • Los modelos VSC activan solo unas pocas dimensiones latentes, lo que hace más fácil ver qué características controlan ciertos aspectos visuales.
  • Menos dimensiones activas ayudan con la clasificación y hacen que el modelo sea más sólido.
  • El modelo alinea las dimensiones latentes activas dentro de la misma clase, capturando características compartidas y únicas.
  • Las funciones de pérdida basadas en medidas de distancia mantienen el espacio latente consistente para cada clase.
  • Este equilibrio mejora tanto la comprensión global como los detalles específicos de cada clase.

Algunos estudios utilizan los valores de Shapley para clasificar las partes del espacio latente más importantes para la reconstrucción. Esta clasificación permite que el modelo ignore las partes menos importantes, ahorrando espacio y conservando las características más útiles. El espacio latente en los modelos de codificador-decodificador ayuda a equilibrar el detalle y la eficiencia.

Descifrador

El decodificador toma los datos comprimidos del espacio latente y reconstruye la imagen. Funciona de forma opuesta al codificador. El decodificador utiliza capas como las capas convolucionales transpuestas para transformar el vector corto en una imagen completa. Cada capa añade más detalle, intentando asemejarse lo más posible a la imagen original.

Los investigadores han probado diferentes tipos de decodificadores. Por ejemplo, el uso de un decodificador de Campo Aleatorio Condicional (CRF) en lugar de un decodificador de Clasificación Temporal Conexionista (CTC) mejora las tasas de coincidencia en aproximadamente un 4 %. El decodificador CRF también reduce las tasas de desajuste, inserción y eliminación. Los decodificadores convolucionales complejos, como los de Causalcall o URNano, suelen tener un mejor rendimiento que los simples. Sin embargo, los decodificadores convolucionales simples aún pueden competir en algunas tareas.

Componente Arquitectónico Métrica/Punto de referencia Principales Conclusiones
Tipo de decodificador (CRF vs CTC) Tasa de coincidencia El decodificador CRF mejora la tasa de coincidencia en un 4 % aproximadamente en comparación con el decodificador CTC
Desajuste, inserción, eliminación El decodificador CRF reduce las tasas de desajuste (~1 %), inserción (~1 %) y eliminación (~2 %).
AUC Mejora media del 3% con decodificador CRF
Complejidad convolucional Clasificación de modelos Las convoluciones complejas (por ejemplo, Causalcall, URNano) tienen una clasificación más alta que las más simples.
Robustez Las convoluciones complejas generalmente producen un mejor rendimiento, pero las convoluciones simples siguen siendo competitivas.
Tipo de codificador (RNN vs. Transformador) Impacto en el rendimiento Los codificadores de transformador muestran un rendimiento competitivo o mejorado con respecto a los codificadores RNN
Evaluación general del modelo Número de modelos probados 90 arquitecturas diferentes evaluadas
Límites de rendimiento Las mejoras con respecto a los modelos superiores como Bonito son pequeñas (<1 % en algunas métricas), lo que indica que se está cerca de los límites de datos.

La función del decodificador es minimizar la diferencia entre la imagen original y la reconstruida. Los investigadores utilizan funciones de pérdida, como el error cuadrático medio, para medir esta diferencia. Algunos decodificadores utilizan un módulo residual y capas de atención para mejorar la calidad de la imagen, especialmente con tasas de compresión altas. Estas adiciones ayudan al decodificador a recuperar más detalles y conservar características importantes. En estudios con humanos, los decodificadores neuronales entrenados con pérdida perceptiva producen imágenes que las personas consideran más cercanas al original. Esto demuestra que el decodificador desempeña un papel clave en la eficacia de los modelos codificador-decodificador para la visión artificial.

Gráfico de barras que muestra las métricas de mejora del decodificador a partir de datos de referencia arquitectónicos

El modelo DETR, que utiliza una arquitectura de codificador-decodificador, iguala el rendimiento de Faster R-CNN en el conjunto de datos COCO. DETR funciona especialmente bien con objetos grandes gracias a que su codificador y decodificador basados en transformadores utilizan autoatención global. Este diseño permite al modelo procesar toda la imagen simultáneamente. DETR también admite tareas como la segmentación panóptica, lo que demuestra la flexibilidad de los modelos de codificador-decodificador.

  • Aumentar el número de bloques codificadores y decodificadores ayuda al modelo a aprender características complejas, pero aumenta el tiempo de entrenamiento.
  • Las tasas de abandono de 0.1 o 0.2 en las capas de atención y convolucionales mejoran el rendimiento.
  • Los tamaños de parche más pequeños en el codificador y el decodificador hacen que el entrenamiento sea más rápido y más efectivo.
  • Las arquitecturas de autocodificadores eficientes equilibran la velocidad, el uso de memoria y la calidad de reconstrucción.
  • Los métodos de regularización como las penalizaciones L1/L2 y el abandono ayudan a que el modelo se generalice mejor.
  • Las funciones de pérdida, como el error cuadrático medio y la entropía cruzada binaria, miden qué tan bien el decodificador reconstruye la imagen.

Los modelos codificador-decodificador utilizan estas opciones de diseño para lograr alta precisión y eficiencia en visión artificial. El codificador comprime la imagen, el espacio latente almacena las características clave y el decodificador reconstruye la imagen con el máximo detalle posible.

Flujo de datos

Entrada al espacio latente

Los modelos de codificador-decodificador comienzan tomando una imagen como entrada. El codificador procesa esta imagen y la convierte en un conjunto de números llamado vector latente. Este paso reduce el tamaño de los datos, conservando la información más importante. En muchos sistemas, el codificador utiliza redes neuronales para mapear la imagen desde su forma original a un espacio comprimido. Por ejemplo, en un autocodificador variacional, el codificador crea una distribución con una media y una varianza para cada imagen de entrada. A continuación, el modelo toma muestras de esta distribución para obtener el vector latente.

Los investigadores suelen usar diagramas de flujo para mostrar cómo el codificador transforma la imagen en el espacio latente. Estos diagramas ayudan a explicar cómo el codificador aprende a conservar las características útiles y a eliminar los detalles innecesarios. Durante el entrenamiento, el modelo utiliza una función de pérdida especial que combina dos objetivos: lograr que la imagen reconstruida se parezca a la original y mantener el espacio latente organizado. El modelo actualiza sus pesos mediante el descenso de gradiente, lo que le ayuda a aprender la mejor manera de comprimir la imagen.

El trabajo del codificador es encontrar un equilibrio entre mantener suficientes detalles para una reconstrucción precisa y hacer que el espacio latente sea lo suficientemente pequeño para un procesamiento eficiente.

Generación de salida

Tras crear el vector latente, el decodificador toma el control. Este utiliza este vector para reconstruir la imagen. Comienza con los datos comprimidos y añade capas de detalle paso a paso. En muchos modelos, el decodificador utiliza capas convolucionales transpuestas y normalización por lotes para convertir el vector latente de nuevo en una imagen.

Algunos sistemas añaden componentes adicionales, como un discriminador de privacidad, para garantizar que la imagen de salida no revele información confidencial. El decodificador recibe retroalimentación tanto de la pérdida de reconstrucción como de la pérdida de privacidad. Esta retroalimentación ayuda al modelo a mejorar la calidad de la imagen de salida, protegiendo al mismo tiempo la privacidad.

Todo el proceso, desde la imagen de entrada hasta el espacio latente y de vuelta a la imagen de salida, se repite varias veces durante el entrenamiento. Cada ciclo ayuda al modelo a mejorar su capacidad de compresión y reconstrucción de imágenes. flujo de datos En los modelos codificador-decodificador se muestra cómo estos sistemas pueden manejar tareas complejas en visión artificial.

Modelos codificador-decodificador en tareas de visión

Codificadores automáticos

Codificadores automáticos Utilice modelos de codificador-decodificador para aprender a comprimir y reconstruir imágenes. El codificador convierte una imagen en un conjunto más pequeño de números y el decodificador intenta recrear la imagen original a partir de estos datos comprimidos. Los investigadores han descubierto que los autocodificadores pueden capturar características importantes en datos visuales. Por ejemplo, los experimentos muestran una fuerte relación entre la eficacia con la que un autocodificador reconstruye una imagen y su facilidad de memorización. Cuando los autocodificadores utilizan todas las características aprendidas, alcanzan una precisión de clasificación cercana a la del modelo original, entre el 65 % y el 68 %. Si se eliminan todas las características, la precisión se reduce a casi cero. Esto demuestra que ciertas características del modelo son cruciales para reconocer lo que hay en una imagen. Incluso cuando faltan algunos datos, los autocodificadores pueden restaurar imágenes mediante estrategias especiales que adivinan las partes faltantes. Esto los hace útiles para muchas tareas de procesamiento de imágenes.

Latentes SAE utilizadas Precisión de clasificación (%)
Todas 64.82 – 68.25
Ninguno (enmascarado) 0.1
Activación superior Varía (gotea con menos frecuencia)

Segmentación de imagen

Modelos de codificador-decodificador Desempeñan un papel fundamental en la segmentación de imágenes, cuyo objetivo es separar las diferentes partes de una imagen. En imágenes médicas, los investigadores probaron 25 combinaciones diferentes de codificador-decodificador para segmentar órganos en resonancias magnéticas. Los mejores resultados se obtuvieron al usar un codificador ResNet50 con un decodificador DeepLab V3+, alcanzando una puntuación Dice de 0.9082. Esta alta puntuación significa que el modelo puede delinear los órganos con precisión. Las conexiones de salto, que conectan el codificador y el decodificador, ayudan a conservar los detalles finos. Al eliminar estas conexiones, el modelo pierde precisión y comete más errores. Los modelos de codificador-decodificador con conexiones de salto son eficaces para tareas precisas tanto en ciencia como en medicina.

Sistemas multimodales

Los sistemas multimodales utilizan modelos de codificador-decodificador para procesar información de diferentes fuentes, como imágenes y texto. Los investigadores utilizan estos modelos en el aprendizaje automático para mejorar tareas como la traducción de subtítulos o la respuesta a preguntas sobre imágenes. Los estudios demuestran que el decodificador puede ayudar a completar las lagunas si el codificador omite algunos detalles. Sin embargo, los beneficios dependen de la precisión con la que el modelo alinea las partes visual y lingüística. Si la imagen y el texto no coinciden, el rendimiento del modelo disminuye. Métricas como BLEU y METEOR ayudan a medir el funcionamiento de estos sistemas. Los modelos de codificador-decodificador multimodales pueden resolver problemas donde la comprensión tanto de imágenes como de palabras es importante, pero requieren un diseño cuidadoso para evitar errores.

Consejo: Los modelos codificadores-decodificadores multimodales pueden ayudar a las computadoras a comprender escenas complejas al combinar la visión y el lenguaje, pero funcionan mejor cuando ambos tipos de datos coinciden bien.

Aplicaciones del mundo real

Aplicaciones del mundo real

Subtítulos de imágenes

Los modelos de codificador-decodificador han transformado el subtitulado de imágenes al ayudar a las computadoras a describir lo que ven. Estos modelos utilizan un codificador para extraer características de una imagen y un decodificador para generar una oración que coincida con el contenido visual. Los investigadores han probado diversos enfoques para mejorar la precisión. Por ejemplo, los modelos de codificador-decodificador basados en la atención ayudan al decodificador a centrarse en partes importantes de la imagen durante la generación del subtitulado. La siguiente tabla destaca estudios y conjuntos de datos clave que impulsaron el subtitulado de imágenes:

Estudio/Conjunto de datos Descripción Contribución al subtitulado de imágenes mediante codificador-decodificador
Kyunghyun Cho y otros (2015) Se introdujeron redes codificadoras-decodificadoras basadas en la atención Enfoque mejorado en las regiones de la imagen, lo que aumenta la precisión de los subtítulos
Jyoti Aneja y otros (2018) Se utilizaron redes convolucionales para subtitular Superó a las RNN/LSTM tradicionales
Rémi Lebret y otros (2015) Se desarrollaron modelos basados en frases Visión y lenguaje vinculados para mejores subtítulos
Conjunto de datos COCO (2014) Conjunto de datos de referencia Evaluación de modelos estandarizados
ImagenNet (2009) Conjunto de datos de imágenes de gran tamaño Previsto codificadores preentrenados
Conjunto de datos de Bristol-Myers Squibb Imágenes moleculares con etiquetas Subtítulos específicos del dominio habilitados

Los investigadores descubrieron que el uso de más unidades de atención y mayores dimensiones del decodificador mejoraba el rendimiento del modelo. Los mejores modelos alcanzaron distancias de Levenshtein bajas, lo que demostró su capacidad para generar subtítulos precisos y coherentes. Los modelos codificador-decodificador también redujeron errores como la repetición de frases, lo que aumenta la fiabilidad de los subtítulos de imágenes en tareas del mundo real.

Detección de objetos

Los modelos de codificador-decodificador desempeñan un papel fundamental en la detección de objetos. Estos modelos ayudan a las computadoras a encontrar y etiquetar objetos en imágenes. Los investigadores utilizan métricas como la Intersección sobre Unión (IoU) para medir la precisión con la que los cuadros predichos coinciden con los objetos reales. Los valores de IoU superiores a 0.5 indican una buena detección. Los modelos de codificador-decodificador basados en transformadores, como LR-DETR, han establecido nuevos estándares de precisión y velocidad. LR-DETR superó a modelos anteriores como SSD y DETR, especialmente en condiciones adversas como la oclusión o el deslumbramiento. DecoderTracker, un modelo basado únicamente en decodificador, duplicó la velocidad de los modelos tradicionales de codificador-decodificador, manteniendo una alta precisión. Estos avances demuestran que los modelos de codificador-decodificador pueden gestionar escenas complejas y ofrecer resultados rápidos y precisos.

Vehículos autónomos

Los vehículos autónomos se basan en modelos de codificador-decodificador para comprender su entorno. Estos modelos procesan datos de cámaras y sensores para detectar objetos, segmentar zonas transitables e identificar líneas de carril. Los modelos de codificador-decodificador multitarea utilizan un codificador compartido y varios decodificadores para gestionar diferentes tareas simultáneamente. Estudios realizados con el conjunto de datos BD100K demostraron que compartir funciones entre tareas mejoraba la velocidad y la precisión. Nuevos modelos como UF-Net y SC3D combinaron CNN y transformadores para optimizar la detección y la segmentación en la conducción real. En conjuntos de datos como KITTI y NuScenes, estos modelos alcanzaron puntuaciones medias altas de precisión promedio, lo que demuestra su valor para una conducción autónoma segura y eficiente.

Los modelos codificador-decodificador ayudan a las máquinas a ver, describir y actuar en el mundo, impulsando muchos sistemas de visión modernos.


Los modelos codificador-decodificador impulsan el progreso en la visión artificial. Ayudan a las máquinas a ver, comprender y describir imágenes. Conocer cómo funcionan estos modelos permite a las personas comprender mejor su impacto.

  • Los sistemas futuros podrían utilizar codificadores y decodificadores aún más inteligentes.
  • Los investigadores esperan que los nuevos modelos manejen tareas más complejas y aprendan más rápido.

Las mentes curiosas pueden explorar estos modelos para ver cómo dan forma a la tecnología del mañana.

Preguntas Frecuentes

¿Cuál es la función principal de un modelo codificador-decodificador en visión artificial?

Un modelo codificador-decodificador ayuda a una computadora a comprender y recrear imágenes. El codificador encuentra características importantes en la imagen. El decodificador utiliza estas características para reconstruir o describir la imagen.

¿Cómo manejan los modelos codificador-decodificador diferentes tipos de imágenes?

Estos modelos funcionan con muchos tipos de imágenes, como fotografías, exploraciones médicas o dibujos. el codificador aprende Para encontrar patrones en cada tipo de imagen, el decodificador utiliza estos patrones para generar resultados útiles.

¿Por qué algunos modelos utilizan conexiones salteadas?

Las conexiones de salto ayudan al decodificador a conservar detalles importantes de la imagen original. Envían información directamente del codificador al decodificador. Esto aumenta la precisión de la salida, especialmente para tareas como la segmentación de imágenes.

¿Pueden los modelos codificador-decodificador funcionar tanto con imágenes como con texto?

¡Sí! Los modelos de codificador-decodificador multimodales pueden procesar imágenes y texto conjuntamente. Por ejemplo, pueden ver una imagen y escribir un pie de foto. Estos modelos ayudan a las computadoras a comprender y conectar diferentes tipos de información.

Vea también

El impacto del aprendizaje profundo en la visión artificial

Los marcos de redes neuronales transforman la visión artificial moderna

Comprensión de los modelos de visión artificial en sistemas de máquinas

Explorando la visión artificial basada en píxeles en la tecnología actual

Una guía completa sobre el procesamiento de imágenes en visión artificial

Vea también

Una mirada al año 2025 sobre los beneficios del sistema de visión artificial con análisis de reflectancia de superficies
Una mirada al año 2025 sobre los beneficios del sistema de visión artificial con análisis de reflectancia de superficies
e1de9a8e30f54b22900171cb917c9834
carcasa de la bomba
Explicación de los sistemas de visión artificial para la inspección de calidad para fabricantes
Cómo funcionan los sistemas de visión artificial de reconocimiento facial
Definición de sistemas de visión artificial para navegación autónoma en 2025
Sistemas de visión artificial para verificación de ensamblajes y su papel en el control de calidad
Cómo las herramientas de nube de puntos impulsan la visión artificial en 2025
Explorando la definición y funcionalidad de las herramientas de etiquetado en visión artificial
Ir al Inicio