
Un sistema de visión artificial con incrustación de palabras utiliza representaciones matemáticas llamadas vectores para conectar el lenguaje con la información visual. La incrustación de palabras convierte las palabras en vectores que capturan el significado y las relaciones. Este proceso ayuda a las máquinas a comprender tanto imágenes como texto. Estudios demuestran que integrar las incrustaciones con datos visuales mejora su rendimiento, incluso con conjuntos de datos pequeños.
| Tipo de incrustación | Conjunto de datos | Rendimiento | valor de p |
|---|---|---|---|
| Visualmente fundamentado (TASA-G, Text8-G) | TASA, Texto8 | Más alto | ≤ 0.0008 |
| Puramente textual (TASA-T, Text8-T) | TASA, Texto8 | Más Bajo |
Los investigadores han descubierto que la combinación de datos visuales y textuales en incrustaciones supera a los modelos basados solo en texto en tareas como el procesamiento del lenguaje natural y la predicción de juicios de similitud entre personas. Las incrustaciones de palabras, los vectores y los modelos de incrustación trabajan juntos para conectar el lenguaje y la visión, logrando una IA más inteligente.
Puntos clave
- Las incrustaciones de palabras convierten las palabras en números que ayudan a las computadoras a comprender el lenguaje y las imágenes juntos.
- La combinación de datos visuales y de texto en las incrustaciones hace que los sistemas de IA sean más precisos y rápidos al reconocer objetos y escenas.
- Incorporación de modelos como Word2Vec y BERT mejorar muchas tareas de IA, incluido el reconocimiento de imágenes, la búsqueda y el procesamiento del lenguaje.
- El aprendizaje multimodal une el lenguaje y la visión, lo que permite a la IA describir mejor las imágenes y responder preguntas sobre ellas.
- Los modelos de incorporación reducen el trabajo manual, manejan grandes datos de manera eficiente y continúan mejorando el rendimiento de la IA en aplicaciones del mundo real.
Sistema de visión artificial con incrustación de palabras
Definición
Un sistema de visión artificial con incrustación de palabras utiliza técnicas matemáticas para representar palabras e imágenes como vectores. Estos vectores capturan el significado y las relaciones entre las palabras y los objetos visuales. En este sistema, los modelos de incrustación de palabras transforman el lenguaje en números que las computadoras pueden comprender. Los modelos también conectan estos números con las características visuales presentes en las imágenes. Este proceso ayuda a las computadoras a reconocer objetos, comprender escenas y relacionar las palabras con lo que ven.
Los investigadores han demostrado que los modelos de incrustación constituyen la base de muchas aplicaciones modernas de aprendizaje automático. Por ejemplo, el sistema de visión de AMP Robotics procesa más de 50 100 millones de artículos al año. Sus robots utilizan redes neuronales basadas en incrustación para reconocer y clasificar materiales a velocidades superiores a XNUMX metros por minuto. Esta escala y velocidad demuestran cómo los modelos de incrustación permiten un reconocimiento eficiente y preciso en sistemas de visión artificial del mundo real.
La base de la incrustación reside en la forma en que estos modelos capturan relaciones semánticas y estructurales. Al mapear palabras e imágenes en un espacio compartido, el sistema puede comparar y conectar diferentes tipos de información. Este enfoque geométrico permite al modelo aprender patrones y similitudes, lo que permite a las computadoras comprender tanto texto como elementos visuales.
| Evidencia numérica | Descripción |
|---|---|
| 50 mil millones de artículos procesados anualmente | Tamaño del conjunto de datos que informa el sistema de visión de AMP Robotics, lo que demuestra la aplicación a gran escala del reconocimiento de IA basado en incrustaciones en la visión artificial |
| +100 pies por minuto de velocidad de la cinta transportadora | Aumento de la velocidad de la cinta transportadora cuando los robots realizan el control de calidad en comparación con los clasificadores humanos, lo que muestra ganancias de eficiencia posibilitadas por la visión artificial |
Papel en la IA
El papel de un sistema de visión artificial con incrustación de palabras en la IA es transformador. Los modelos de incrustación permiten a las computadoras aprender tanto del lenguaje como de las imágenes. Estos modelos ayudan a los sistemas de IA a comprender el contexto, el significado y las relaciones en los datos. Por ejemplo, los modelos de incrustación de palabras como Word2Vec, GloVe y BERT han transformado la forma en que las máquinas procesan el lenguaje y las imágenes. Proporcionan representaciones densas y contextuales que mejoran tareas como el reconocimiento de imágenes, la búsqueda semántica y el procesamiento del lenguaje natural.
Investigaciones recientes demuestran que los modelos de incrustación superan a los modelos tradicionales en muchas tareas de IA. En la recuperación de información clínica, el modelo de incrustación BGE-large-en alcanzó una precisión promedio de 0.403 en el conjunto de datos de la Universidad de Wisconsin y de 0.475 en el conjunto de datos MIMIC-III. Estas puntuaciones fueron significativamente superiores a las de los modelos sin incrustaciones, que en ocasiones tuvieron un rendimiento inferior al de las conjeturas aleatorias. Esta evidencia demuestra que los modelos de incrustación mejoran la precisión y la fiabilidad en sistemas de IA complejos.
Los modelos de incrustación de palabras también admiten aplicaciones avanzadas como la IA conversacional, la generación de texto a imagen y la búsqueda intermodal. Por ejemplo, modelos como text-embedding-ada-002 de OpenAI y DALL·E utilizan incrustaciones para conectar texto e imágenes. Estos sistemas pueden generar imágenes a partir de descripciones de texto o encontrar imágenes similares a partir de una consulta escrita. En visión artificial, los modelos de incrustación ayudan a la IA a reconocer objetos, clasificar escenas e incluso generar nuevas imágenes.
Los informes del sector confirman el impacto de los modelos de incrustación de palabras. Un estudio analizó 22,000 documentos de 128 bancos centrales utilizando modelos de incrustación. Los resultados mostraron que la incrustación superó a los métodos de diccionario en la predicción de shocks de política monetaria. Otro informe examinó 36,200 observaciones anuales de empresas chinas. Se descubrió que las capacidades digitales medidas mediante modelos de incrustación estaban vinculadas al rendimiento financiero. Estos hallazgos resaltan el amplio valor de los modelos de incrustación en la investigación y la industria.
Las incrustaciones de palabras también mejoran la precisión en tareas relacionadas con la visión artificial. La combinación de incrustaciones de Word2Vec y GloVe en sistemas de detección de intrusiones permitió lograr un mejor equilibrio entre precisión y generalización. Estos modelos capturan relaciones semánticas y contextuales, lo que ayuda a los sistemas de IA a detectar patrones incluso con datos de entrenamiento limitados.
Consejo: La incrustación de modelos reduce la necesidad de ingeniería manual de características. Ayuda a los sistemas de IA a escalar en diferentes tareas y a adaptarse rápidamente a nuevos datos.
Vectores de palabras y significado
Relaciones Semánticas
Los vectores de palabras ayudan a las computadoras a comprender cómo se relacionan las palabras entre sí. Cada palabra de un corpus se convierte en un punto en un espacio llamado espacio vectorial. La distancia en el espacio vectorial entre dos vectores de palabras muestra la similitud de sus significados. Por ejemplo, los vectores de las palabras "gato" y "perro" estarán próximos entre sí porque suelen aparecer en contextos similares en el corpus. Esta proximidad se mide mediante la similitud de cosenos. La similitud de cosenos verifica el ángulo entre dos vectores. Si el ángulo es pequeño, las palabras tienen significados similares.
Los vectores de palabras capturan más que solo conexiones directas. También muestran relaciones más profundas. Por ejemplo, el vector de "rey" menos el vector de "hombre" más el vector de "mujer" suele estar cerca del vector de "reina". Este patrón muestra cómo los vectores de palabras pueden representar ideas complejas del corpus. Los modelos de aprendizaje automático utilizan estos patrones para encontrar significado y hacer predicciones.
Contexto en el aprendizaje
El contexto juega un papel importante En cómo los vectores de palabras aprenden el significado. Cuando un modelo se entrena con un corpus, observa las palabras que rodean a cada palabra objetivo. Este proceso ayuda al modelo a construir vectores de palabras que reflejan cómo se usan las palabras en la vida real. A veces, palabras con significados opuestos, como "bueno" y "malo", aparecen en contextos similares. Las investigaciones demuestran que sus vectores de palabras pueden tener una alta similitud de coseno, aunque sus significados difieran. La siguiente tabla muestra cómo el contexto afecta la similitud de coseno en los vectores de palabras:
| Aspecto | Descripción | Medida cuantitativa / Observación |
|---|---|---|
| Palabras con sentimientos opuestos en contextos similares | El aprendizaje basado en el contexto hace que las incrustaciones de palabras con polaridades de sentimiento opuestas tengan una gran similitud. | Alta similitud de coseno a pesar del sentimiento opuesto |
| Palabras con el mismo sentimiento de polaridad en contextos relevantes | Las incrustaciones muestran baja similitud incluso cuando los contextos son relevantes para el sentimiento | Baja similitud de coseno |
| Similitud entre clases y dentro de clases | La similitud del coseno promedio entre clases de sentimiento es comparable o mayor que la similitud dentro de la clase | Entre clases: 0.6685; Positivo dentro de clases: 0.6668; Negativo dentro de clases: 0.6881 |
Los investigadores descubrieron que añadir conocimiento léxico a los vectores de palabras puede ayudar a separar mejor los significados. Este método proyecta los vectores en un nuevo espacio, lo que facilita la distinción de palabras por su sentimiento. Los estudios también demuestran que la combinación del contexto local y global del corpus mejora los vectores de palabras. Los modelos que utilizan ambos tipos de contexto tienen un mejor rendimiento en tareas como la clasificación de textos y el análisis de corpus. El aprendizaje contextual incluso ayuda a los vectores de palabras a coincidir con patrones presentes en el cerebro humano, lo que demuestra el poder del contexto en el aprendizaje automático.
Modelos de incrustación
Modelos populares
Los investigadores han desarrollado numerosos modelos de incrustación de palabras para ayudar a las computadoras a comprender el lenguaje y las imágenes. Estos modelos utilizan un corpus de entrenamiento para aprender cómo se relacionan las palabras y las imágenes. Algunos de los modelos de incrustación más populares incluyen Sentence-BERT, SGPT, GTR, E5, Cohere Embed v3 y los modelos de incrustación de texto de OpenAI. Cada modelo utiliza un enfoque diferente para convertir palabras e imágenes en vectores. Estos vectores capturan el significado del corpus y ayudan a las computadoras a encontrar patrones.
Las encuestas y los puntos de referencia comparan estos modelos de incrustación en diversas tareas. Los puntos de referencia BEIR y MTEB prueban los modelos en recuperación de información, agrupamiento y clasificación. La siguiente tabla muestra cómo estos puntos de referencia evalúan diferentes modelos:
| Nombre del punto de referencia/encuesta | Descripción | Tareas cubiertas | Comparación de modelos de incrustación notables | Enlace de la tabla de clasificación |
|---|---|---|---|---|
| BEIR | Punto de referencia para tareas de recuperación de información | 9 tareas que incluyen verificación de hechos, predicción de citas, recuperación de preguntas duplicadas, recuperación de argumentos, recuperación de noticias, respuesta a preguntas, recuperación de tuits, IR biomédico y recuperación de entidades. | Se evaluaron varios modelos de incrustación | https://openreview.net/forum?id=wCu6T5xFjeJ |
| MTEB | Análisis comparativo de incrustación de texto masivo que analiza el rendimiento en múltiples tareas | 8 tareas que incluyen agrupamiento, minería de bitex, recuperación, similitud textual semántica, clasificación, clasificación de pares y reclasificación | Sentence-BERT, SGPT, GTR, E5, Cohere Embed v3, modelos de incrustación de texto de OpenAI | https://huggingface.co/spaces/mteb/leaderboard |
Los investigadores utilizan estos puntos de referencia para determinar qué modelos de incrustación de palabras funcionan mejor en diferentes aplicaciones. El modelo de incrustación de texto de NVIDIA, por ejemplo, alcanza una alta puntuación NDCG@10 de 69.32 en 56 tareas. Esto demuestra un excelente rendimiento de recuperación y destaca la eficacia de las nuevas arquitecturas de modelos.
Aplicación en la visión
Los modelos de incrustación de palabras juegan un papel clave en sistemas de visión artificialEstos modelos utilizan vectores para conectar lenguaje e imágenes, lo que facilita la comprensión de ambos por parte de las computadoras. En aplicaciones reales, la incrustación de modelos facilita la detección de defectos, la inspección automatizada y el control de calidad. Suelen superar a los humanos en precisión y velocidad.
Los investigadores han demostrado que los modelos de incrustación como Vlm2Vec mejoran la Precisión@1 en 17.3 puntos, del 42.8 % al 60.1 %, en 36 conjuntos de datos de incrustación multimodal. En tareas de disparo cero, el modelo aumenta la Precisión@1 en 11.6 puntos. Estos resultados demuestran que los modelos de incrustación se generalizan correctamente y gestionan nuevos datos de diferentes dominios. Los estudios de ablación revelan que la variante LoRA de Vlm2Vec ofrece un mejor rendimiento que el ajuste fino completo, lo que demuestra el valor práctico de los modelos de incrustación.
Nota: Mejorar la calidad de las etiquetas en los datos de entrenamiento puede aumentar la eficiencia del modelo hasta en un 88 %. Esto resalta la importancia de contar con datos de calidad para entrenar modelos de incrustación.
Los investigadores también utilizan modelos de incrustación en el análisis de comentarios de clientes, la clasificación de documentos y la monitorización de redes sociales. Por ejemplo, Sentence Transformers y SciBERT ayudan a agrupar y visualizar grandes conjuntos de datos no estructurados. Estos modelos utilizan vectores para agrupar elementos similares, lo que reduce el trabajo manual hasta en un 80 %. En visión, modelos como CLIP mapean imágenes en espacios de incrustación, lo que permite organizar y buscar datos visuales. Estas aplicaciones muestran cómo los modelos de incrustación transforman las tareas de lenguaje y visión mediante vectores aprendidos de un corpus extenso.
Representaciones vectoriales
De One-Hot a Vectores
Los primeros modelos de aprendizaje automático utilizaban la codificación one-hot para representar palabras. En este método, cada palabra de un corpus se convertía en un vector largo con un único valor establecido en uno y el resto en cero. Este enfoque creaba vectores muy grandes y dispersos. Por ejemplo, un corpus de 10,000 10,000 palabras necesitaría un vector de XNUMX XNUMX dimensiones para cada palabra. Estos vectores no mostraban ninguna relación ni similitud entre las palabras. El modelo no podía determinar si dos palabras tenían significados similares o aparecían en contextos similares.
Los investigadores desarrollaron nuevos métodos de codificación Para resolver estos problemas, la codificación de etiquetas y la codificación ordinal redujeron el tamaño de los vectores, pero aún no capturaron las relaciones. La codificación binaria ayudó a reducir el número de dimensiones. La codificación de frecuencia y de destino añadieron información sobre la frecuencia de aparición de una palabra en el corpus o su conexión con un valor objetivo. Sin embargo, estos métodos aún utilizaban representaciones fijas.
El verdadero avance se produjo con la incrustación de capas en redes neuronales. Estas capas aprendieron vectores de palabras densos y de baja dimensión durante el entrenamiento. Cada palabra del corpus recibió un vector único que capturó su significado y relaciones. Modelos como Word2Vec y GloVe se entrenaron con corpus grandes y crearon vectores de palabras que reflejaban cómo se aparecían juntas. Modelos contextuales como BERT fueron más allá al crear vectores que cambiaban en función de las palabras circundantes en el corpus. Codificadores automáticos También aprendió representaciones vectoriales compactas mediante la compresión y reconstrucción de datos de entrada. Esta transición de vectores estáticos one-hot a vectores de palabras aprendidos marcó un gran avance.
| Método de codificación | Ejemplo de caso de uso | Ventajas clave sobre la codificación One-Hot |
|---|---|---|
| Codificación One-Hot | Categorías de productos de comercio electrónico | Simple, trata las categorías por igual, pero tiene alta dimensionalidad y escasez. |
| Codificación de etiquetas | Posiciones de los jugadores en el análisis deportivo | Representación de números enteros eficiente, adecuada para modelos basados en árboles, sin jerarquías falsas |
| Codificación ordinal | Calificaciones de los comentarios de los clientes | Preserva el orden natural en las categorías. |
| Codificación binaria | Códigos postales en la logística de entrega | Reduce drásticamente la dimensionalidad (por ejemplo, 500 códigos postales → ~9 columnas) |
| Codificación de frecuencia | Frecuencia de ventas de productos minoristas | Captura patrones de popularidad, lo que resulta útil para la previsión de la demanda. |
| Codificación de destino | Precio medio de la vivienda inmobiliaria por barrio | Codifica categorías por media objetivo, captura la relación con el objetivo, pero corre el riesgo de sobreajustarse |
Ventajas
Los vectores de palabras ofrecen muchas ventajas sobre los métodos de codificación más antiguos. Los vectores densos consumen mucha menos memoria y aceleran los modelos. Cada vector de palabras captura el significado de una palabra y su relación con otras palabras del corpus. Cuando dos vectores de palabras están cerca, significa que tienen significados similares o aparecen en contextos similares. Los modelos utilizan la similitud de coseno para medir la proximidad de dos vectores. La similitud de coseno verifica el ángulo entre dos vectores de palabras. Un ángulo pequeño significa una similitud alta.
Las representaciones vectoriales también ayudan a los modelos a aprender patrones en el corpus. Por ejemplo, la Distancia de Inicio de Fréchet (FID) utiliza vectores para comparar imágenes generadas con imágenes reales. Una puntuación FID más baja significa que las imágenes generadas son más similares a las reales. Este método es más sensible que las métricas antiguas y se ajusta mejor al juicio humano. En biología, codificar las estructuras de proteínas como vectores permite a los modelos encontrar patrones que los métodos antiguos no detectan.
Los vectores de palabras densos reducen el riesgo de sobreajuste y gestionan mejor los corpus grandes. La incrustación de capas en redes neuronales aprende estos vectores durante el entrenamiento, capturando patrones tanto locales como globales. Los modelos ahora pueden usar vectores de palabras para agrupar palabras similares, encontrar relaciones y optimizar tareas como la búsqueda, la clasificación y la traducción. La similitud de coseno y la distancia vectorial ayudan a los modelos a comparar palabras e imágenes, lo que aumenta la inteligencia y la flexibilidad de los sistemas de IA.
Nota: La dimensionalidad de incrustación suele utilizar la raíz cuadrada del número de categorías del corpus. Esta opción equilibra el tamaño del modelo y la capacidad de aprendizaje.
Aprendizaje multimodal

Lenguaje y visión
El aprendizaje multimodal combina lenguaje y visión Mediante el uso de modelos de incrustación que unen vectores de palabras y visuales. Estos modelos ayudan a las computadoras a comprender texto e imágenes simultáneamente. Los modelos de incrustación de palabras asignan palabras a un espacio vectorial, mientras que los modelos de incrustación visual hacen lo mismo con las imágenes. Al combinar estos vectores, el modelo puede comparar y conectar información de ambas fuentes. Este enfoque mejora la capacidad de los sistemas de visión artificial para interpretar escenas complejas y responder preguntas sobre imágenes.
Los investigadores utilizan grandes conjuntos de datos para entrenar estos modelos de incrustación. Algunos conjuntos de datos populares incluyen COCO, Visual Genome, Conceptual Captions y Webvid-2M. Conjuntos de datos más recientes, como las 158,000 muestras de seguimiento de instrucciones de lenguaje e imágenes de LLaVA y el conjunto de datos MIMIC-IT, ayudan a los modelos a aprender tanto de imágenes como de texto. Estos recursos permiten que los modelos de incrustación construyan conexiones más sólidas entre el lenguaje y la visión, lo que se traduce en un mejor rendimiento en aplicaciones del mundo real.
- COCO y Visual Genome proporcionan imágenes y subtítulos emparejados para el entrenamiento.
- Conceptual Captions y Webvid-2M ofrecen millones de pares imagen-texto.
- Los conjuntos de datos LLaVA y MIMIC-IT apoyan el seguimiento de instrucciones y el aprendizaje en contexto.
Usos del mundo real
La incrustación de modelos impulsa muchas aplicaciones del mundo real. En el subtítulo de imágenes, los modelos que utilizan tanto la imagen como el texto del artículo superan a los que utilizan solo imágenes. El benchmark OpenEvents V1 muestra que añadir contexto textual mejora métricas como CLIPScore, CIDEr, BLEU-4 y METEOR.
| Variante de modelo | Puntuación CLIPS | Sidra | BLEU-4 | METEOR |
|---|---|---|---|---|
| SmolVLM (solo imagen) | 0.4609 | 0.0044 | 0.0155 | 0.0789 |
| SmolVLM + Artículo | 0.5552 | 0.0170 | 0.0229 | 0.0738 |
| Qwen (solo imagen) | 0.5283 | 0.0282 | 0.0256 | 0.1320 |
| Qwen + Artículo | 0.5855 | 0.0565 | 0.0419 | 0.1383 |
| Gemma (Solo imagen) | 0.5945 | 0.0111 | 0.0243 | 0.1322 |
| Gemma + Artículo | 0.6634 | 0.0184 | 0.0341 | 0.1453 |

Los modelos de incrustación multimodal también mejoran la recuperación de imágenes basada en eventos. Los sistemas de recuperación que utilizan tanto la semántica textual como la similitud visual logran una mayor precisión que aquellos que solo utilizan la coincidencia entre imagen y pie de foto.
| Método | mapa | NDCG | NN | AUC |
|---|---|---|---|---|
| CLIP (solo imagen-texto) | 0.2467 | 0.3407 | 0.1586 | 0.0302 |
| CLIP ABIERTO | 0.1845 | 0.2703 | 0.1845 | 0.0185 |
| SBERT + Flan T5 | 0.2134 | 0.2837 | 0.1376 | 0.0220 |
| SBERT + Pegasus | 0.2868 | 0.3665 | N/A | N/A |
| SBERT + Bart + CLIP | > 0.32 | N/A | > 0.22 | N/A |

En la resolución visual de preguntas, la combinación de métodos de recuperación monomodales e intermodales produce una mejora del 32 % en la precisión @1 en el conjunto de datos ViQuAE. Se observan mejoras similares en otros conjuntos de datos, lo que demuestra que la incrustación de modelos permite responder preguntas sobre imágenes con mayor precisión. Estos avances facilitan aplicaciones como sistemas de recomendación, sistemas de recomendación y otras aplicaciones prácticas en visión artificial.
Los modelos de incrustación transforman la visión artificial al conectar el lenguaje y las imágenes mediante representaciones vectoriales. Las investigaciones demuestran que, al entrenarse con un corpus extenso, los modelos de incrustación mejoran el rendimiento de la IA y permiten el procesamiento en tiempo real. Los vectores de palabras ayudan a los modelos a comprender el significado, mientras que la incrustación multimodal facilita una evaluación y validación precisas. Diversos estudios destacan que los modelos de incrustación aumentan la velocidad, la eficiencia y la fiabilidad, especialmente en dispositivos móviles. El mercado de la incrustación en sistemas de visión continúa creciendo, impulsado por los avances en hardware y software. La validación del modelo con datos reales y la investigación continua garantiza que los modelos de incrustación sigan siendo esenciales para la innovación futura.
Preguntas Frecuentes
¿Qué es un corpus en los sistemas de visión artificial?
Un corpus es una gran colección de texto o imágenes que los investigadores utilizan para entrenar modelos. El corpus ayuda a los modelos a aprender patrones y relaciones. Cada modelo utiliza el corpus para construir vectores de palabras y conectar el lenguaje con datos visuales.
¿Cómo utilizan los modelos de incrustación un corpus?
Los modelos de incrustación analizan el corpus para determinar la relación entre palabras e imágenes. El modelo aprende del corpus al convertir palabras e imágenes en vectores. Estos modelos utilizan los patrones del corpus para mejorar la comprensión y la precisión.
¿Por qué los modelos necesitan tanto lenguaje como datos visuales?
Los modelos necesitan tanto lenguaje como datos visuales para comprender información compleja. Un modelo que solo utiliza texto o imágenes pasa por alto detalles importantes. Al combinar ambos, los modelos pueden conectar palabras con objetos y acciones presentes en el corpus.
¿Cómo mejoran los modelos con un corpus más grande?
A corpus más grande Proporciona a los modelos más ejemplos de los que aprender. El modelo puede encontrar más patrones y relaciones. Cuando los modelos se entrenan con un corpus más amplio, suelen tener un mejor rendimiento en tareas como el reconocimiento de imágenes y el análisis de texto.
¿Qué hace que algunos modelos de incrustación sean mejores que otros?
Algunos modelos de incrustación funcionan mejor porque utilizan métodos de entrenamiento avanzados y un corpus de datos más amplio. La arquitectura del modelo, la calidad del corpus y cómo el modelo aprende del corpus influyen en el rendimiento. Los investigadores comparan modelos para obtener los mejores resultados.