Best Styles
AI DECODED: DEL RECUENTO DE PALABRAS A LOS TRANSFORMADORES
A mucha gente le fascina la idea de utilizar la inteligencia artificial (IA) para la comunicación entre humanos y máquinas. Aunque HAL, en la película 2001: Una odisea en el espacio, de Stanley Kubrick, resultó ser menos útil para su tripulación humana, su encarnación moderna ha fascinado a millones de personas. Con el éxito de ChatGPT, el procesamiento del lenguaje natural (NLP) ha pasado a ocupar un lugar central en la opinión pública al convertirse en sinónimo de IA (generativa). Más recientemente, modelos como DeepSeek han acaparado los titulares, e incluso han movido los mercados, poniendo de relieve el poder transformador de los grandes modelos de lenguaje (LLM) más allá de los chats. Pero este avance no se ha producido de la noche a la mañana. La IA generativa y el NLP moderno se basan en décadas de progreso, que comenzaron con técnicas sencillas como el recuento de palabras y los diccionarios. Acompáñenos en un viaje desde los humildes comienzos hasta el presente y el futuro.
¿Qué es un modelo transformador? Ilustración de la tecnología con ejemplos prácticos
Los primeros enfoques en el campo del NLP captaban la estructura general, pero tenían dificultades para comprender los matices. Para ir más allá de la simple coincidencia de palabras, los investigadores tuvieron que ganar la batalla contra la complejidad (la «maldición de la dimensionalidad»1), representando las palabras como puntos en un espacio (vectorial) de dimensiones razonablemente bajas, lo que se conoce como «incrustaciones de palabras».
Cuando de Bengio et al. (2003)2 introdujeron las redes neuronales hicieron posible representar el significado de las palabras mediante vectores. Modelos como Word2Vec ayudaron a extender y aplicar este enfoque de forma generalizada. Lo interesante es que estos modelos pueden comprender no solo el significado de las palabras, sino también cómo se relacionan dentro de una frase. Por eso se consideran una de las bases del procesamiento del lenguaje natural en la actualidad.
En el episodio anterior vimos cómo modelos como GloVe (el principal competidor de Word2Vec) permiten representar el significado de las palabras. También explicamos cómo el equipo de Systematic Equity aplica esta técnica para transformar transcripciones de earnings calls y documentos 10-K en señales que ayuden a mejorar la rentabilidad ajustada al riesgo.
GloVe y otros modelos de word embeddings son técnicas altamente eficaces para capturar relaciones semánticas y sintácticas, mostrando una notable capacidad contextual cuando se entrenan en grandes conjuntos de datos específicos de un dominio.
Sin embargo, las incrustaciones de palabras siguen asignando a cada palabra una representación única y fija, con independencia de la frase o el contexto específico en el que aparece. Tras varios intentos fallidos por superar esta limitación, el artículo de 2017 «Attention is All You Need»4 introdujo finalmente los modelos transformadores, que interpretan dinámicamente las palabras basándose en el contexto que las rodea. Por ejemplo, en los modelos tradicionales de incrustación de palabras, la palabra «banco» tendría el mismo significado tanto si aparece en «grupo de peces» como en «entidad financiera». Por el contrario, los modelos transformadores pueden distinguir entre estos significados teniendo en cuenta la frase completa, entendiendo si «banco» se refiere a un grupo de peces o a una institución financiera. A diferencia de las incrustaciones de palabras estáticas, los transformadores leen como los humanos, interpretando el lenguaje de forma adaptativa en función del contexto. Aunque son más complejos y requieren más recursos, ofrecen una comprensión más profunda y flexible del lenguaje.
En el centro de esta innovación se encuentra un mecanismo llamado autoatención, que permite al modelo sopesar la importancia de cada palabra en una frase, o incluso en un documento, en relación con todas las demás palabras. Esto significa que el modelo no solo analiza las palabras una por una, sino que tiene en cuenta cómo se relacionan entre sí todas las palabras de un artículo para comprender el significado completo.
Imagina que estás describiendo unas vacaciones: «Llevé a mi perra a la playa y a ella le encantó jugar con las olas». Un modelo transformador entiende que «ella» se refiere a «mi perra» y que «jugar con las olas» es algo divertido que ocurre en la playa. Presta atención a estas conexiones entre las frases, en lugar de interpretar cada palabra por separado. Esta capacidad de conectar palabras e ideas en grandes fragmentos de texto o incluso en documentos completos ayuda a los transformadores a comprender el lenguaje de una forma mucho más parecida a como lo haría un humano, lo que los convierte en potentes herramientas para tareas como la traducción, la síntesis y el análisis de opiniones. La tecnología de los transformadores es el componente básico de los LLM de última generación, donde el término «grande» se refiere a los miles de millones o incluso a los billones de parámetros que contienen.
Los LLM en la gestión de activos
En el sector financiero, interpretar textos complejos y ricos en matices es fundamental. Las transcripciones de las conferencias sobre resultados, los documentos presentados a los organismos reguladores y los informes de los analistas contienen información rica pero desestructurada que los métodos tradicionales de NLP tienen dificultades para analizar de forma eficaz. Por ello, el poder de los transformadores ha despertado el interés de los profesionales de la inversión, ya que los modelos de transformadores les permiten extraer información más profunda de los textos, mejorando la toma de decisiones y la evaluación de riesgos.
Hay varios LLM comerciales y de código abierto disponibles en el mercado, cada uno de ellos diseñado para satisfacer una variedad de necesidades, incluidas las específicas del sector financiero. Entre ellos, dos de los modelos más populares se basan en GPT (Generative Pre-trained Transformer) y BERT (Bidirectional Encoder Representations from Transformers). Dentro de la familia de modelos GPT, BloombergGPT5 está adaptado a aplicaciones financieras. Del mismo modo, dentro de la familia de modelos BERT, FinBERT6 ha surgido como una versión de BERT que ha sido específicamente entrenada en análisis y comprensión de textos financieros.
BloombergGPT es un gran modelo de lenguaje desarrollado por Bloomberg, diseñado específicamente para el ámbito financiero. Su modelo contiene más de 50.000 millones de parámetros y se entrenó con un conjunto de datos de más de 700.000 millones de tokens (la unidad básica del texto). Esto incluye alrededor de 360.000 millones de tokens de sus fuentes de datos financieros (incluidos artículos de noticias, informes de investigación y datos de mercado), junto con 345.000 millones de tokens de conjuntos de datos de uso general.
Por otro lado, FinBERT es un modelo transformador compacto y de código abierto basado en la arquitectura BERT. Tal y como se describe en el artículo de Huang, Allen H., Hui Wang y Yi Yang de 2022, FinBERT se entrenó con un corpus de textos financieros estándar compuesto por 2.500 millones de tokens procedentes de informes corporativos (10-K y 10-Q), 1.300 millones de tokens de transcripciones de conferencias sobre resultados y 1.100 millones de tokens de informes de analistas.
Para el análisis de sentimientos, la capa de clasificación final de FinBERT se perfeccionó aún más utilizando 10.000 frases anotadas manualmente de informes de analistas, etiquetadas como positivas, negativas o neutras. Este entrenamiento específico permite a FinBERT detectar sentimientos matizados, como el optimismo cauteloso o la preocupación, que suelen aparecer en las conferencias sobre resultados y en los documentos presentados a los organismos reguladores.
Dado que FinBERT se basa en la arquitectura BERT, hereda la capacidad de comprender el contexto y el significado a un nivel profundo. Al mismo tiempo, es más pequeño y eficiente que muchos otros LLM modernos, lo que lo hace práctico para su implementación en sistemas financieros del mundo real. Además, su naturaleza de código abierto permite su personalización e integración en flujos de trabajo propietarios.
Desafíos y riesgos de depender exclusivamente de LLM de terceros
Sin embargo, FinBERT también tiene algunas limitaciones conocidas. Por ejemplo, a veces clasifica erróneamente frases corteses como «Que tengas un buen día» o «Que aproveche» como sentimientos positivos, mientras que textos como «no hay problema» como sentimientos negativos, a pesar de que son neutros en contextos financieros. Estos errores pueden mitigarse mediante un ajuste fino o utilizando técnicas de solicitud más avanzadas con LLM más nuevos como GPT 4, que interpretan mejor los matices sutiles.7
Mientras que los ejemplos anteriores se basaban en frases cortas, ahora pasamos a un enfoque de análisis de sentimiento más escalable, adecuado para documentos financieros más extensos: el net sentiment, que funciona con textos de cualquier longitud. Para calcular el net sentiment, el documento se divide primero en bloques. El sentimiento se evalúa después en cada bloque de manera individual. Posteriormente, los resultados se agregan desde el nivel de bloque hasta el nivel del documento completo, comparando el número de bloques con sentimiento positivo frente a los negativos, lo que da lugar a una puntuación de sentimiento neto.8
Basándonos en esta puntuación de sentimiento neto, hicimos otra observación que podría poner en duda la capacidad de FinBERT para detectar con precisión el sentimiento a nivel de empresas individuales. Si bien el modelo pudo identificar el sentimiento negativo durante la pandemia de COVID-19 (como se muestra en la zona gris del gráfico siguiente), es importante señalar que algunos sectores muestra sistemáticamente un sentimiento más positivo que otros. Por ejemplo, los servicios de comunicación (línea amarilla en el gráfico siguiente) y la tecnología de la información (línea naranja) siempre muestran un sentimiento más positivo que los materiales (línea morada). Este sesgo sectorial puede requerir ajustes adicionales en la fase posterior del proceso de inversión, especialmente para los inversores que prefieren evitar las exposiciones específicas a determinados sectores porque no creen que asumir esos riesgos se vea compensado en el largo plazo.
Figura 1: Sentimiento neto medio de los sectores GICS
Fuente: Allianz Global Investors, equipo Systematic Equity. Datos a 30/06/2024. Back-test. Consulte la información relativa a «Back-tests y datos de rendimiento hipotéticos osimulados» en la última página de este documento. El rendimiento hipotético y las simulaciones que se muestran tienen únicamente fines ilustrativos y no representan el rendimiento real; no predicen los rendimientos futuros. Consulte la información importante relativa a back-testings y datos de rendimiento hipotéticos o simulados al final de este documento. Solo con fines ilustrativos y no representan el rendimiento real de ninguna cuenta de cliente. La información no debe considerarse un indicador deresultados futuros.
Confiar únicamente en modelos estándar conlleva limitaciones adicionales, que pueden agruparse en dos cuestiones principales:
- Cuestión 1: En sus inicios, la mayorparte de la investigación sobre el NLP se llevaba a cabo en institucionesacadémicas, pero con el tiempo, las grandes empresas han tomado la delantera. Este cambio suscita preocupaciones en torno al cumplimiento normativo, la propiedady privacidad de los datos y los derechos de autor, aspectos fundamentales en el sector financiero, estrictamente regulado.
- Cuestión 2: Además, estos modelos siguen creciendo en tamaño y complejidad. Sin embargo, como se destaca en el documento de Chinchilla9, el simple hecho de aumentar el tamaño del modelo sin un aumento proporcional de los datos de entrenamiento de alta calidad conduce a una disminución de los beneficios. Para nuestras aplicaciones financieras propias es posible que no haya suficientes datos específicos del dominio para aprovechar plenamente estos modelos masivos de manera eficiente.
Por ello, los modelos preconfigurados no resultan suficientes para nuestras necesidades. Para garantizar un uso adecuado de los datos y maximizar el rendimiento en el ámbito financiero, necesitamos investigar y construir modelos transformer propios, ajustados a nuestra estrategia.
Para abordar esta cuestión, hemos personalizado el modelo FinBERT específicamente para nuestros casos de uso, asegurándonos de que se ajustara mejor a los requisitos únicos de nuestro proceso de inversión. A continuación, realizamos una simulación exhaustiva utilizando señales de sentimiento generadas por nuestro modelo FinBERT personalizado. El resultado del backtest fue alentador: la estrategia simulada alcanzó un índice de información de aproximadamente 0,6 (antes de costes) frente al índice S&P 500 (como se muestra a continuación).
Esto demuestra que el sentimiento evaluado por máquinas, cuando se calibra e integra adecuadamente en un marco de inversión disciplinado, puede contribuir de manera significativa al rendimiento de la cartera.
Aunque estos resultados son prometedores, esperamos seguir avanzando. Hasta ahora, este artículo se ha centrado únicamente en el sentimiento. Sin embargo, el potencial de los LLM va mucho más allá del análisis del sentimiento. Estos modelos son capaces de realizar tareas más sofisticadas, como comprender relaciones causales o incluso razonar. A medida que los LLM siguen evolucionando, vemos interesantes oportunidades para aprovechar sus capacidades con el fin de obtener conocimientos más profundos y análisis más sofisticados.
Figura 2: Rendimiento relativo acumulado de nuestra señal personalizada basada en BERT
Fuente: Allianz Global Investors, equipo de Systematic Equity. Datos a 30/06/2024. Back-test. Consulte la información relativa a «Back-tests y datos de rendimiento hipotéticos o simulados» en la última página de este documento. El rendimiento hipotético y las simulaciones que se muestran tienen únicamente fines ilustrativos y no representan el rendimiento real; no predicen los rendimientos futuros. Consulte la información importante relativa a Back-testings y datos de rendimiento hipotéticos o simulados al final de este documento. Solo con fines ilustrativos y no representan el rendimiento real de ninguna cuenta de cliente. La información no debe considerarse un indicador de resultados futuros.
¿Pueden los LLM sustituir a los analistas? Probablemente no.
Basándonos en los prometedores resultados de nuestra estrategia basada en el sentimiento, dimos un paso más y nos preguntamos: ¿Podría esta tecnología llegar a sustituir a un analista financiero?
Una función fundamental del análisis fundamental es la creación de modelos de valoración utilizando datos de balances y estados de flujo de caja. Tradicionalmente, esto requiere analistas cualificado para interpretar y contextualizar los fundamentos de las empresas. Para comprobar si los LLM podían ayudar en este ámbito, aprovechamos el modelo GPT-4 de OpenAI a través de la API de OpenAI, procesando informes de miles de empresas en paralelo.
Nuestros experimentos demostraron que los LLM pueden extraer cifras clave, calcular ratios y resumir tendencias generales con fiabilidad.
Esto concuerda con análisis como el recogido en un artículo de Chicago Booth10, que demostró que los LLM pueden asimilar estados de flujo de caja y balances para evaluar la mejora de los beneficios futuros.
Sin embargo, estudios recientes subrayan las limitaciones de los modelos de razonamiento actuales. Shojaee et al. (2025)11 examinaron sistemáticamente las capacidades de los grandes modelos de razonamiento y descubrieron que se enfrentan a un colapso en la precisión y la coherencia más allá de ciertos niveles de complejidad. Si bien los LLM destacan en el reconocimiento de patrones generales y pueden generar razonamientos y cadenas analíticas convincentes para tareas sencillas, su razonamiento computacional se deteriora ante problemas matizados y de alta complejidad, como los que se encuentran con frecuencia en el análisis exhaustivo de acciones. El estudio muestra además que estos modelos a menudo no emplean algoritmos explícitos y pueden producir explicaciones incoherentes cuando se enfrentan a escenarios complejos.
Esto sugiere que, aunque los LLM pueden extraer cifras de forma fiable, identificar tendencias, calcular ratios y proporcionar puntos de partida analíticos, aún no son capaces de replicar por completo la profundidad, la lógica y el rigor de un analista humano experto especialmente cuandola situación financiera exige un juicio matizado o la construcción de justificaciones de inversión a medida. En la práctica, los LLM deben considerarse una herramienta de apoyo, pero sus resultados siempre requieren una revisión e interpretación meticulosa por parte de inversores experimentados y profesionales. Por lo tanto, en nuestra opinión, la experiencia, el razonamiento crítico y la intuición del analista humano siguen siendo indispensables para traducir el análisis computacional en decisiones de inversión de la más alta calidad.
Conclusión
En resumen, este artículo ha mostrado cómo la evolución del procesamiento del lenguaje natural, desde las primeras incrustaciones de palabras con GloVe hasta modelos transformadores avanzados como FinBERT— está remodelando el panorama de las finanzas cuantitativas. Al ir más allá de los enfoques estáticos y sin contexto a modelos que entienden el lenguaje en su contexto, hemos sido capaces de extraer información útil a partir de datos financieros no estructurados.
Nuestra experiencia demuestra que los modelos estándar, aunque potentes, a menudo se quedan cortos a la hora de satisfacer las exigencias específicas del análisis financiero, especialmente en lo que respecta al sesgo sectorial, el cumplimiento normativo y la privacidad de los datos. Al desarrollar y adaptar nuestros propios modelos, hemos mejorado significativamente nuestro análisis de opiniones, como lo demuestra la simulación que superó al S&P 500 en términos sectoriales neutros.
A medida que estas tecnologías sigan avanzando, seguiremos centrándonos en perfeccionar nuestros modelos, integrar nuevas capacidades y aplicar de forma responsable los conocimientos basados en la inteligencia artificial a nuestras estrategias de renta variable sistemáticas, como Best Styles y Powered by AI. En última instancia, la combinación de la IA específ y del sector y la experiencia humana nos sitúa en una buena posición para descifrar las narrativas financieras de forma más eficaz y descubrir nuevas fuentes de valor en unos mercados en constante evolución.
1 La maldición de la dimensionalidad: se refiere a los diversos retos y complicaciones que surgen al analizar y organizar datos en espacios de alta dimensionalidad (a menudo cientos o miles de dimensiones). En el ámbito del aprendizaje automático, es fundamental comprender este concepto porque, a medida que aumenta el número de características o dimensiones de un conjunto de datos, la cantidad de datos que necesitamos para generalizar con precisión crece exponencialmente. Fuente: https://www.datacamp.com/blog/curse-of-dimensionality-machine-learning
2https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
3 GloVe: Vectores globales para la representación de palabras. https://nlp.stanford.edu/projects/glove/
4 Vaswani, A., et al. (2017). La atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neuronal, 30. arXiv:1706.03762
5https://arxiv.org/abs/2303.17564
6 Huang, Allen H., Hui Wang y Yi Yang. «FinBERT: un gran modelo lingüístico para extraer información de textos financieros». Investigación contable contemporánea (2022).
https://doi.org/10.1111/1911-3846.12832
7https://arxiv.org/html/2306.02136v2
8El sentimiento neto se calcula como log [(1+número de frases positivas) / (1+ número de frases negativas)]. Esta fórmula logarítmica ayuda a suavizar los valores extremos y garantiza
que la métrica se defina incluso cuando no hay fragmentos positivos o negativos.
9 https://doi.org/10.48550/arXiv.2203.15556
10Kim, A., et al. (2024). Análisis de estados financieros con LLM. arXiv:2407.17866
11Shojaee et al. (2025). La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema
https://doi.org/10.48550/arXiv.2506.06941