
¿Tiene alguna pregunta que requiera procesar un conjunto de datos extenso? Nvidia afirma que su nueva técnica puede responderla al instante.
Desarrollado aprovechando las capacidades del procesador Blackwell de la compañía, el nuevo método “Paralelismo Helix” permite a los agentes de IA procesar millones de palabras (una extensión de enciclopedia) y dar soporte a hasta 32 veces más usuarios simultáneamente.
Si bien esto podría mejorar drásticamente la forma en que los agentes analizan grandes cantidades de texto en tiempo real, algunos señalan que, al menos para aplicaciones empresariales, podría resultar excesivo.
“La ventana de contexto multimillonaria de tokens de Nvidia es un hito de ingeniería impresionante, pero para la mayoría de las empresas, es una solución que busca un problema”, afirmó Wyatt Mayham, director ejecutivo y cofundador de Northwest AI Consulting. “Sí, aborda una limitación real de los modelos existentes, como el razonamiento de contexto largo y el escalamiento cuadrático, pero existe una brecha entre lo técnicamente posible y lo realmente útil”.
El paralelismo de hélice ayuda a solucionar el grave problema de memoria de los modelos de lenguaje de gran tamaño (LLM)
Los expertos señalan que los modelos de lenguaje de gran tamaño (LLM) aún tienen dificultades para mantener la concentración en contextos muy largos.
“Durante mucho tiempo, los LLM se vieron limitados por ventanas de contexto limitadas, lo que los obligaba a olvidar información previa en tareas o conversaciones largas”, afirmó Justin St-Maurice, asesor técnico de Info-Tech Research Group.
Debido a este problema de “perdida en el medio”, los modelos tienden a utilizar solo entre el 10 % y el 20 % de sus entradas de forma eficaz, añadió Mayham.
Los investigadores de Nvidia señalaron que dos cuellos de botella importantes son la transmisión de caché de clave-valor (KV) y la carga de peso de la red de avance (FFN). En esencia, al generar una salida, el modelo debe explorar los tokens anteriores almacenados en la caché, lo que sobrecarga el ancho de banda de la memoria de la GPU. El agente también debe recargar grandes pesos de FFN desde la memoria al procesar cada palabra nueva, lo que ralentiza considerablemente los procesos.
Tradicionalmente, para abordar esto, los desarrolladores han recurrido al paralelismo de modelos, una técnica de aprendizaje automático (ML) que distribuye los componentes de una gran red neuronal entre múltiples dispositivos (como las GPU de Nvidia) en lugar de usar solo uno. Sin embargo, con el tiempo, esto puede generar aún más problemas de memoria.
El paralelismo de hélice se inspira en la estructura del ADN. Divide las tareas de memoria y procesamiento, gestionándolas por separado y distribuyéndolas entre múltiples tarjetas gráficas. Esta técnica de escalonamiento “round-robin” reduce la carga sobre la memoria de cada unidad, lo que reduce el tiempo de inactividad y la sobrecarga de la GPU, evita la duplicación y aumenta la eficiencia general del sistema, según Nvidia.
Los investigadores realizaron simulaciones con DeepSeek-R1 671B —que, como su nombre indica, cuenta con 671 mil millones de parámetros para soportar capacidades de razonamiento robustas— y descubrieron que la técnica redujo el tiempo de respuesta hasta en 1,5 veces.
St-Maurice afirmó que esto no es solo una proeza técnica; “está transformando nuestra forma de abordar la interacción y el diseño de LLM”. El paralelismo de hélice y la fragmentación optimizada de la caché KV otorgan a los LLM una “memoria integrada” ampliada, muy similar a cómo los desarrolladores mejoraron procesadores antiguos como los Pentium, señaló.
“Esto significa que los LLM ahora pueden procesar y razonar con volúmenes masivos de datos, manteniendo la coherencia en tiempo real”, afirmó St-Maurice. “Si consideramos a los LLM como los nuevos procesadores de nuestra arquitectura moderna, este es un avance lógico”.
Casos de uso en derecho, programación y sectores con un alto nivel de cumplimiento normativo
Los investigadores de Nvidia señalan casos de uso que incluyen agentes de IA tras meses de conversaciones, asistentes legales que razonan con gigabytes de jurisprudencia o copilotos de programación que navegan por repositorios extensos. La compañía planea integrar la técnica en marcos de inferencia para sistemas de IA que respaldan diversas industrias.
Mayham coincidió en que esta técnica puede ser útil en ámbitos específicos, como sectores con un alto nivel de cumplimiento normativo que requieren una fidelidad total de los documentos, o sistemas médicos que analizan el historial clínico de los pacientes de una sola vez.
“Pero esos son casos extremos”, afirmó. “A la mayoría de las organizaciones les convendría más desarrollar canales de procesamiento más inteligentes, en lugar de comprar montones de GB200”.
Por lo general, los sistemas de generación aumentada por recuperación (RAG) que generan los “10 000 tokens correctos” suelen superar a los enfoques de fuerza bruta con un millón de tokens, afirmó.
St-Maurice señaló que, en el mundo actual, generar respuestas del tamaño de una enciclopedia para los humanos no es la clave. Se trata, más bien, de hacer que los resultados de LLM sean relevantes y utilizables por otras IA.
“Esta capacidad podría ser revolucionaria para los agentes de IA, que ahora pueden mantener estados internos más completos, participar en chats mucho más complejos y de larga duración, y realizar análisis documentales más profundos”, concluyó.
Añadió que este avance también se alinea con la creciente disciplina de la ingeniería de contexto, que implica la selección y optimización de información dentro de amplias ventanas de contexto para maximizar la eficacia y la fiabilidad de un agente.
Una de las implicaciones más profundas de esta nueva técnica para la investigación en IA podría ser el diseño de patrones multiagente, afirmó. Con la capacidad de procesar e intercambiar mayores cantidades de datos dentro de ventanas de contexto ampliadas, los agentes de IA pueden comunicarse y colaborar de maneras que antes eran imprácticas.
“Esta ‘memoria’ mejorada y la conciencia contextual permiten una coordinación más compleja, una comprensión compartida de historiales complejos y una colaboración más sólida en tareas de varios pasos”, afirmó St-Maurice.
Desde una perspectiva de sistemas, destacó el énfasis de Nvidia en un “codiseño de hardware y software profundamente integrado” para abordar problemas de escalabilidad, en lugar de depender de la gestión de patrones centrada en software en una capa de datos.
Aun así, “los desafíos fundamentales del movimiento de datos a través de las jerarquías de memoria persistirán”, concluyó St-Maurice. La carga y descarga de grandes cantidades de datos contextuales en la memoria de la GPU seguirá generando cuellos de botella de latencia y dinámicas complejas en torno a la transferencia de datos. Esto podría generar ineficiencias similares a las del intercambio de datos y, por consiguiente, una degradación del rendimiento en el procesamiento en tiempo real a medida que el contexto continúa escalando.
«Esto pone de manifiesto que, incluso con los avances en hardware, la optimización continua del flujo de datos seguirá siendo una frontera crucial», señaló St-Maurice.