(ZHANG WEILAN. GLOBAL TIMES)
La firma china de inteligencia artificial (IA) DeepSeek reveló el martes Native Sparse Attention (NSA), un nuevo mecanismo diseñado para mejorar la eficiencia del entrenamiento y la inferencia de contexto largo en modelos de IA.
La medida se produce mientras la competencia global de IA continúa calentándose, ya que xAI de Elon Musk presentó el martes su último modelo de IA, Grok 3, afirmando que puede superar las ofertas de OpenAI y DeepSeek según las pruebas iniciales, según informes de los medios.
Musk promocionó las capacidades de Grok 3 en una videoconferencia en la Cumbre Mundial de Gobierno en Dubai la semana pasada, describiéndolo como “asustablemente inteligente” y sugiriendo que superará a todas las soluciones de IA existentes, según un informe de CNBC.
El martes, DeepSeek subió un artículo a arXiv, presentando NSA. El modelado de contexto largo es crucial para los modelos de lenguaje de próxima generación, pero el alto costo computacional de los mecanismos de atención estándar plantea desafíos computacionales significativos. “Presentamos NSA, un mecanismo de atención dispersa que se puede entrenar de forma nativa y que integra innovaciones algorítmicas con optimizaciones alineadas con el hardware para lograr un modelado eficiente de contexto largo”, según un resumen del artículo publicado en el sitio web de arXiv.
Tian Feng, ex decano del Instituto de Investigación de la Industria de Inteligencia del gigante chino de software de inteligencia artificial SenseTime, dijo que a medida que la competencia global de la inteligencia artificial continúa calentándose, diferentes compañías han demostrado ventajas competitivas en diferentes áreas.Por ejemplo, los modelos de código abierto y eficientes en recursos desarrollados por DeepSeek sobresalen en el razonamiento matemático y las tareas de ingeniería de software, según Tian, mientras que el o1 de OpenAI tiene un mejor desempeño en conocimiento general y resolución de problemas.
Además, las empresas chinas también han demostrado varias ventajas, incluidos los resultados competitivos y la rentabilidad. “Al aprovechar fuentes alternativas de datos, desarrollar tecnologías locales y fomentar la colaboración dentro del ecosistema tecnológico nacional, DeepSeek y otras empresas chinas de inteligencia artificial pueden crear soluciones que no solo satisfacen la demanda interna sino que también mejoran la competitividad a escala global”, dijo Tian.
China alberga ahora más de un tercio de los grandes modelos lingüísticos de inteligencia artificial del mundo, según un libro blanco sobre la economía digital global publicado por la Academia de Tecnología de la Información y las Comunicaciones de China en julio de 2024, según la Agencia de Noticias Xinhua.

Foto AI: VCG