Microsoft lanza dos nuevos modelos de IA Phi-4 para potenciar el procesamiento de voz

Microsoft lanza dos nuevos modelos de IA Phi-4 para potenciar el procesamiento de voz

Microsoft ha anunciado el lanzamiento de dos nuevos modelos de lenguaje pequeños (SLM, por sus siglas en inglés) dentro de su familia Phi: Phi-4-multimodal y Phi-4-mini. Estas soluciones están diseñadas para proporcionar a los desarrolladores capacidades avanzadas de Inteligencia Artificial (IA) en entornos con limitaciones de cómputo, optimizando el procesamiento de voz, texto e imágenes.

Según ha detallado la compañía en su blog, estos modelos ya están siendo utilizados en diversas industrias, desde la detección de anomalías en la fabricación hasta la mejora de la experiencia del cliente en el comercio minorista.

Phi-4-multimodal: integración avanzada de texto, voz e imágenes

Phi-4-multimodal es un modelo de 5.600 millones de parámetros que unifica el procesamiento de voz, imágenes y texto en una única arquitectura. Microsoft ha destacado que este modelo supera a soluciones especializadas como WhisperV3 y SeamlessM4T-v2-Large en tareas de reconocimiento automático de voz y traducción, permitiendo interacciones más naturales y contextuales.

Gracias a su optimización para la inferencia de baja latencia y su capacidad de ejecución eficiente en dispositivos, Phi-4-multimodal facilita el análisis simultáneo de imágenes, gráficos, tablas y documentos, lo que lo convierte en una herramienta versátil para aplicaciones empresariales y técnicas.

Microsoft ha asegurado que este modelo se encuentra entre los pocos de acceso abierto que logran un resumen efectivo de voz, alcanzando niveles de rendimiento comparables con GPT-4o. No obstante, ha reconocido que aún presenta ciertas limitaciones en la respuesta a preguntas en comparación con modelos como Gemini-2.0-Flash, por lo que prevé mejorar esta funcionalidad en futuras versiones.

Phi-4-mini: eficiencia y velocidad en modelos compactos

Phi-4-mini, con 3.800 millones de parámetros, se centra en la velocidad y eficiencia sin sacrificar precisión. Microsoft ha destacado que, a pesar de su menor tamaño, supera a modelos más grandes en tareas de texto como razonamiento, matemáticas, seguimiento de instrucciones y codificación.

Este modelo admite secuencias de hasta 128.000 tokens y ofrece un vocabulario de 200.000 palabras, lo que lo hace ideal para aplicaciones de IA avanzadas que requieren alta escalabilidad. Además, su compatibilidad con interfaces de programación estructuradas facilita su integración en múltiples entornos.

Microsoft ha confirmado que tanto Phi-4-multimodal como Phi-4-mini ya están disponibles en Azure AI Foundry, Hugging Face y Nvidia API Catalog, proporcionando una experiencia multimodal completa para desarrolladores y empresas.

Publish the Menu module to "offcanvas" position. Here you can publish other modules as well.
Learn More.