sábado, 26 abril 2025

Phi Silica, el cerebro detrás de Recall, añade un sistema de funcionamiento multimodal

Recientemente, Microsoft ha introducido la capacidad de «ver» para mejorar su modelo de lenguaje pequeño (SLM), Phi Silica, el cual es el cerebro detrás de características de IA como Recall, por ejemplo.

A través de esta mejora, Microsoft ha hecho que Phi Silica se vuelva multimodal. Esto significa que ahora podrá comprender las imágenes de forma mucho más avanzada y compleja para poder ofrecer funciones novedosas de productividad y de accesibilidad.

Toda esta información ha sido compartida por la compañía a través de una publicación en su blog oficial, donde también detallan cómo lograron este nuevo funcionamiento y todos los beneficios que ofrecerá de cara a la accesibilidad de los usuarios con algún tipo de discapacidad para interactuar con el PC.

¿Qué es Phi Silica y cómo funciona?

Imagen de Phi Silica
Phi Silica es el SLM de Microsoft detrás de muchas funciones de IA

Lo primero que debes saber es que Phi Silica es un Modelo de Lenguaje Pequeño (SLM) desarrollado por Microsoft. Este no es más que una versión más recortada de otros grandes modelos de IA y que ha sido creado con la intención de integrarse y funcionar en los Copilot+ PC.

Phi Silica es una suerte de motor de IA a nivel local y que impulsa muchas funciones en Windows, como Windows Copilot Runtime, puede hacer resúmenes de texto de manera local. Y debido a que ejecuta tareas desde el equipo y no en la nube, reduce el consumo de energía.

De hecho, Phi Silica también está presente en la función Recall de Windows y que permite hacer capturas de pantalla de lo que se muestra en la pantalla del equipo y actúa como una memoria de lo que has hecho. De esta forma, podrás buscar información en función a l que viste en el pasado mediante lenguaje natural.

Microsoft ha hecho que Phi Silica se vuelva multimodal y esto ofrece muchos beneficios

Imagen de Phi Silica
Phi Silica ha ganado la posibilidad de entender imágenes

Es importante señalar que esta es una gran hazaña que Microsoft ha logrado y de forma eficiente, ya que, en lugar de utilizar nuevos componentes desde cero, simplemente ha reutilizado los ya existentes, aunque sí ha introducido un pequeño modelo de «proyector» para la capacidad de visión.

Esto se traduce en un menor consumo de recursos, lo que se agradece. Y, como hemos mencionado anteriormente, esta capacidad multimodal de Phi Silica permitirá impulsar muchas experiencias con IA, como la descripción de imágenes, por ejemplo.

Por el momento, solo está disponible en inglés, pero Microsoft, eventualmente, también permitirá estas mejoras en otros idiomas, aumentando más sus usos.

Mientras tanto, esta función multimodal de Phi Silica estará disponible solo en los equipos Copilot+ PC con chip Snapdragon. Aunque, eventualmente, también llegará a los equipos con AMD e Intel.

¿Cómo Microsoft logró que Phi Silica «vea» imágenes?

Imagen de cómo funciona Phi Silica para ver imágenes
Phi Silica puede ver imágenes y entenderlas

Como hemos mencionado anteriormente, esto que ha hecho Microsoft es una gran hazaña que debe reconocerse, pues hay mucho mérito detrás.

Y es que, en un principio, Phi Silica solo era capaz de entender palabras, letras y texto. Sin embargo, en lugar de crear componentes nuevos que funcionen como un nuevo «cerebro», Microsoft ha optado por algo más creativo y eficiente.

Para hacerlo más resumido, Microsoft le mostró muchas fotos e imágenes a un sistema experto en este tipo de archivos, por lo que dicho sistema fue capaz de aprender a reconocer los elementos más importantes en las fotos.

Después, la compañía creó una especie de traductor que le permite tomar la información que dicho sistema extrae de las fotos y las transforma al formato que Phi Silica puede entender.

Entonces, entrenaron a Phi Silica para dominar este nuevo idioma de fotos e imágenes, por lo que este sistema aprendió a vincular dicho idioma a su base de datos y conocimientos de palabras.

¿En qué ayuda que Phi Silica sea multimodal?

Como ya debes de saber, Phi Silica es un Modelo de Lenguaje Pequeño (SLM), que no es más que un tipo de IA que está diseñado para entender el lenguaje natural y replicarlo, justo como u contraparte, LLM. Pero su principal diferencia es que su tamaño es mucho menor en lo que respecta a la cantidad de parámetros.

Este SLM de Microsoft, Phi Silica, es el cerebro detrás de funciones como Recall, por ejemplo, y otras características inteligentes. Pero ahora ha sido mejorado al volverse multimodal y poder ver imágenes además de texto.

De hecho, la propia compañía ha compartido algunos ejemplos de todas las posibilidades que abre el hecho de que Phi Silica sea multimodal, principalmente enfocado hacia ayudas de accesibilidad para los usuarios.

Por un lado, tenemos el hecho de que Phi Silica ahora podrá ayudar a las personas con discapacidad visual. Por ejemplo, si encuentran una foto en algún sitio web o documento, el SLM de Microsoft será capaz de generar de forma automática una descripción textual y detallada de dicha imagen y que, posteriormente, será leída por una herramienta del PC.

Pero no es todo, ya que también debemos añadir que esto también será de gran ayuda para las personas con dificultades de aprendizaje, por ejemplo, ya que el SLM será capaz de analizar lo que se muestra en pantalla y proporcionarle al usuario una explicación o ayuda contextual y detallada.

Por otro lado, Phi Silica también podría ser de gran ayuda para identificar ciertos objetos, etiquetas o leer el texto de elementos que se muestran a la cámara web del equipo. Son muchas las formas en las que esta mejora al Modelo de Lenguaje Pequeño de Microsoft podría ayudar a los usuarios.

Manuel Sifontes
Manuel Sifontes
Apasionado por la tecnología, especialmente de los productos de Microsoft, así como usuario del ecosistema de Windows de toda la vida.

1 COMENTARIO

Suscríbete
Notificar de
guest

1 Comentario
Más votados
Más nuevos Más antiguos
Opinión Inline
Ver todos los comentarios
Jacinto

No paran de inventarse palabras y tecnológicas complicadas de implementar a gran escala sólo para justificar sus enormes sueldos. No saben ni lo que es Recall ni saben cómo ponerlo ni saben nada, solo ponen siglas y numeritos y códigos que sólo entienden los cuatro gafapastas de turno. Y que esto hace aquello y lo otro y resulta que cada mes todas las actualizaciones revienta algo. La última ha dejado el ordenador de mi sobrino y de mi hija sin sonido. Y mientras tanto los demás sistemas operativos comiéndoles la merienda por los cuatro costados.

Últimas noticias