Elon Musk amenaza con demandar a Microsoft por usar datos de Twitter para su IA

El CEO de Twitter, Elon Musk, ha amenazado con demandar a Microsoft por usar los datos de su compañía para entrenar su modelo de inteligencia artificial. Musk hizo el anuncio en un tuit el miércoles, después de que varios medios informaran de que Microsoft dejaría de dar soporte a Twitter en su plataforma publicitaria.

“Entrenaron ilegalmente usando datos de Twitter”, escribió Musk. “Hora de demandar”.

La amenaza de Musk es vaga, pero parece estar relacionada con el uso de datos de Twitter por parte de OpenAI para entrenar el gran modelo de lenguaje que está detrás de productos como ChatGPT. OpenAI, evidentemente, no es Microsoft, pero sí recibió una importante inversión de la compañía el año pasado, que está integrando la IA en herramientas como Bing, Edge y Microsoft 365.

«Hora de demandar», el mensaje de Elon Musk a Microsoft

No está claro si Elon Musk demandará realmente a Microsoft, ya que ha amenazado con acciones legales que nunca se han materializado en el pasado, como contra el creador de la cuenta de Twitter @ElonJet.

El mensaje de Elon Musk es la última indicación de que la propiedad de los datos se está convirtiendo rápidamente en un campo de batalla en la carrera por la IA generativa. Las grandes tecnológicas siguen trabajando para desarrollar modelos de IA de vanguardia como el GPT de OpenAI, y los propietarios de los datos buscan impedirlo o cobrar por el uso de su contenido.

They trained illegally using Twitter data. Lawsuit time.
— Elon Musk (@elonmusk) April 19, 2023

Microsoft desarrolla sus propios modelos de gran lenguaje (LLM) y comercializa el acceso a los modelos de OpenAI. Microsoft invirtió 10 mil millones de dólares en OpenAI el año pasado en un acuerdo con una estructura poco habitual. De hecho, Elon Musk fue uno de los cofundadores de OpenAI antes de dejar su junta directiva en 2018.

Los LLM como GPT-4 requieren terabytes de datos para entrenarse, gran parte de los cuales se extraen de sitios web como Reddit, StackOverflow y Twitter. Los datos procedentes de las redes sociales son más valiosos porque capturan conversaciones informales e interactivas.

A medida que estos nuevos modelos de IA pasan de los laboratorios e universidades al mundo empresarial, los propietarios de los datos empiezan a hacer exigencias. Por ejemplo, Reddit dijo a principios de esta semana que cobraría a las empresas por acceder a su interfaz de programación utilizada para alimentar las conversaciones entre los Redditors en el software de entrenamiento de IA.

VíaThe Verge