MENLO PARK, California (Reuters) – Meta Platforms (META.O) utilizó publicaciones públicas en Facebook e Instagram para entrenar a su nuevo asistente virtual Meta AI, pero excluyó las publicaciones privadas compartidas solo con familiares y amigos en un esfuerzo por respetar los derechos de los consumidores. . Privacidad, dijo el alto ejecutivo de la compañía a Reuters en una entrevista.
Meta tampoco utilizó chats privados en sus servicios de mensajería como datos de entrenamiento para el modelo y tomó medidas para filtrar detalles privados de los conjuntos de datos públicos utilizados para el entrenamiento, dijo Nick Clegg, jefe de asuntos globales de Meta, hablando al margen de la reunión anual de la compañía. Conectar conferencia. esta semana.
«Intentamos excluir conjuntos de datos con una alta preponderancia de información personal», dijo Clegg, y agregó que la «gran mayoría» de los datos que Meta utilizó para la capacitación estaban disponibles públicamente.
Citó a LinkedIn como ejemplo de un sitio web cuyo contenido Meta decidió no utilizar intencionalmente debido a preocupaciones de privacidad.
Los comentarios de Clegg se producen cuando las empresas de tecnología, incluidas Meta, OpenAI y Google de Alphabet, han sido criticadas por utilizar información obtenida de Internet sin permiso para entrenar sus modelos de IA, que ingieren cantidades masivas de datos para resumir la información y crear imágenes. .
Las empresas están considerando cómo manejar el material patentado o protegido por derechos de autor descargado en el proceso y que sus sistemas de inteligencia artificial podrían reproducir, mientras enfrentan demandas de autores que los acusan de infracción de derechos de autor.
Meta AI fue el producto más importante entre las primeras herramientas de IA orientadas al consumidor presentadas por el CEO Mark Zuckerberg el miércoles en la conferencia anual de productos Connect de Meta. Las conversaciones sobre inteligencia artificial dominaron el evento de este año, a diferencia de conferencias anteriores que se centraron en la realidad virtual y aumentada.
Meta construyó el asistente usando un modelo personalizado basado en el poderoso modelo de lenguaje grande Llama 2 que la compañía lanzó para uso comercial general en julio, dijo la compañía.
Podrá crear texto, clips de audio e imágenes y tendrá acceso a información en tiempo real a través de una asociación con el motor de búsqueda Bing de Microsoft.
Las publicaciones públicas de Facebook e Instagram que se utilizaron para entrenar Meta AI incluían texto e imágenes, dijo Clegg.
Meta también impuso restricciones de seguridad al contenido que la herramienta podía crear, como prohibir la creación de imágenes realistas de figuras públicas, dijo.
Con respecto al material protegido por derechos de autor, Clegg dijo que espera «una buena cantidad de litigios» sobre la cuestión de «si el contenido creativo está cubierto o no por la doctrina de uso justo existente», que permite el uso limitado de obras protegidas para fines tales como comentarios e investigación. Y parodias.
«Creemos que ese es el caso, pero dudo mucho que esto se refleje en demandas», dijo Clegg.
Algunas empresas con herramientas de generación de imágenes facilitan la reproducción de personajes famosos como Mickey Mouse, mientras que otras han pagado por los materiales o han evitado deliberadamente incluirlos en los datos de entrenamiento.
Por ejemplo, OpenAI firmó este verano un acuerdo de seis años con el proveedor de contenidos Shutterstock para utilizar las bibliotecas de fotografías, vídeos y música de la empresa con fines de formación.
Cuando se le preguntó si Meta había tomado medidas para evitar la reproducción de imágenes protegidas por derechos de autor, un portavoz de Meta señaló los nuevos términos de servicio que impiden a los usuarios crear contenido que viole la privacidad y los derechos de propiedad intelectual.
Informe de Katie Ball en Menlo Park, California, editado por Kenneth Lee y Matthew Lewis
Nuestros estándares: Principios de confianza de Thomson Reuters.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos