Las compañías dedicadas a la inteligencia artificial están encontrando obstáculos significativos en su búsqueda de datos de alta calidad para el entrenamiento de sus modelos, revela un reciente informe de The New York Times. Este desafío llevó a algunas de estas empresas a explorar métodos que se sitúan en un área gris de la ley de derechos de autor de IA.
Un ejemplo destacado es OpenAI, que, en un esfuerzo por acumular datos para entrenar GPT-4, su modelo de lenguaje más avanzado, desarrolló Whisper, un modelo de transcripción de audio. Whisper fue utilizado para transcribir más de un millón de horas de videos de YouTube, una acción que, según reporta The New York Times, la compañía consideró legalmente cuestionable pero justificada bajo el concepto de uso justo. Greg Brockman, presidente de OpenAI, estuvo directamente involucrado en la selección de los videos utilizados.
Lindsay Held, portavoz de OpenAI, comunicó a The Verge que la organización cura datasets «únicos» para cada uno de sus modelos para mejorar su comprensión del mundo y mantener su competitividad en la investigación a nivel mundial. Además, señaló que OpenAI utiliza «numerosas fuentes, incluidos datos públicamente disponibles y asociaciones para datos no públicos,» y que la compañía está investigando la creación de sus propios datos sintéticos.
La necesidad de datos de entrenamiento de calidad ha llevado incluso a gigantes tecnológicos como Google a recolectar transcripciones de contenido de YouTube, aunque bajo el amparo de acuerdos con los creadores de dicho contenido, según fuentes citadas por The New York Times. Matt Bryant, portavoz de Google, afirmó que la empresa entrenó sus modelos con contenido de YouTube, respetando los acuerdos existentes con los creadores.
Así, la situación se complica con las políticas de privacidad y los derechos de autor, temas que han llevado a empresas como Meta a discutir el uso no autorizado de obras protegidas por derechos de autor en su esfuerzo por mantenerse al día con la competencia. La disponibilidad de datos de entrenamiento de calidad se está convirtiendo en un recurso cada vez más escaso, una realidad que podría obligar a las compañías de IA a superar el contenido nuevo para 2028, según predicciones recientes.
El dilema actual plantea cuestiones críticas sobre la ética y la legalidad en el uso de datos para entrenar modelos de inteligencia artificial. A medida que estas empresas buscan soluciones innovadoras, como el uso de datos sintéticos o el aprendizaje curricular, la comunidad tecnológica sigue atenta a los desarrollos en este campo, que promete ser tanto prometedor como problemático.
NotiPress/Francisco Vicario