Ir al menú de navegación principal Ir al contenido principal Ir al pie de página del sitio

Studia

Núm. 27 (2024): Sostenibilidad, territorio y valor. IX Congreso de Archivos de Castilla y León

Inteligencia artificial en la preservación y puesta en valor de los archivos audiovisuales en el contexto territorial : El Archivo de RTVE como referente

DOI
https://doi.org/10.51598/tab.1019
Enviado
noviembre 5, 2024
Publicado
2024-11-19

Resumen

Este artículo explora la integración de inteligencia artificial (IA) en el Archivo de RTVE para generar automáticamente metadatos y mejorar la accesibilidad de contenidos audiovisuales. La IA se ha implementado para optimizar la catalogación y recuperación de colecciones filmadas, especialmente los fondos más antiguos de RTVE. Desde las primeras pruebas en 2017 hasta la implementación de servicios en 2021 y 2023, se han mejorado 16.000 horas de contenido mediante tecnologías avanzadas de IA, como Whisper de OpenAI y GPT-3.5. Se describe la arquitectura del sistema, el flujo de archivos y los procesos de validación, abarcando tareas como transcripción automática, identificación de hablantes, reconocimiento facial y de caracteres, detección de objetos y logos, y descripción de imágenes. Se analizan resultados y desafíos futuros, destacando la importancia de casos de uso específicos para RTVE. La IA ha mejorado la infraestructura tecnológica del archivo, optimizando el metadatado y recuperación de contenidos. Se subraya la importancia de una comunicación transparente, formación continua del personal y la supervisión humana de la IA. A largo plazo, la combinación de IA y estrategias puede mejorar la preservación y accesibilidad de contenidos históricos valiosos. 

This article explores the integration of artificial intelligence (AI) in the RTVE Archive for automatic metadata generation and improved accessibility of audiovisual content. AI has been implemented to optimize cataloging and content retrieval, particularly for RTVE’s oldest filmed collections. From initial tests in 2017 to the implementation of services in 2021 and 2023, 16,000 hours of content have been enhanced using advanced AI technologies like OpenAI’s Whisper and GPT-3.5.  The system’s architecture, file workflow, and validation processes are described, covering tasks such as automatic transcription, speaker identification, facial and optical character recognition, object and logo detection, and natural language image description. Results and future challenges are analyzed, emphasizing the importance of specific use cases for RTVE. AI has improved the technological infrastructure of the archive, optimizing metadata and content retrieval. The importance of transparent communication, continuous staff training, and human supervision of AI is highlighted. In the long term, combining AI with strategic actions can enhance the preservation and accessibility of valuable historical content. 

Citas

  1. Bazán-Gil, V., & Pérez-Cernuda, C. (2024). Metadatado automático en el archivo de RTVE: un enfoque de innovación tecnológica. En Editores del libro (Eds.), Patrimonio audiovisual: narrativas, contenidos y formatos (pp. xx-xx). Editorial Dykinson S.L. (en prensa).
  2. Caswell, D. (2023, 18 de septiembre). AI and News: What’s next? Medium. https://genera tive-ai-newsroom.com/ai-and-news-whats-next-154fbeb6a646
  3. Cátedra RTVE Universidad de Zaragoza. (2017). Cátedra RTVE de la Universidad de Zaragoza. Recuperado de https://catedrartve.unizar.es/
  4. Google. (s.f.). Traduce documentos, audio y vídeos en tiempo real con la IA de Google. Recuperado el 21 de mayo de 2024, de https://cloud.google.com/translate
  5. Lleida-Solano, E., Ortega-Giménez, A., Miguel, A., Bazán-Gil, V., Pérez-Cernuda, C., & De-Prada, A. (2022). RTVE 2018, 2020 and 2022 database description. http://cate drartve.unizar.es/reto2022/RTVE2022DB.pdf
  6. Nextret. (2023). Nextret. https://nextret.net/
  7. Open AI a. (2022). Introducing ChatGPT. https://openai.com/blog/chatgpt
  8. Opean AI b. (2022). Introducing Whisper. https://openai.com/index/whisper/
  9. OpenAI. (2024). ChatGPT (versión del 14 de mayo) [Modelo de lenguaje de gran tamaño]. https://chat.openai.com/chat
  10. RTVE. (2021). Metadatado automático de contenidos del Fondo Documental de RTVE. https://licitaciones.rtve.es/licitacion/licitaciones/detalle?id=1208797
  11. RTVE. (2023). Metadatado automático de contenidos del Fondo Documental RTVE. https://licitaciones.rtve.es/licitacion/licitaciones/detalle?id=2200005
  12. Segunda Cadena en Marcha. (1966, noviembre). Teleradio, 10-13.
  13. TVE. (1969). Noticias sin identificar [Serie: Noticias nacional 196