Ir al menú de navegación principal Ir al contenido principal Ir al pie de página del sitio

Studia

Núm. 21 (2018): Espacios de memoria. Estrategias y discursos para archivos históricos

Avances en clasificación de imágenes en los últimos diez años : Perspectivas y limitaciones en el ámbito de archivos fotográficos históricos

Enviado
septiembre 24, 2020
Publicado
2019-01-01

Resumen

En este artículo presentaremos un resumen de los últimos avances en el tema de la clasificación de imágenes. Veremos cómo gracias a la aparición de bases de datos y competiciones de clasificación de imágenes a gran escala, las redes neuronales convolucionales emergieron y revolucionaron por completo el campo de la visión por computador. Nos centraremos en analizar cuáles son las limitaciones a presente del estado del arte cuando deseamos aplicar dichas metodologías al campo de los archivos fotográficos históricos.

In this paper we present an overview of the latest achievements on the topic of image classification. We will see how thanks to the large scale image classification datasets and competitions such as Pascal VOC and ImageNet, deep convolutional neural networks took rise and revolutionized the computer vision field. We will then focus on analyzing which are the current limitations of the state of the art when applying such methods to the particular field of historic photographic archives.

Citas

  1. CAO, Huaigu (2014) "Machine-Printed Character Recognition". Handbook of Document Image Processing and Recognition. Springer Verlag. p. 331-358.
  2. DENG, Jia, DONG, Wei, SOCHER, Richard, LI-JIA, Li, KAI, Li, FEI-FEI, Li (2009). “ImageNet: A Large-Scale Hierarchical Database”. Conference on Computer Vision and Pattern Recognition.
  3. EVERINGHAM, Mark, ESLAMI, S. M. Ali , VAN GOOL, Luc, WILLIAMS, Christopher K. I., WINN, John, ZISSERMAN, Andrew (2015). "The PASCAL Visual Object Classes Challenge: A Retrospective". International Journal of Computer Vision. v. 111, n. 1, p. 98-136.
  4. EVERINGHAM, Mark, VAN GOOL, Luc, WILLIAMS, Christopher K.I., WINN, John, ZISSERMAN, Andrew (2010). "The PASCAL Visual Object Classes (VOC) Challenge". International Journal of Computer Vision. v. 88, n. 2, p.303-338.
  5. FORNÉS, Alicia, LLADÓS, Josep, RAMOS, Oriol, RUSIÑOL, Marçal (2016). "La Visió per Computador com a Eina per a la Interpretació Automàtica de Fonts Documentals." Lligall, Revista Catalana d'Arxivística. v. 39. p. 20-46.
  6. FRINKEN, Volkmar, BUNKE, Horst (2014). "Continuous Handwritten Script Recognition". Handbook of Document Image Processing and Recognition. Springer Verlag. p. 391-425.
  7. HE, Kaiming, ZHANG, Xiangyu, REN, Shaoqing, SUN, Jian (2015). "Deep Residual Learning for Image Recognition". ArXiV.
  8. HERBERT. F., Schantz, (1982). "The history of OCR, optical character recognition." Recognition Technologies Users Association.
  9. JUN, Yang, JIANG, Yu-Gang, HAUPTMAN, Alexander G., NGO, Chong-Wah (2007). "Evaluating bag-of-visual-words representations in scene classification." International workshop on multimedia information retrieval, p. 197-206.
  10. KRIZHEVSKY, Alex, SUTSKEVER, Ilya, HINTON, Geoffrey E. (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems. p. 1097-1105.
  11. PAPERT, Seymour (1966). "The Summer Vision Project". MIT AI Memos.
  12. RUSSAKOVSKY, Olga, DENG, Jia, SU, Hao, KRAUSE, Jonathan, SATHEESH, Sanjeev, MA, Sean, HUANG, Zhiheng, KARPATHY, Andrej, KHOSLA, Aditya, BERNSTEIN, Michael, BERG, Alexander C., FEI-FEI, Li (2015). “ImageNet Large Scale Visual Recognition Challenge”. International Journal of Computer Vision. v. 115, n. 3, p. 211-252.
  13. SEBE, Nicu, COHEN, Ira, GARG, Ashutosh, S. HUANG, Thomas (2005). "Machine Learning in Computer Vision". Springer Science & Business Media.
  14. SIMONYAN, Karen, ZISSERMAN, Andrew (2015). "Very Deep Convolutional Networks for Large-Scale Image Recognition". ArXiV.
  15. SZEGEDY, Christian, LIU, Wei, JIA, Yangqing, SERMANET, Pierre, REED, Scott, ANGUELOV, Dragomir, ERHAN, Dumitru, VANHOUCKE, Vincent, RABINOVICH, Andrew (2014) "Going Deeper with Convolutions". ArXiV.
  16. SZEGEDY, Christian, VANHOUCKE, Vincent, IOFFE, Sergey, SHLENS, Jonathon, WOJNA, Zbigniew (2015). "Rethinking the Inception Architecture for Computer Vision". ArXiV.
  17. SZELISKI, Richard (2010). "Computer Vision: Algorithms and Applications". Springer Science & Business Media.
  18. Tractica Reports (2016) "Computer Vision Technologies and Markets".
  19. TULYAKOV, Sergey, GOVINDARAJU, Venu (2014). "Handprinted Character and Word Recognition". Handbook of Document Image Processing and Recognition. Springer Verlag. p. 359-389.