Avanços em Visão Computacional – Capítulo 12

  • Título: EVEREVIS: Sistema de Navegação em Vídeos
  • Autores: Tiago de Oliveira Cunha, Fillipe Dias Moreira de Souza, Lucas Gonçalves, Christiane Okamoto Mendoça, Vinícius de Oliveira Silva, Arnaldo de Albuquerque Araújo
  • DOI:10.7436/2012.avc.12
  • Resumo: Este capítulo relata um sistema desenvolvido para a navegação de vídeo baseado na análise multimodal. A abordagem multimodal proposta realiza a transcrição de áudio para categorização de cenas esportes, clima, política e economia)  combinando informações de áudio e de vídeo. Suas principais características incluem resumos estáticos e dinâmicos, segmentação usando detecção de face, classificação em cenas internas e externas e transcrição de áudio para a busca de palavras-chave do tema. Palavras-chave são selecionadas para representar os vídeos. Uma série de experimentos foram conduzidos para avaliar a eficácia da categorização usando as informações de transcrição de áudio.
  • Palavras-chave: Processamento de imagens, Análise multimodal, Classificação e Sumarização.
  • Abstract: This chapter reports a system developed for video browsing based on multimodal analysis. The proposed multimodal approach performs audio transcription for shot categorization (sports, weather, politics and economy) combining audio and visual information for theme categorization. Its main features include static and dynamic summaries, segmentation using face detection,  classification into indoor and outdoor scenes based on Support Vector Machine (SVM) and audio transcription for theme keyword search.  Keywords are selected to represent the subjects, followed by  a simple text search. A set of experiments was conducted for evaluating the effectiveness of the shot subject categorization using audio transcription information.
  • Keywords: Image processing, Multimodal analysis, Classification and summarization.
PDF do capítulo (6,040 MB):
BIBTEX do capítulo:

 

Os comentários estão encerrados.