L'équipe étudiante de l'Université de Communication de Chine remporte la deuxième place au défi d'évaluation de la qualité des vidéos générées par l'IA de CVPR, la Conférence sur la reconnaissance des formes et la vision par ordinateur

Abstract:
Récemment, une équipe d'étudiants dirigée par la professeure Shi Ping du département d'ingénierie de la radiodiffusion et de la télévision de la Faculté d'ingénierie de l'information et de la communication de notre université a remporté la deuxième place au défi d'évaluation de la qualité des vidéos générées par l'IA, organisé par l'atelier CVPR 2025 NTIRE, lors de la Conférence sur la reconnaissance des formes et la vision par ordinateur

Récemment, une équipe d'étudiants dirigée par la professeure Shi Ping du département d'ingénierie de la radiodiffusion et de la télévision de la Faculté d'ingénierie de l'information et de la communication de notre université a remporté la deuxième place au défi d'évaluation de la qualité des vidéos générées par l'IA, organisé par l'atelier CVPR 2025 NTIRE, lors de la Conférence sur la reconnaissance des formes et la vision par ordinateur,CVPR (Computer Vision and Pattern Recognition). L'équipe était composée de Qi Zelu et Wang Shuqi, étudiants en master de première année en 2023 en systèmes de communication et d'information, ainsi que de Zhang Zhaoyang, doctorant de première année en 2024 en ingénierie de l'information et de la communication.



Le défi NTIRE de CVPR est l'une des compétitions internationales les plus influentes dans le domaine de la restauration et de l'amélioration intelligente des images. Le défi XGC Quality Assessment de cette édition comprenait plusieurs sous-thèmes, dont celui de l'évaluation de la qualité des vidéos générées par l'IA, qui se concentre sur l'évaluation multidimensionnelle de la qualité des vidéos générées par l'IA, visant à faire progresser la recherche sur la compréhension du contenu et la modélisation de la qualité des vidéos générées par l'IA. Cette compétition a attiré plus de 100 équipes d'universités, d'instituts de recherche et d'entreprises du monde entier, y compris l'Université de technologie de Pékin, l'Université des sciences et technologies de Chine et l'Université Jiao Tong de Shanghai.


Classement du défi d'évaluation de la qualité des vidéos générées par l'IA de CVPR 2025 (top 6)


Le défi d'évaluation de la qualité des vidéos générées par l'IA visait à prédire le score de qualité perçue des vidéos générées par l'IA sur la base de paires de mots-clés et de vidéos, ainsi que de leurs étiquettes de qualité subjective (score MOS). Les résultats de la compétition étaient basés sur la cohérence entre les prédictions des participants et les scores MOS. Le jeu de données de la compétition comprenait 34 029 vidéos, couvrant 14 modèles de génération de vidéos principaux, avec des types de distorsion variés, ce qui représentait un défi significatif pour la tâche d'évaluation de la qualité.


Exemples de types de distorsion dans les vidéos générées par l'IA du jeu de données


L'équipe étudiante de notre université a proposé une architecture d'encodeur à branches multiples pour traiter les distorsions spatio-temporelles courantes dans les vidéos générées par l'IA, en décomposant la qualité visuelle en trois dimensions : la qualité technique, la qualité du mouvement et le contenu sémantique. L'équipe a conçu un cadre d'ingénierie de mots-clés multimodaux, alignant ces trois types de caractéristiques visuelles sur l'espace linguistique et introduisant des points d'ancrage sémantiques pour aider le grand modèle de langage à établir des liens de raisonnement entre ces caractéristiques. Pendant la phase d'entraînement, la technique de réglage fin LoRA a été utilisée pour adapter le grand modèle de langage à la tâche, améliorant ainsi considérablement la précision de la prédiction de la qualité. La solution de notre équipe était l'une des deux solutions du défi à atteindre une cohérence de plus de 60 % avec les scores MOS sur l'ensemble de test, démontrant une excellente capacité de modélisation et des performances pratiques. Les résultats de cette recherche seront publiés sous forme d'article lors de l'atelier CVPR 2025.


Schéma de l'architecture globale de la solution


La Faculté d'ingénierie de l'information et de la communication de l'Université de Communication de Chine, en étroite collaboration avec la stratégie nationale de développement de l'intelligence artificielle, poursuit des recherches originales dans le domaine des technologies d'évaluation de la qualité des vidéos, explorant des méthodes efficaces pour la compréhension et la génération de vidéos, contribuant ainsi à la normalisation du développement des technologies de génération par l'IA.



Article traduit par un modèle de langage.


Editor: Yao Jiamin


上一篇:下一篇: