🚀 Featured Project

Multimodal Understanding Foundation Model for Visual Quality Reasoning

▲ Objective: Develop a vision-language foundation model for professional visual quality reasoning, with image quality assessment serving as a high-standard evaluation scenario.

▲ Research Scope: (1) Hundred-GPU-scale VLM Training & Evaluation Infra; (2) Multi-task Joint Training; (3) Cross-model Hyperparameter Transfer (MuP); (4) Release Model Selection.

▲ Applications: (1) Reliable Assessment for Generative Algorithms; (2) Reward Model (RM) for Post-training.

Multimodal Understanding Vision-Language Models Foundation Model Training Visual Reasoning

Zewen Chen

🚀 Featured Project

Multimodal Understanding Foundation Model for Visual Quality Reasoning