Academic Homepage

Zhihao Zhu / 朱志浩

Master Student, Fudan University

I work on efficient multimodal generative models for autonomous driving, with a focus on Vision-Language-Action models, diffusion/flow-based planning, and AR-to-diffusion distillation.

Google Scholar GitHub Email CV

Vision-Language-ActionAutonomous DrivingDiffusion ModelsFlow MatchingReinforcement LearningMotion Planning

About Me

Efficient generative models for autonomous driving.

I am a master's student at Fudan University, working on multimodal generative models and autonomous driving. My research focuses on efficient Vision-Language-Action models, especially diffusion- and flow-based methods for motion planning.

Recently, I have been exploring how to convert autoregressive VLAs into parallel generative models through block diffusion, hierarchical distillation, and reinforcement learning. I am broadly interested in efficient multimodal reasoning, embodied intelligence, and safety-critical decision making.

News

Recent Updates

2026.02 WAM-Flow was accepted to CVPR 2026.
2026.02 WAM-Flow pretrained models and evaluation resources were released.
2025.12 WAM-Diff and WAM-Flow were released as preprints.
2025 Started exploring efficient diffusion-based VLA models for autonomous driving.

Research Interests

Efficient Generative Vision-Language-Action Models for Autonomous Driving

My current work centers on efficient VLA planning systems, generative trajectory modeling, and reliable decision making for autonomous driving.

Efficient VLA Models

Parallel generation, block diffusion, discrete diffusion, and efficient decoding for Vision-Language-Action models.

Autonomous Driving Planning

Trajectory-as-language, closed-loop planning, NAVSIM / Bench2Drive evaluation, and safety-critical decision making.

AR-to-Diffusion Distillation

Progressive block-wise adaptation, block-wise distillation, and cross-scale distillation from autoregressive VLAs to diffusion models.

Reinforcement Learning for Planning

GRPO, PDMS reward optimization, simulator-guided feedback, and safe trajectory alignment.

Selected Publications

Representative papers and ongoing research

CVPR 2026 2026

WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving

Yifang Xu*, Jiahao Cui*, Feipeng Cai*, Zhihao Zhu*, Hanlin Shang, Shan Luan, Mingwang Xu, Neng Zhang, Yaoyi Li, Jia Cai, Siyu Zhu

A discrete flow matching framework for parallel coarse-to-fine motion planning in autonomous driving, enabling efficient bidirectional trajectory refinement with simulator-guided alignment.

Paper Code Project BibTeX

arXiv 2025 2025

WAM-Diff: A Masked Diffusion VLA Framework with MoE and Online Reinforcement Learning for Autonomous Driving

Mingwang Xu*, Jiahao Cui*, Feipeng Cai*, Hanlin Shang*, Zhihao Zhu, Shan Luan, Yifang Xu, Neng Zhang, Yaoyi Li, Jia Cai, et al.

A masked diffusion Vision-Language-Action framework for autonomous driving, integrating non-causal trajectory decoding, MoE scaling, and online reinforcement learning for closed-loop planning.

Paper Code Project BibTeX

Ongoing Research 2026

Hierarchical AR-to-Diffusion Distillation for Efficient Autonomous Driving VLAs

Zhihao Zhu, et al.

A research direction on transforming pretrained autoregressive VLAs into efficient block diffusion models through progressive block-wise adaptation, block-wise distillation, and cross-scale model distillation.

Selected Projects

Research code and project materials

WAM-Flow

Parallel coarse-to-fine motion planning via discrete flow matching.

A VLA-based planning framework that casts future trajectory generation as discrete flow matching over structured trajectory tokens.

Code Paper

WAM-Diff

Masked diffusion VLA framework for autonomous driving.

A diffusion-based VLA framework that iteratively refines discrete future trajectory tokens using masked denoising and reinforcement learning.

Code Paper

AR-to-Diffusion Distillation

Turning autoregressive VLAs into efficient parallel generative models.

A research line on progressive block-wise adaptation, block-wise teacher-student distillation, and cross-scale diffusion model transfer.

Experience & Education

Academic background

2025 - Present

Master Student

Fudan University · Shanghai, China

Research on multimodal generative models, Vision-Language-Action models, and autonomous driving.

2019 - 2023

B.Eng. / B.S. in Information Management and Information Systems

South China University of Technology · Guangzhou, China

Undergraduate study in the School of Mathematics.

Contact

Research discussions and collaborations

I am always open to research discussions and collaborations on efficient multimodal generative models, autonomous driving, and embodied intelligence.

Email Google Scholar GitHub CV