Zihan Dong

Statistical Foundations of Large Language Models.
Representation Learning.

Labels or Preferences? Budget-Constrained Learning with Human Judgments over AI-Generated Outputs.
Zihan Dong, Ruijia Wu, and Linjun Zhang.

Preprint, 2026.
Contrastive Network Representation Learning.
Zihan Dong, Xin Zhou, Ryumei Nakada, Lexin Li, and Linjun Zhang.

Preprint, 2025.

Evaluating LLMs When They Do Not Know the Answer: Statistical Evaluation of Mathematical Reasoning via Comparative Signals.
Zihan Dong, Zhixian Zhang, Yang Zhou, Can Jin, Ruijia Wu, and Linjun Zhang.

ICML 2026.

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training.
Ran Xu, Tianci Liu, Zihan Dong, Tony Yu, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, and Haoyu Wang.

ICML 2026.

MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning.
Peng Xia, Jinglu Wang, Yibo Peng, Kaide Zeng, Zihan Dong, Xian Wu, Xiangru Tang, Hongtu Zhu, Yun Li, Linjun Zhang, Shujie Liu, Yan Lu, and Huaxiu Yao

ICLR 2026.

AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play.
Ran Xu, Yuchen Zhuang, Zihan Dong, Ruiyu Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, and Carl Yang.

NeurIPS 2025 Spotlight.

Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing.
Tianci Liu, Ruirui Li, Zihan Dong, Hui Liu, Xianfeng Tang, Qingyu Yin, Linjun Zhang, Haoyu Wang, and Jing Gao.

ICML 2025.