Xianbiao Qi | AI Researcher

About

I am a Chief AIGC Scientist at Intellifusion Inc., working on Transformer optimization, generative AI (text-to-image, text-to-video, text-to-3D), and multimodal large language models (MLLM).

Education

Beijing University of Posts and Telecommunications (BUPT) 2008 – 2015

Ph.D. — Signal and Information Processing

Beijing University of Posts and Telecommunications (BUPT) 2004 – 2008

B.S. — Information Engineering

Work Experience

Intellifusion Inc. Mar 2024 – Present

Chief AIGC Scientist

Transformer optimization, AIGC (T2I, T2V, Text-to-3D), MLLM

International Digital Economy Academy (IDEA) Aug 2021 – Mar 2024

Senior Researcher

AIGC, model optimization, LLM, object detection

Ping An Property Insurance Apr 2019 – Jul 2021

Senior Image Expert (Team Manager)

Object detection and recognition, OCR, NLP

Shenzhen Research Institute of Big Data (SRIBD) May 2018 – Apr 2019

Research Scientist

Object detection and recognition, OCR

Hong Kong Polytechnic University (HK PolyU) May 2016 – May 2018

Postdoctoral Researcher

Deep learning for facial attribute analysis

University of Oulu, Center for Machine Vision Research Jan 2014 – Nov 2015

Researcher / Postdoctoral Researcher

Texture analysis, medical image processing

Teaching & Outreach

Mathematics of Deep Learning — Linear Algebra, Vector Calculus, Convex Optimization (Nesterov), Deep Learning Concepts

Mathematics of Transformer — Numerical Linear Algebra, Matrix Calculus, High-dimensional Probability, Transformer

Mathematics of Machine Learning — Numerical Linear Algebra, Matrix / Vector Calculus, Probability, Numerical Optimization

Generative AI (AIGC) — Variational AutoEncoder, Normalizing Flow, Diffusion Model, Auto-regressive Methods, Energy-based Methods

Mathematics of Deep Learning — 268,000+ views

Mathematics of Transformer — 77,000+ views

Selected Publications

* denotes corresponding author or project leader. Full list on Google Scholar →

1. Optimization of Deep Learning & LLM

Delving into Muon and Beyond: Deep Analysis and Extensions

Xianbiao Qi*, Marco Chen*, Jiaquan Ye, Yelin He, Rong Xiao

ICML 2026

SimpleGPT: Improving GPT via A Simple Normalization Strategy

Marco Chen*, Xianbiao Qi*, Yelin He, Jiaquan Ye, Rong Xiao

ICML 2026

DNT: A Deeply Normalized Transformer That Can Be Trained by Momentum SGD

Xianbiao Qi*, Marco Chen, Wenjie Xiao, Jiaquan Ye, Yelin He, Chun-Guang Li, Zhouchen Lin

ICLR 2026

Taming Transformer Without Using Learning Rate Warmup

Xianbiao Qi*, Yelin He, Jiaquan Ye, Chun-Guang Li, Bojia Zi, Xili Dai, Qin Zou, Rong Xiao

ICLR 2025

LipsFormer: Introducing Lipschitz Continuity to Vision Transformers

Xianbiao Qi*, Jianan Wang, Yihao Chen, Yukai Shi, Lei Zhang

ICLR 2023

2. AIGC (Image / Video / 3D Generation)

Refaçade: Editing Object with Given Reference Texture

Youze Huang, Penghui Ruan, Bojia Zi, Xianbiao Qi*, Jianan Wang, Rong Xiao

CVPR 2026

CTRL&SHIFT: High-quality Geometry-Aware Object Manipulation in Visual Generation

Penghui Ruan, Bojia Zi, Xianbiao Qi*, et al.

ICLR 2026

Senorita-2M: A High-Quality Instruction-based Dataset for General Video Editing

Bojia Zi, Penghui Ruan, Marco Chen, Xianbiao Qi*, et al.

NeurIPS 2025

MiniMax-Remover: Taming Bad Noise Helps Video Object Removal

Bojia Zi, Weixuan Peng, Xianbiao Qi*, Jianan Wang, Shihao Zhao, Rong Xiao, Kam-Fai Wong

NeurIPS 2025

BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation

Shaozhe Hao, Xuantong Liu, Xianbiao Qi*, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

ICLR 2025

Elucidating the Design Space of Language Models for Image Generation

Xuantong Liu, Shaozhe Hao, Xianbiao Qi*, Tianyang Hu, Jun Wang, Rong Xiao, Yuan Yao

ICML 2025

CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

Bojia Zi, Shihao Zhao, Xianbiao Qi*, et al.

AAAI 2025

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang

ICLR 2024

TOSS: High-quality Text-guided Novel View Synthesis from a Single Image

Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi, et al.

ICLR 2024

DreamWaltz: Make a Scene with Complex 3D Animatable Avatars

Yukun Huang, Jianan Wang, Ailing Zeng, He Cao, Xianbiao Qi, Yukai Shi, Zheng-Jun Zha, Lei Zhang

NeurIPS 2023

3. General Computer Vision

Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection

Guoting Wei, Xia Yuan, Yu Liu, Yangzhou, Haizhao Jing, Xianbiao Qi, Chunxia Zhao, Haokui Zhang, Rong Xiao

ICML 2026

DAB-DETR: Dynamic Anchor Boxes Are Better Queries for DETR

Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun Zhu, Lei Zhang

ICLR 2022

DeepCrack: Learning Hierarchical Convolutional Features for Crack Detection

Qin Zou, Zheng Zhang, Qingquan Li, Xianbiao Qi, Qian Wang, Song Wang

IEEE TIP 2018

4. OCR & Document Understanding

MASTER: Multi-Aspect Non-local Network for Scene Text Recognition

Ning Lu, Wenwen Yu, Xianbiao Qi*, Yihao Chen, Ping Gong, Rong Xiao, Xiang Bai

Pattern Recognition 2021

PICK: Processing Key Information Extraction from Documents Using Improved Graph Learning

Wenwen Yu, Ning Lu, Xianbiao Qi*, Ping Gong, Rong Xiao

ICPR 2021

EMU: Effective Multi-Hot Encoding for Lightweight Scene Text Recognition

Bingcong Li, Xin Tang, Xianbiao Qi*, Yihao Chen, Chun-Guang Li, Rong Xiao

IEEE TCSVT 2022

5. LLM & MLLM

Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery

Wei He, Xianghan Meng, Zhiyuan Huang, Xianbiao Qi, Rong Xiao, Chun-Guang Li

CVPR 2026

DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training

Yihao Chen, Xianbiao Qi*, Jianan Wang, Lei Zhang

CVPR 2023

Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices

Bojia Zi, Xianbiao Qi*, Lingzhi Wang, Jianan Wang, Kam-Fai Wong, Lei Zhang

arXiv 2023

Honors & Awards

ICDAR 2021 Table Recognition to LaTeX — Champion

ICDAR 2021 Formula Detection Competition — Champion

CVPR 2021 TextVQA Competition — Champion

ICDAR 2019 Receipt Recognition Key Information Extraction — Champion

Pattern Recognition Letters Special Issue — Fluorescence Cell Recognition — Champion & Runner-up

ICDAR 2021 Table Recognition to HTML — Runner-up

Baidu / Peking University Global Autonomous Driving Competition — Runner-up

5th China Innovation Challenge Smart Education Special Competition — Runner-up

Ping An Group Young Scientist (9 selected among 400,000+ employees)

Ping An Group Breakthrough Innovation Award

2022 MIIT "揭榜挂帅" Project — Successfully Shortlisted Unit (third applicant)

ICLR 2026 Area Chair | CVPR 2021 Outstanding Reviewer

Work reported by CCTV Finance Channel and CCTV News Channel