Shuang Sun

👋 关于我

我目前是中国人民大学高瓴人工智能学院（GSAI）硕士一年级研究生，导师为赵鑫教授。我的研究兴趣包括自然语言处理（NLP）、大语言模型（LLMs）与智能体（Agents），尤其关注如何提升模型在复杂任务中的规划、工具使用与长程推理能力。

我的邮箱是：sunshuang@ruc.edu.cn。

🔍 研究兴趣

我的研究聚焦于大语言模型（LLMs）、世界模型（World Models）与智能体（Agents）。我特别关注如何系统性提升大语言模型的基础能力，并进一步通过基于 LLM 的反馈模拟与工具增强的智能体范式，推动模型在真实复杂任务中的泛化与可用性。

增强大语言模型基础能力：结合持续预训练（CPT）、监督微调（SFT）、强化学习（RL）与测试时扩展（TTS），拓宽模型的知识边界，并探索更有效的数据构造与训练策略。
世界模型建模：研究可学习的“替代环境”以模拟执行与交互反馈，使模型能够在低成本条件下近似真实环境动态，从而降低对重型执行环境的依赖并提升可扩展性。
智能体应用与工具使用：提升模型在真实工作流中调用工具（如搜索、代码调用与命令行操作）的能力，使其能够解决真实场景下的长程任务。

🔥 最新动态

[2026-02-04] 我们发布了 SWE-Master与 SWE-World，目标是降低代码智能体训练门槛、推动代码智能体研究平民化。
- SWE-Master：开放端到端的 SWE Agents 后训练流水线，并探索了如 LSP 等增强技巧。
- SWE-World：基于大语言模型模拟环境反馈，突破传统 SWE 重环境（Docker）限制，实现首个全流程 Docker-free 训练框架。
[2025-05-22] 发布 SimpleDeepSearcher：通过数据合成与筛选获得少量高质量数据进行 SFT，显著提升模型深度搜索能力，并超过同期基于 RL 的方法。
[2025-03-06] 发布 YuLan-Mini-Instruct：一个 2.4B 轻量但强大的指令模型，是 YuLan-Mini 基座的后训练版本，在开源+合成数据上高效训练，表现可对标 Qwen2.5-1.5B-Instruct、LLama-3.2-3B-Instruct 等主流小模型。

📝 论文

arXiv 2026

SWE-World: Building Software Engineering Agents in Docker-Free Environments

Shuang Sun*, Huatong Song*, Lisheng Huang*, Jinhao Jiang*, Ran Le, Zhihao Lv, Zongchao Chen, Yiwen Hu, Wenyang Luo, Wayne Xin Zhao†, Yang Song†, Hongteng Xu, Tao Zhang, Ji-Rong Wen
(* Equal contribution; † Corresponding)

提出了 SWE-World 框架，通过 LLMs 模拟执行反馈，实现了无需 Docker 的 SWE Agent 全流程训练与推理（SFT/RL/TTS），显著降低了研究门槛。

Paper Code 🤗HuggingFace WeChat

arXiv 2026

SWE-Master: A Fully Open, End-to-End Post-Training Pipeline for Software Engineering Agents

Huatong Song*, Lisheng Huang*, Shuang Sun*, Jinhao Jiang*, Ran Le, Daixuan Cheng, Guoxin Chen, Yiwen Hu, Zongchao Chen, Wayne Xin Zhao†, Yang Song†, Tao Zhang, Ji-Rong Wen
(* Equal contribution; † Corresponding)

开源 SWE 智能体端到端后训练流水线（数据→长程SFT→RL→TTS），并引入 LSP 级代码导航提升交互效率。

Paper Code 🤗HuggingFace WeChat

EMNLP Findings 2025

SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis

Shuang Sun*, Huatong Song*, Yuhao Wang, Ruiyang Ren, Jinhao Jiang, Junjie Zhang, Fei Bai, Jia Deng, Wayne Xin Zhao†, Zheng Liu†, Lei Fang†, Zhongyuan Wang, Ji-Rong Wen
(* Equal contribution; † Corresponding)

提出了基于真实 Web 搜索环境的数据合成与多维筛选框架，仅用 871 条高质量 SFT 样本显著提升深度搜索能力，超越同期 RL 方法。

Paper Code 🤗HuggingFace WeChat

🎖 荣誉

2025 东北大学优秀毕业生（Top 0.9%）
2023 华为奖学金（Top 2.3%）
2022 国家奖学金（Top 0.2%）

📖 教育经历

2025.09 – 至今 中国人民大学，高瓴人工智能学院，硕士
2021.09 – 2025.06 东北大学，计算机科学与工程学院，本科

💻 实习经历

2025.10 – 至今 Nanbeige LLM Lab, Boss Zhipin

Shuang Sun (孙爽)

👋 关于我

🔍 研究兴趣

🔥 最新动态

📝 论文

🎖 荣誉

📖 教育经历

💻 实习经历