[招聘] AI for code 创业团队： LLM Training / Alignment/ 强化学习方向核心成员

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

关于我们:
我们是一家专注代码智能（ Code Intelligence ）与大模型训练的 AI 创业公司。
公司由拥有 20 年强化学习与机器学习经验的技术专家创立，已完成 2 亿元融资。

我们正在构建面向软件工程场景的新一代代码模型与 Coding Agent

核心方向包括：
1.大模型训练（ Pre-training / Continued Training / SFT / Middle Training ）
2.强化学习与对齐（ RLHF / Preference Optimization ）
3.Code LLM 训练与优化
4.Coding Agent 系统与工具调用能力
5.软件工程任务评测体系（ SWE-bench 等）

我们的目标：
在真实软件工程任务中持续提升模型能力
推动 AI 从“代码辅助工具”走向“自主软件工程能力”

关于岗位:
大模型训练 / 强化学习算法工程师（ LLM Training / RL ）

工作内容：
1.大语言模型训练全流程设计与优化（ Pre-train / Middle-train / Post-train ）
2.Continued Pre-training / SFT / 对齐训练策略设计
3.Code 数据构造、清洗与训练策略优化
4.Reward Model 构建与 RLHF / RLAIF 训练流程设计
5.PPO / DPO / GRPO 等方法在实际训练中的应用
6.模型能力评测与训练闭环迭代

我们希望你：
* 对大模型训练体系（ pre-train / post-train / alignment ）有系统理解
* 对 Transformer 结构与训练机制有深入理解
* 参与或实际做过 LLM / Code LLM 训练或微调项目
* 参与过 RLHF / preference optimization / reward model 构建流程
* 能在 PPO / DPO / GRPO 等方法中解决实际模型优化问题

加分项：
* 深度参与过大规模 LLM 训练或优化（非 API 使用）
* 有模型稳定性优化 / 数据构造 / 训练策略优化经验
* 有 benchmark / evaluation system 构建经验
* 有论文 / 开源项目 / 技术报告成果

我们欢迎：
* 有国内头部 AI 大模型团队研发经验（如阿里、字节、腾讯等）
* 高校优秀研究者
* 应届博士（强化学习、机器学习、大模型方向）
* 有 NeurIPS / ICML / ICLR / ACL 等顶会论文或研究成果者

我们希望找到能够将前沿研究方法真正转化为模型能力提升的人。

我们提供:
* 有竞争力薪资 + 早期核心成员期权
* 充足 GPU 算力支持快速实验
* 小团队、高自由度技术环境
* 直接参与模型方向与技术路线设计
* 与资深 RL / LLM 研究者共同从 0 到 1 构建系统

办公地点：
北京 / 上海 / 深圳（任选）

投递邮箱：
[email protected]

大模型

代码

强化学习

2 replies • 2026-06-16 21:48:13 +08:00

Clannad0708

7h 6m ago

我有点好奇，纯做 coding agent 赛道的，那什么去和 codex 和 claude 去做竞争？没任何其他意思只是好奇，我觉得他们大公司，有人才做 harnes+model 外加上有用户高质量训练数据也上的去....

感觉是一个赢家通吃的局啊

joywho

2h 29m ago

@Clannad0708 我一开始跟你是一样的想法，但是后来和这个领域朋友交流后发现没那么简单，虽然 claude ，codex ，copilot 看似无可撼动，但在很多场景其实要综合考虑很多因素，比如最典型的一个就是安全性