关于我们:
我们是一家专注 代码智能( Code Intelligence )与大模型训练 的 AI 创业公司。
公司由拥有 20 年强化学习与机器学习经验 的技术专家创立,已完成 2 亿元融资。
我们正在构建面向软件工程场景的新一代代码模型与 Coding Agent
核心方向包括:
1.大模型训练( Pre-training / Continued Training / SFT / Middle Training )
2.强化学习与对齐( RLHF / Preference Optimization )
3.Code LLM 训练与优化
4.Coding Agent 系统与工具调用能力
5.软件工程任务评测体系( SWE-bench 等)
我们的目标:
在真实软件工程任务中持续提升模型能力
推动 AI 从“代码辅助工具”走向“自主软件工程能力”
关于岗位:
大模型训练 / 强化学习算法工程师( LLM Training / RL )
工作内容:
1.大语言模型训练全流程设计与优化( Pre-train / Middle-train / Post-train )
2.Continued Pre-training / SFT / 对齐训练策略设计
3.Code 数据构造、清洗与训练策略优化
4.Reward Model 构建与 RLHF / RLAIF 训练流程设计
5.PPO / DPO / GRPO 等方法在实际训练中的应用
6.模型能力评测与训练闭环迭代
我们希望你:
* 对大模型训练体系( pre-train / post-train / alignment )有系统理解
* 对 Transformer 结构与训练机制有深入理解
* 参与或实际做过 LLM / Code LLM 训练或微调项目
* 参与过 RLHF / preference optimization / reward model 构建流程
* 能在 PPO / DPO / GRPO 等方法中解决实际模型优化问题
加分项:
* 深度参与过大规模 LLM 训练或优化(非 API 使用)
* 有模型稳定性优化 / 数据构造 / 训练策略优化经验
* 有 benchmark / evaluation system 构建经验
* 有论文 / 开源项目 / 技术报告成果
我们欢迎:
* 有国内头部 AI 大模型团队研发经验(如阿里、字节、腾讯等)
* 高校优秀研究者
* 应届博士(强化学习、机器学习、大模型方向)
* 有 NeurIPS / ICML / ICLR / ACL 等顶会论文或研究成果者
我们希望找到能够将前沿研究方法真正转化为模型能力提升的人。
我们提供:
* 有竞争力薪资 + 早期核心成员期权
* 充足 GPU 算力支持快速实验
* 小团队、高自由度技术环境
* 直接参与模型方向与技术路线设计
* 与资深 RL / LLM 研究者共同从 0 到 1 构建系统
办公地点:
北京 / 上海 / 深圳(任选)
投递邮箱:
[email protected]
我们是一家专注 代码智能( Code Intelligence )与大模型训练 的 AI 创业公司。
公司由拥有 20 年强化学习与机器学习经验 的技术专家创立,已完成 2 亿元融资。
我们正在构建面向软件工程场景的新一代代码模型与 Coding Agent
核心方向包括:
1.大模型训练( Pre-training / Continued Training / SFT / Middle Training )
2.强化学习与对齐( RLHF / Preference Optimization )
3.Code LLM 训练与优化
4.Coding Agent 系统与工具调用能力
5.软件工程任务评测体系( SWE-bench 等)
我们的目标:
在真实软件工程任务中持续提升模型能力
推动 AI 从“代码辅助工具”走向“自主软件工程能力”
关于岗位:
大模型训练 / 强化学习算法工程师( LLM Training / RL )
工作内容:
1.大语言模型训练全流程设计与优化( Pre-train / Middle-train / Post-train )
2.Continued Pre-training / SFT / 对齐训练策略设计
3.Code 数据构造、清洗与训练策略优化
4.Reward Model 构建与 RLHF / RLAIF 训练流程设计
5.PPO / DPO / GRPO 等方法在实际训练中的应用
6.模型能力评测与训练闭环迭代
我们希望你:
* 对大模型训练体系( pre-train / post-train / alignment )有系统理解
* 对 Transformer 结构与训练机制有深入理解
* 参与或实际做过 LLM / Code LLM 训练或微调项目
* 参与过 RLHF / preference optimization / reward model 构建流程
* 能在 PPO / DPO / GRPO 等方法中解决实际模型优化问题
加分项:
* 深度参与过大规模 LLM 训练或优化(非 API 使用)
* 有模型稳定性优化 / 数据构造 / 训练策略优化经验
* 有 benchmark / evaluation system 构建经验
* 有论文 / 开源项目 / 技术报告成果
我们欢迎:
* 有国内头部 AI 大模型团队研发经验(如阿里、字节、腾讯等)
* 高校优秀研究者
* 应届博士(强化学习、机器学习、大模型方向)
* 有 NeurIPS / ICML / ICLR / ACL 等顶会论文或研究成果者
我们希望找到能够将前沿研究方法真正转化为模型能力提升的人。
我们提供:
* 有竞争力薪资 + 早期核心成员期权
* 充足 GPU 算力支持快速实验
* 小团队、高自由度技术环境
* 直接参与模型方向与技术路线设计
* 与资深 RL / LLM 研究者共同从 0 到 1 构建系统
办公地点:
北京 / 上海 / 深圳(任选)
投递邮箱:
[email protected]