• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
joywho
V2EX  ›  酷工作

[招聘] AI for code 创业团队: LLM Training / Alignment/ 强化学习方向核心成员

  •  
  •   joywho · 8h 12m ago · 427 views
    关于我们:
    我们是一家专注 代码智能( Code Intelligence )与大模型训练 的 AI 创业公司。
    公司由拥有 20 年强化学习与机器学习经验 的技术专家创立,已完成 2 亿元融资。

    我们正在构建面向软件工程场景的新一代代码模型与 Coding Agent

    核心方向包括:
    1.大模型训练( Pre-training / Continued Training / SFT / Middle Training )
    2.强化学习与对齐( RLHF / Preference Optimization )
    3.Code LLM 训练与优化
    4.Coding Agent 系统与工具调用能力
    5.软件工程任务评测体系( SWE-bench 等)

    我们的目标:
    在真实软件工程任务中持续提升模型能力
    推动 AI 从“代码辅助工具”走向“自主软件工程能力”



    关于岗位:
    大模型训练 / 强化学习算法工程师( LLM Training / RL )

    工作内容:
    1.大语言模型训练全流程设计与优化( Pre-train / Middle-train / Post-train )
    2.Continued Pre-training / SFT / 对齐训练策略设计
    3.Code 数据构造、清洗与训练策略优化
    4.Reward Model 构建与 RLHF / RLAIF 训练流程设计
    5.PPO / DPO / GRPO 等方法在实际训练中的应用
    6.模型能力评测与训练闭环迭代

    我们希望你:
    * 对大模型训练体系( pre-train / post-train / alignment )有系统理解
    * 对 Transformer 结构与训练机制有深入理解
    * 参与或实际做过 LLM / Code LLM 训练或微调项目
    * 参与过 RLHF / preference optimization / reward model 构建流程
    * 能在 PPO / DPO / GRPO 等方法中解决实际模型优化问题

    加分项:
    * 深度参与过大规模 LLM 训练或优化(非 API 使用)
    * 有模型稳定性优化 / 数据构造 / 训练策略优化经验
    * 有 benchmark / evaluation system 构建经验
    * 有论文 / 开源项目 / 技术报告成果

    我们欢迎:
    * 有国内头部 AI 大模型团队研发经验(如阿里、字节、腾讯等)
    * 高校优秀研究者
    * 应届博士(强化学习、机器学习、大模型方向)
    * 有 NeurIPS / ICML / ICLR / ACL 等顶会论文或研究成果者

    我们希望找到能够将前沿研究方法真正转化为模型能力提升的人。

    我们提供:
    * 有竞争力薪资 + 早期核心成员期权
    * 充足 GPU 算力支持快速实验
    * 小团队、高自由度技术环境
    * 直接参与模型方向与技术路线设计
    * 与资深 RL / LLM 研究者共同从 0 到 1 构建系统

    办公地点:
    北京 / 上海 / 深圳(任选)

    投递邮箱:
    [email protected]
    2 replies    2026-06-16 21:48:13 +08:00
    Clannad0708
        1
    Clannad0708  
       7h 6m ago
    我有点好奇,纯做 coding agent 赛道的,那什么去和 codex 和 claude 去做竞争?没任何其他意思只是好奇,我觉得他们大公司,有人才做 harnes+model 外加上有用户高质量训练数据也上的去....

    感觉是一个赢家通吃的局啊
    joywho
        2
    joywho  
    OP
       2h 29m ago
    @Clannad0708 我一开始跟你是一样的想法,但是后来和这个领域朋友交流后发现没那么简单,虽然 claude ,codex ,copilot 看似无可撼动,但在很多场景其实要综合考虑很多因素,比如最典型的一个就是安全性
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1735 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:17 · PVG 00:17 · LAX 09:17 · JFK 12:17
    ♥ Do have faith in what you're doing.