V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
yaakua
V2EX  ›  分享创造

和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win)

  •  
  •   yaakua · 10 天前 · 3020 次点击

    和香港同事开会总是听不太懂粤语,我用 Tauri 搓了个实时字幕工具 (macOS/Win)

    在一家跨地区团队工作了一段时间后,我发现一个挺真实的痛点:会议语言有时候是粤语。

    虽然大家也能切换普通话或英语,但很多时候讨论进入状态之后,自然就会变成粤语交流。其实我自己最近也刚好在学粤语,但如果你不是长期在粤语环境里,在工作场景下会遇到一种很微妙的情况:

    不是完全听不懂,但经常只能听懂七八成。

    特别是遇到一些香港本地表达、粤语里夹杂英文、多人同时快速讨论的时候。结果就是:会议能跟上大概意思,但细节容易漏掉。有时候大家已经开始讨论下一个问题了,我还在脑子里 compile 上一句到底说了什么。

    久而久之觉得挺影响沟通效率,所以后来我就做了一个自己用的小工具: 把电脑里播放的粤语语音,实时变成中文字幕。

    当然不止是粤语翻粤,英语、日语、韩语等都可以。

    网站:https://fanyueai.com/


    解决的其实就是一个很简单的场景

    我做这个工具最初只有一个目标:开会的时候能实时看到字幕。

    不管是 Zoom 、Google Meet 、Teams 还是网页版会议,只要电脑里有粤语语音,它就会:

    1. 实时监听系统级音频
    2. 实时识别粤语并翻译
    3. 用一个悬浮字幕条显示出来

    当有人语速很快的时候,看一眼字幕基本就能跟上内容。因为是系统级音频监听,所以平时用来看港区 YouTube 、听粤语播客,或者看没字幕的生肉视频也都能顺带用上。

    • 主界面 image.png

    • 实时字幕界面 image.png


    聊聊技术演进和踩坑

    一开始我也想过做成某个会议软件的插件,但大家用的软件太杂了,最后决定直接做系统级监听。

    客户端我个人比较反感那种动不动就吃掉几个 GB 内存的 Electron 巨兽,所以:

    • 技术栈: 选了 Tauri 来打包,客户端做得很轻(大概二十多 MB ),内存和 CPU 占用基本可以忽略不计。
    • UI 设计: 没有花里胡哨的主题切换,直接做成了类似苹果原生的深空灰暗色调,主打一个开会时悬浮在屏幕边缘“不喧宾夺主”。

    关于核心的翻译延迟问题,其实经历过一次重构:

    一开始的 V1 版本,我图省事直接接了阿里云的自动识别与翻译 API 。调用一个接口就能出结果,开发确实快,但效果很感人:机器味重、识别不准,而且延迟太高,开会用起来有明显的割裂感。

    后来痛定思痛改了架构。最近刚好发现 Google 新出了 gemini-3.1-flash-lite 模型,测试了一下发现用来做实时翻译简直是神器:速度极快,翻译的人话味道很浓,最关键的是支持自定义提示词(可以喂给它一些团队开会常用的 IT 缩写和黑话)。

    所以现在的版本改成了:实时语音识别 + 实时流式调用大模型 API 进行翻译。目前把整体的延迟压在了开会完全可接受的范围内。


    如果你刚好有类似场景

    目前打包了 macOSWindows 版本( Windows 没测太多老系统,目前 Win10 及以上可以正常跑)。

    如果你也是在香港工作的内地开发者,或者有远程和港区团队合作的需求,可以试试这个工具:

    [https://fanyueai.com/?ref=BRSLH8JQ](通过邀请码注册即赠 120 分钟时长。点击体验: https://fanyueai.com/?ref=BRSLH8JQ)

    给刚注册的新用户默认塞了 15 天体验和 90 分钟的翻译时长,基本足够大家开几次会,或者看个视频体验一下效果了。

    我自己也是一边用一边慢慢迭代,如果大家体验后觉得有什么 Bug ,或者在技术实现上(特别是跨平台音频流处理这块)有更好的思路,欢迎在帖子里吐槽交流,我下班后去修。

    41 条回复    2026-03-17 14:13:42 +08:00
    sanebow
        1
    sanebow  
       10 天前 via iPhone
    看起来不错支持一下
    yaakua
        2
    yaakua  
    OP
       10 天前
    @sanebow 感谢,欢迎多试用,提建议
    Shing
        3
    Shing  
       10 天前 via iPhone
    不错,港粤能听得懂,但粤西地区的有些是难懂的,可以测试一下。
    yaakua
        4
    yaakua  
    OP
       10 天前
    @Shing 现在的大模型针对特别小众的语言识别还是有困难,除非单独使用这个地区的语言训练过的模型(市面上也有,但是不多,且大部分是开源的没有直接 api 可以对接)
    kenshinhu
        5
    kenshinhu  
       10 天前
    我想知道 粤韵风华之类的内容会怎样翻译?
    Rrrrrr
        6
    Rrrrrr  
       10 天前
    其实就推广帖?
    jiji262
        7
    jiji262  
       10 天前
    不开源么?
    yaakua
        8
    yaakua  
    OP
       10 天前
    @Rrrrrr 好产品,好工具值得推荐,也值得推广
    yaakua
        9
    yaakua  
    OP
       10 天前
    @jiji262 没啥开源的必要,这个就是给普通不懂技术的人使用的,开源只会让更多懂技术的人复制更多类似的产品。没意义
    byp
        10
    byp  
       10 天前
    豆包已经支持方言了,开会的时候把豆包打开放旁边就行了,实时翻译
    wonderfulcxm
        11
    wonderfulcxm  
       10 天前 via iPhone
    那理论上可以翻译任何语言显示字幕,不限于粤语吧
    runking
        12
    runking  
       10 天前
    字幕准确性怎么样?
    yaakua
        13
    yaakua  
    OP
       10 天前
    @byp 不一样,那个只支持字幕显示,不支持自动翻译
    yaakua
        14
    yaakua  
    OP
       10 天前
    @wonderfulcxm 是的,只要模型支持,基本上都可以。只是我现在还没放开所有语言的自动翻译
    yaakua
        15
    yaakua  
    OP
       10 天前
    @runking 已我这初级粤语的水平来说,至少我能看懂了。
    hanguofu
        16
    hanguofu  
       10 天前
    gemini-3.1-flash-lite 的效果比 阿里云 的 ASR 还好吗 ?我有点不信:)
    Leon6868
        17
    Leon6868  
       10 天前
    好产品,请问实时语音识别是在本机完成的吗?
    yaakua
        18
    yaakua  
    OP
       9 天前
    @hanguofu 不是说比阿里云的 ASR 不好,而是阿里云有一个识别与翻译一体化的接口,这个识别效果可以,但是翻译是机器 AI 翻译的,不是大语言模型翻译,效果自然没 gemini 这个模型效果好
    yaakua
        19
    yaakua  
    OP
       9 天前
    @Leon6868 不是,也是远程 api 实现的,本机不需要安装下载各种大模型,对于大部分用户来说这种方式反而简单
    iorilu
        20
    iorilu  
       9 天前
    @Leon6868
    我的译王是基于本地识别的实时翻译系统
    因为在线识别, 必然成本高, 另外本地识别可控点

    https://www.v2ex.com/t/1195970
    FrankAdler
        21
    FrankAdler  
       9 天前 via Android
    nice 不过多说一句 Windows 自带字幕功能的 准确率还不错 只是不能智能识别语言 需要选择
    hackpro
        22
    hackpro  
       9 天前
    实时翻译用的什么模型?还是云端 API ?
    云端的话企业的数据一般比较敏感吧
    yaakua
        23
    yaakua  
    OP
       9 天前
    @iorilu 各有优缺点,本地识别能力取决于模型能力,模型能力取决于本机的计算能力支持多大的模型。还有翻译也需要模型支持,这些一般用户的电脑都撑不起
    yaakua
        24
    yaakua  
    OP
       9 天前
    @FrankAdler 理论上识别那一块我设置的模式就是智能识别,也许是阿里的 ASR 这个智能识别效果差点
    yaakua
        25
    yaakua  
    OP
       9 天前
    @hackpro 文章里面有说用什么模型做翻译,这个就是给个人用的,对数据敏感性要求高的还是本地的模型会更合适,当然对机器的要求也会更高
    isSamle
        26
    isSamle  
       9 天前
    昨晚看到这个,连夜让 AI 帮我写了个项目:使用 Vosk 识别系统音频,展示实施字幕,根据提示词提供辅助内容输出……
    大概的功能写的看起来有模有样,目前还没测试通,Emmm……
    yaakua
        27
    yaakua  
    OP
       8 天前
    @isSamle 加油,有技术问题可以一块交流
    isSamle
        28
    isSamle  
       8 天前
    @yaakua 初版大概实现了,用 vosk 本地模型识别的,效果还要调整下,或者看下要不要改技术方案
    yaakua
        29
    yaakua  
    OP
       8 天前
    @isSamle 这个 vosk 本地模型识别效率如何?对 GPU 要求高吗?
    isSamle
        30
    isSamle  
       8 天前
    @yaakua 识别速度还可以,对 GPU 要求不高,就是精准度感觉差一点点
    yaakua
        31
    yaakua  
    OP
       8 天前
    @isSamle 对比一下阿里云的 gummy-realtime-v1 这个在线 api 试试看效果,我用的是这个模型
    isSamle
        32
    isSamle  
       8 天前
    @yaakua 以前的一个想法,刚好看到想起来,准备写来视频面试用的,对响应速度的要求比较高,尽可能低延迟,识别模型和 AI 模型我都是用本地的,一个本机,一个内网 GPU 服务器 Ollama ,这个在线的网络延迟严重吗?
    isSamle
        33
    isSamle  
       7 天前
    @yaakua 换 SenseVoiceSmall 模型了,vosk 竟然不能混语言,中文夹杂其他语言会异常
    yaakua
        34
    yaakua  
    OP
       7 天前
    @isSamle 识别速度基本延迟在 1-2s 内,翻译延迟 3-4s (毕竟是先识别后再调用 api 翻译)
    yaakua
        35
    yaakua  
    OP
       7 天前
    @isSamle 另外建议你以后贴图可以用我的另外一个网站: https://imgto.link 来发图片,纯免费,无广告
    isSamle
        36
    isSamle  
       7 天前
    @yaakua 那还是本地快一点,本地识别 300-700ms ,AI 辅助 1~2s ,SenseVoiceSmall 模型识别效果还不错,混合语种识别的也挺好,现在准备再加一个 AI 辅助修正的功能,对识别错漏就行纠错补全,再调一下样式基本可用了
    wxff
        37
    wxff  
       7 天前
    @isSamle #26 咋样了,开源不?
    isSamle
        38
    isSamle  
       7 天前
    @wxff 差不多搞定了,识别和 AI 辅助回答都测试 OK 了,就是有点丑调下界面就行,暂时还不能开源吧,等我面试拿到 offer 先,不然到时候工具满天飞应该会被监管吧😂而且其实 AI 开发挺快的
    isSamle
        39
    isSamle  
       6 天前
    @wxff 用 AI 写了差不多两三天(下班回家的晚上时间),现在样式基本可以看了,简洁好看一点

    yaakua
        40
    yaakua  
    OP
       6 天前
    @isSamle UI 样式可以让 Gemini 帮你设计,那个模型对 UI 设计的美感更好点。截图给他告诉它让它帮你设计成一个现代化的 UI
    wxff
        41
    wxff  
       1 天前
    @yaakua #40 好的 我用 cursor 写了,我就是自己玩玩
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3296 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 12:18 · PVG 20:18 · LAX 05:18 · JFK 08:18
    ♥ Do have faith in what you're doing.