想问下语音大模型的前后端技术选型，以及采用什么通讯协议比较好？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 587 days ago, the information mentioned may be changed or developed.

最近需要做一个语音大模型（ voice in voice out 的）的后端，需求是要低延迟传输（要实现下面链接的 GPT-4o voice 这种语音通话的功能，所以对延迟非常敏感），想问下前端/后端/app 端的技术选型以及采用什么通讯协议会比较好？

10 replies • 2024-11-11 10:34:07 +08:00

R4rvZ6agNVWr56V0

Nov 9, 2024

如果考虑招人较容易的话，可以尝试：

前端:React.js(组件化、虚拟 DOM)
后端:Node.js(非阻塞 IO 、高并发)
通信协议:WebSocket/WebRTC

xiuming

Nov 9, 2024

WEB:React.js Vue.js
App:原生
后端:golang
通信协议： http3 、kcp 、WebRTC

mmdsun

Nov 9, 2024

换汤不换药，这种你参考支持音视频通话的 IM 系统就行，基本都是低延时实时通信。
纯自己搞就 netty 写 im 那块的 + 音视频的推流服务器。

firechat

Nov 9, 2024

可以考虑用我们的这个 https://github.com/wildfirechat/ServerVoipDemo 项目，已经实现了服务器和客户端打音视频电话，你们做好音视频内容和对接可以快速实现视频上类似的功能。

COW

Nov 9, 2024

服务端：Java （ Netty ）/Go
PC 端：Electron （跨平台）
移动端：原生
协议：WebRTC

SeleiXi

Nov 10, 2024

@xiuming
@COW
go 的话具体用哪些技术栈比较好呢

COW

Nov 10, 2024 via Android

@SeleiXi golang 天生支持高并发，原生的 net 库应该就支持，所以不需要像 Java 哪样再搞个 Netty ，不过你要处理 WebSocket/WebRTC 协议的话，应该还需要额外的库支持（仅供参考，没有用 golang 实践过）

Leon6868

Nov 10, 2024

我最近正好也在做这个，经过大量选型后我认为最方便的还是 ws+mp3 切片，至少语音延迟在传输上能达到 110ms 的延迟。

感兴趣的话欢迎深入交流，我的邮箱是 cXRiYm9zajVzQG1vem1haWwuY29t

Leon6868

Nov 10, 2024

@Leon6868 #8 其实 4o 的延迟也不低，而且主要在于 VAD 、模型推理上

SeleiXi

Nov 11, 2024

@Leon6868 嗯嗯，发了邮件了