最近需要做一个语音大模型( voice in voice out 的)的后端,需求是要低延迟传输(要实现下面链接的 GPT-4o voice 这种语音通话的功能,所以对延迟非常敏感),想问下前端/后端/app 端的技术选型以及采用什么通讯协议会比较好?
1
R4rvZ6agNVWr56V0 Nov 9, 2024
如果考虑招人较容易的话,可以尝试:
前端:React.js(组件化、虚拟 DOM) 后端:Node.js(非阻塞 IO 、高并发) 通信协议:WebSocket/WebRTC |
2
xiuming Nov 9, 2024
WEB:React.js Vue.js
App:原生 后端:golang 通信协议: http3 、kcp 、WebRTC |
3
mmdsun Nov 9, 2024
换汤不换药,这种你参考支持音视频通话的 IM 系统就行,基本都是低延时实时通信。
纯自己搞就 netty 写 im 那块的 + 音视频的推流服务器。 |
4
firechat Nov 9, 2024
可以考虑用我们的这个 https://github.com/wildfirechat/ServerVoipDemo 项目,已经实现了服务器和客户端打音视频电话,你们做好音视频内容和对接可以快速实现视频上类似的功能。
|
5
COW Nov 9, 2024
服务端:Java ( Netty )/Go
PC 端:Electron (跨平台) 移动端:原生 协议:WebRTC |
7
COW Nov 10, 2024 via Android
@SeleiXi golang 天生支持高并发,原生的 net 库应该就支持,所以不需要像 Java 哪样再搞个 Netty ,不过你要处理 WebSocket/WebRTC 协议的话,应该还需要额外的库支持(仅供参考,没有用 golang 实践过)
|
8
Leon6868 Nov 10, 2024
我最近正好也在做这个,经过大量选型后我认为最方便的还是 ws+mp3 切片,至少语音延迟在传输上能达到 110ms 的延迟。
感兴趣的话欢迎深入交流,我的邮箱是 cXRiYm9zajVzQG1vem1haWwuY29t |