≡ AI工具

Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

分类:AI工具
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API是什么

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。Multimodal Live API具备视频理解能力,让用户用摄像头输入或屏幕共享与AI互动。API专为服务器到服务器的通信设计,适用于需要实时、多模态交互的应用场景。

Multimodal Live API