Gemini生態再擴張　Live API提供AI串流互動能力

▲▼Google I/O 202。（圖／Google）

▲Google I/O 2025開發者大會。（圖／Google）

記者吳立言／綜合報導

Google在I/O 2025開發者大會中正式揭露其升級版「Live API」，帶來更即時、更智慧的語音與視訊串流互動技術，並支援多種新一代應用場景，包括語音辨識、即時工具串接、主動式音訊輸出等。為開發者與AI應用生態注入即時、靈活與多工的交互能力，支援影音串流、語音活動辨識、工具鏈整合等功能，為AI與人類互動的未來開啟新篇章。

▲▼Live API。（圖／Google）

此次更新的Live API重點包含：

音訊與視訊串流支援：開發者可直接串流音訊與影像資料，適用於遠端協作、客服機器人、智慧設備等場景。
多架構選擇：提供「Cascaded」與「Audio-to-Audio」兩種音訊處理架構選擇，讓應用彈性更大。
工具鏈整合支援：可將多個工具串接使用，強化跨功能整合能力。
語音活動偵測（Voice Activity Detection）：可自動偵測、設定或停用語音輸入，提升互動準確性。
會話管理功能：支援壓縮、恢復、媒體解析度調整與發言輪替管理，提升串流效能。
臨時憑證（Ephemeral tokens）：用以提升連線安全性與臨時授權的彈性。
原生音訊輸出能力：
提供「Proactive audio」與「Affective dialog」等情緒化回應語調。
支援「Thinking」狀態輸出，模擬思考過程中的聲音提示，提升自然語感。
Google表示，此次Live API的升級，標誌著互動式AI應用朝向更即時、更情感化的發展邁進。該技術未來預計將廣泛應用於虛擬助理、智慧客服、教育學習與無障礙輔助裝置等場景。