記者陳建興/台北報導
阿里巴巴集團的數字技術和智能骨幹業務阿里雲宣布其智能助手「聽悟」已接入語言大模型(LLM)「通義千問」。升級版的「通義聽悟」精於語音和影片的實時文本轉換,將可大大提升個人和企業生產力。「通義聽悟」現已上線,民眾可透過阿里雲帳號登入使用並體驗其功能。
依託近期發布的「通義千問」大模型,「通義聽悟」能夠精準高效地理解和分析多媒體內容,例如從音樂、影片文件生成總結文本,概括每位會議發言人的講話重點,根據多媒體文件的時長自動劃分章節並形成摘要。
「通義聽悟」還將接入阿里巴巴的數位協同辦公和應用開發平台釘釘,以支持用戶的AI辦公需求。除了提升辦公效率,「通義聽悟」還可於各類多媒體平台廣泛應用,滿足線上教育、培訓、面試、直播、Podcast、短影片等領域日益增長的需求,使知識共享變得更快更便捷。
阿里雲智能首席技術官周靖人表示:「現今我們生活的時代正在以多種多樣的形式來接觸海量影片和音頻內容。因應這樣的趨勢,『通義聽悟』旨在應用語言大模型促進大眾以更為便捷高質的方式理解及輕鬆分享多媒體內容。隨著我們陸續將各類產品和服務接入『通義千問』大模型,我們希望用戶能在工作、學習、娛樂和人際互動多個方面從這些引人注目的 AI 創新中獲益。」
此外,依託阿里巴巴集團旗下研究機構達摩院自主開發的音頻和影片模型,包括自研語音識別模型Paraformer和多人識別模型CAM++,升級版的「通義聽悟」不僅能更準確轉錄影片和音頻文件,還可實現眾多基於AI的特色功能,包括針對用戶對多個音、影片文件查詢自動輸出文字回答、提取影片內PPT幻燈片內容並生成摘要、以Chrome瀏覽器擴充形式為多媒體內容提供實時中英互譯等。這些新功能將於今年稍後推出。
即日起民眾可透過阿里雲帳號登入tingwu.aliyun.com於線上使用「通義聽悟」並體驗其功能,還可於公測期間使用免費的轉寫試用服務。
阿里雲於4月11日發布「通義千問」,並將陸續嵌入阿里巴巴的各項業務中以提升用戶體驗。阿里雲的客戶和開發人員將透過大模型以更低成本建構專屬AI功能。
作為全球領先的雲服務供應商,阿里雲此前還宣布啟動「通義千問夥伴計劃」,旨在聯合生態夥伴為包括石化、電力、交通、酒店、企業服務、電信、金融等行業打造專屬大模型。