新聞中心

2024年服貿(mào)會:當(dāng)大語言模型解鎖“看見”和“說話”的能力

2024-09-19 09:50:20     來源: 中國貿(mào)易報

9月12日至9月16日,2024年中國國際服務(wù)貿(mào)易交易會(服貿(mào)會)在國家會議中心和首鋼園區(qū)盛大舉辦,本屆服貿(mào)會的主題是“全球服務(wù),互惠共享”。在北京首鋼會展中心2號館,智譜展示了多款最新產(chǎn)品,包括旗下清言App近期重磅推出的“視頻通話”功能、清影AI生成視頻功能,以及大模型開放平臺bigmodel.cn等,諸多AI黑科技亮相引發(fā)廣泛關(guān)注。

清言作為首批上線的C端大模型產(chǎn)品,過去一年中以文字和語音形式與用戶互動。如今,清言迎來重大升級,解鎖了“眼睛”, 這是全球首個面向大眾用戶開放的視頻通話功能,讓用戶體驗(yàn)到目前最前沿的AI/大模型技術(shù),正式進(jìn)入視頻通話時代。

清言視頻通話功能跨越文本、音頻和視頻三大模態(tài),具備實(shí)時推理能力。用戶可以打開攝像頭,通過視頻通話窗口與清言交流,清言不僅能“看”到用戶畫面,還能聽懂指令并準(zhǔn)確執(zhí)行。即使用戶頻繁打斷,清言也能迅速反應(yīng),帶來如同真人視頻通話的流暢體驗(yàn)。另外可以用右下角小畫筆在畫面上劃重點(diǎn),清言可以知道你著重讓它看的地方是哪。

當(dāng)大語言模型解鎖了“看見”和“說話”的能力,AI在學(xué)習(xí)和生活中的應(yīng)用更廣泛了,英語翻譯、教學(xué),導(dǎo)游,為視障人士提供識別環(huán)境的幫助等等。

最近一段時間以來,智譜動作頻頻:在 KDD 上發(fā)布了升級版基座大模型GLM-4-Plus,以及CogView-3-Plus 和 CogVLM 在內(nèi)的多模態(tài)模型,展示智譜對圖像、視頻等更多模態(tài)方面的研究進(jìn)展。同時,類 GPT-4o 的視頻通話功能在 C 端產(chǎn)品智譜清言上線。7 月,智譜生視頻功能清影 Ying 上線智譜清言,并很快將其背后的生視頻模型 CogVideoX 開源。


分享到微信