新科技速遞|  AI模型如法外分身   多角飾演如脫胎換骨

新科技速遞| AI模型如法外分身 多角飾演如脫胎換骨

Table Of Contents
Together.ai
三個臭皮匠勝過一個諸葛亮,Together.ai公佈利用多個模型作為代理,並以其中一個作為總結(Aggregator),性能大幅提昇,以GPT-4o為總結獲最高分,但是以阿里雲開源的qwen1 5 72b亦獲65.1%,不相伯仲。

[新科技速遞]

生成式AI高速發展,改變不少行業,翻譯工作迅速被取代,大語言模型(LLM)利用大量數據訓練,提高了翻譯準確度,明白上文下理,掌握多種專業術語。不少AI模型專攻翻譯,GPT-4o甚至可即時傳譯,不過直接翻譯出輸入的原文,效果往往強差人意。不少研究發現,只要LLM加上代理(Agent),效果事半功倍。

較早前,史丹福大學吳恩達在紅杉AI高峰會,提出「代理流程」(Agentic workflow),大大改善AI模型輸出的質量。他指出,以一般人都以Zero-short方式,也就是輸入提問向LLM直接,答案質素往往未能盡如人意,加入代理分割任務,往往有更滿意答案,更可完成複雜任務。

分割翻譯改善質素

概括而言,Agent設計模式可分成4類;包括要求Agent反思、使用工具、規劃、多代理協作,例如以代理改善翻譯,可以對譯文作審查,要求使用的特定字典或參考文本,以過往翻譯為範例,或者蒐集特定領域知識。

吳恩達相信,以代理執行AI機器翻譯大有前途,可改善機器翻譯,最近開源本身開發代理流程,先以LLM進行翻譯,再創建另一代理提出反思,針對翻譯提出建設性建議,利用建議完善翻譯。

吳恩達代理程式並沒調用特定工具,翻譯結果以的BLEU衡量,部分獲不俗評分,不少用戶發現提示加入角色,要求LLM為答案反思,審視原本輸出,已經可獲更佳答案。

同一模型不同角色

利用代理創建流程,幾乎百花齊放,每個代理再建立本身的提示,出現了類似Autogen和Crew AI開源項目。

Autogen是Microsoft項目,用戶創建每個代理擔任不同角色,Crew AI則更加靈活,結合Ollama利用本地模型,免費執行複雜工作;例如Crew AI一個範例,LLM化身成為股票、財務分析員以至投資專家,配合不同分析總結成報告,內容專業幾可亂真。

利用同一LLM變成多個代理,可有效改善輸出文本質素,如果結合多個不同性能LLM,甚至可打敗最強的OpenAI,Together.ai亦開源Mixture of Agents(MoA)的源碼,其概念是以多個開源LLM分演不同角色一同工作,開源模型性能單獨比上不及OpenAI,但是分層再總結,結果卻令人大吃一驚。

OpenAI提出了為LLM能力作綜合評分的AlpacaEval工具,針對GPT模型弱點,以反映模型真實能力,MoA所獲AlpacaEval評分高達65.1%,遠遠拋離GPT-4o所獲57.5%。開源模型可免費在內部運作,確保了私隱性,另外又可利用低價的推理服務,性價比非常吸引。

類似Groq具備多個開源模型,推論速度比OpenAI更快,Token價格只是二十分之一,以不到一美元一百萬Token成本,利用MoA以同一模型,製作不同代理,再混合不同性能的模型,不少高性性模型在香港都有應用限制,利用MoA以低價獲得高性能。

https://www.together.ai/blog/together-moa

騰訊推「遊戲即服務」   開發《巴甫洛夫很忙》

騰訊推「遊戲即服務」 開發《巴甫洛夫很忙》

《巴甫洛夫很忙》由陳天橋雒芊芊研究院(TCCI)和騰訊遊戲開發,包括了幾十款玩法各異的頭腦鍛煉小遊戲。 新科技速遞 網上遊戲是否玩物喪志,有不同說法。今年上半年全球手遊市場,增長強勁;騰訊首季手遊收 …

了解更多
M17再獲新融資  多元創作拓展新興市場

M17再獲新融資 多元創作拓展新興市場

**[眾創時代] [影音直播] [M17 Entertainment] ** 過去幾個月 M17簽約內容創作者、新用戶註冊紀錄及用戶互動創下新高,洽詢開播的直播數量增長。 **眾創時代** 台灣影音 …

了解更多
香港變身口罩之都  防偽技術保障品牌

香港變身口罩之都 防偽技術保障品牌

**[數碼轉型] [防偽技術]** 產品為贗品,掃描「真的碼」(REAL Barcode)後,APP便指出產品為偽冒品,消費者可選擇以電郵通知品牌,品牌商亦會接獲通知,假貨位置和資訊。 **數碼轉 …

了解更多