低成本微調大語言模型   生成AI飛入尋常百姓家

低成本微調大語言模型 生成AI飛入尋常百姓家

Table Of Contents

Databricks Databricks數據 + 人工智能世界巡迴峰會得獎企業;由左至右:中電高級數據科學家Ryan Lam及數據操作經理Colin Cheng、富衛數碼科技及數據部副總裁Rodney Yim、友邦大數據創新主管Abhishek Sharma、Databricks 北亞地區營運總監林家偉、Lane Crawford Joyce Group科技總監Jack Ng、利豐LFX 首席資訊總監劉俊成及數據工程主管German Chung

[新科技速遞]

ChatGPT展示了自然語言處理(Natural Language Processing)的潛力,預訓練大語 言模型(LLM),或者稱為「基礎模型」(Foundation Model)。

「基礎模型」的名稱,因為模型學會語言理解後,可以微調再應付特定專業領域 ,或 者執行特定的任務,微調以改變用途的基礎模型,幾乎如雨後春筍。

OpenAI從GPT-1以預訓練實現了高效語言理解訓練,GPT-2加入遷移學習, GPT-3.5 又加入「指令遵循」(Instruction-following)和微調功能,成為大語言模型突破,按 指令自動生成文字,可供一般推理分析,自動提出建議和擬定計畫,也可改變用途, 按需要回答特定的問題。

ChatGPT的功能已完全超出開發人員設想。史丹福大學教授Percy Liang指出,語言代 表人了類運作規律,LLM具備推理理解能力,可執行其他工作,Google開發的PaLM- E,就是利用LLM加上感應器,訓練出善解人意的機械人。

類似「指令遵循模型」(Instruction-following models),包括了GPT-3.5 (text- davinci-003)、ChatGPT、Claude 和Bing Chat等,功能強大,可策畫其他任務,與網 上資源互動,例如擔任客戶聊天機械人,自動作決策建議,自動生成推廣的宣傳圖案。

微調LLM本小利大 微調(Fine Tuning)是指將預訓練大語言模型;按特定任務或專業,訓練出新技能。 以往微調成本昂貴,隨著低成本的「指令微調」(Instruction tuning)出現,以指令 數據集微調出「指令遵循模型」,可為商業機構工作,變成服務客戶或內部支援的答 問機械人,應用前景廣闊。

推出自家使用的指令遵循模型,先要克服兩個難題;首先是如何取得「預訓練大語言 模型」LLM,其次是訓練指令遵循的數據集。如果訓練指令有問題,答案不夠凖確, 模型有時會產生「幻覺」(Hallucination),類似GPT-3.5透過多模訓練,則可減低 「幻覺」機會。

對許多商業機構,採用ChatGPT要在公開平台分享數據,除了要支付API費用,還有 洩露商業秘密的風險。據說三星採用ChatGPT外洩敏感數據,結果其他用戶也看到了 三星集團機密資料。

市場上有多種微調技術,包括微軟發表的Lora框架。較早前,史丹福大學開發出 Alpaca 7B模型,開放給學術界使用,效果令人驚豔,利用HuggingFace Trainer API 微調功能,性價比之高,迅速令大語言模型具實用價值。

低成本高性價比 訓練高品質指令遵循模型,要解決兩大問題;首先是一個預訓練語言模型(LLM), 訓練成本可高達一百萬美元;其次是訓練指令遵循的數據集。由於Meta開源了預訓練 模型LLaMA,第一項難題迎刃而解;第二難題則以自動生成指令解決。

Alpaca採用LLaMA,以52,000個指令遵循演示範例微調,但指令不是人類產生,而是 先以175個人工編寫種子指令集,採用OpenAI為文本數據開發而打造的預訓練語言模 型text-davinci-003,產生出52,000個演示範例,OpenAI的API收費為500美元。 52,000個指令遵循演示範例準備後,再以HuggingFace訓練框架的HuggingFace Trainer API去微調LLaMA模型,微調過程採用公有雲8個Nvidia的A100 80GB GPU, 微調LLaMA花去3小時運算,成本為100美元。

商用LLM雨後春筍 Alpaca模型是一個相對輕量模型,微調總成本低至600美元,多項文本生成測試令人 滿意。不過,Alpaca禁止開放供商業用途,原因是LLaMA是以非商業授權,加上採 用了OpenAI的text-davinci-003模型產生種子指令,不可與OpenAI競爭,所以Alpaca 禁用在商業用途。

不過,可供商用開源「指令遵循模型」出現,公有雲推出了LLM的API,AWS推出存 取多個LLM的Bedrock,可使用AI21Labs的Jurassic-2、Authropic的Claude、Stable Diffusion等大模型,AWS亦推出Titan大模型,數據只在VPC內運行,確保數據安全和 保護隱私。

不想付款使用公有雲的API,或者部署內部或私有雲上,或者不想應用OpenAI數據 。Databricks在首屆數據+人工智能世界巡迴峰會推出Dolly 2.0,屬於可低價微調的 LLM,首個可商用並內部部署的遵循指令LLM,採用人手開發的數據集微調。Dolly 2.0以EleutherAI的Pythia大語言模型家族,訓練Dolly 2.0的「指令數據集」(Instruction set)乃邀請Databricks內5000名員工,按7種任務貢獻了15000個指 令數據集,同樣以HuggingFace Trainer API微調,總成本30美元,具備類似ChatGPT 的對話性能。

Dolly2.0 Dolly 2.0可用作總結文件或者產生內容,模型可按特定任務微調,不用擔心敏感數據外洩。Databricks開源了訓練數據集,格式簡單,可製作或自行微調作。

真人撰寫數據集

微調Dolly 2.0數據集非以「合成數據」(Synthesized data)產生,由真人撰寫的優點 ,可減低AI發生幻覺的機會,回答亦較為詳盡。不過,Dolly 2.0最大賣點,卻是並沒 Alpaca商業限制,無需支付API費用,或者與第三方共享數據,自行創建完全私用的 「指令遵循模型」交談式AI服務。

Dolly 2.0可用作總結文件或者產生內容,模型可按特定任務微調,不用擔心敏感數據 外洩。Databricks開源了訓練數據集,格式簡單,自行製作微調。

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially- viable-instruction-tuned-llm

Databricks推出Dolly 2.0經驗,相信可加快企業內部,微調開源的大語言模型。Databricks提供「湖倉一體」開放數據管理架構,同時供商業智慧(Business intelligence)和機器學習(Machine learning)使用,可供模型訓練作內容特定用途,Databricks開源了微調的源碼。

Databricks直接在物件儲存上,仿照數據庫格式組織數據關係,數據倉庫與機器學習互相結合,不用經常轉型格式,快速從數據訓練模型,透過大語言模型提供新服務或創新。Dolly 2.0可安裝在內部數據中心,Github安裝指Pythia語言模型家族,最低要求部署在8片NVIDIA A100 GPU的伺服器上。

NFT題材百花齊放   活動結合線上線下

NFT題材百花齊放 活動結合線上線下

香港的創作室Hungry Sausages發行NFT以推廣創作,並且與Not For Teeth實體NFTs俱樂部會員合作招募會員。 金融創新 NFT蔚然成風,以不同創作風險和主題,甚至結合實體和活 …

了解更多
智能運算助醫學研發 加速高效新藥疫苗面世

智能運算助醫學研發 加速高效新藥疫苗面世

**[科學園 HKSTP] [英科智能 Insilico Medicine] [貝思生物科技 Beth Bioinformatics] [人工智能 AI] [生物科技 Biological …

了解更多
台灣聯發科5G晶片    獲萊因確認性能

台灣聯發科5G晶片    獲萊因確認性能

天璣1200 支援 5G 高鐵模式和 5G 電梯模式,支援獨立和非獨立組網、 5G雙載波聚合和動態頻譜共享( DSS ),已獲數家大品牌採用,包括了小米下一代紅米Redmi手機。 **眾創時代** …

了解更多