語言大模(mo)型由于(yu)在大規(gui)模(mo)通(tong)用領(ling)域(yu)(yu)數據(ju)預訓練(lian)通(tong)常缺乏對特(te)定任務或領(ling)域(yu)(yu)的知識,因此需(xu)要適(shi)(shi)配微(wei)調(diao)(diao)。微(wei)調(diao)(diao)可(ke)以(yi)幫(bang)助模(mo)型更好地適(shi)(shi)應特(te)定需(xu)求(qiu),如(ru)對敏感數據(ju)(如(ru)醫療(liao)記(ji)錄(lu))的處理,同(tong)時不暴(bao)露原始數據(ju)。此外,微(wei)調(diao)(diao)可(ke)以(yi)提高部署(shu)效率(lv)、減少計算資源需(xu)求(qiu)。指令微(wei)調(diao)(diao)和(he)參數高效學習是適(shi)(shi)配微(wei)調(diao)(diao)的關鍵技術。
指(zhi)令(ling)微(wei)(wei)調(Instruction Tuning)[21],是(shi)一種可(ke)以幫助語(yu)言(yan)大(da)模(mo)型實現人類語(yu)言(yan)指(zhi)令(ling)遵循的(de)能力,在(zai)零樣本設置(zhi)中泛化到未見任務(wu)(wu)(wu)(wu)上的(de)學習方(fang)法。指(zhi)令(ling)微(wei)(wei)調學習形式(shi)與多任務(wu)(wu)(wu)(wu)提示(shi)微(wei)(wei)調相(xiang)似,但與提示(shi)微(wei)(wei)調讓提示(shi)適應(ying)語(yu)言(yan)大(da)模(mo)型并且讓下(xia)游任務(wu)(wu)(wu)(wu)對齊預訓練(lian)任務(wu)(wu)(wu)(wu)不(bu)同,其是(shi)讓語(yu)言(yan)大(da)模(mo)型對齊理(li)解人類指(zhi)令(ling)并按(an)照指(zhi)令(ling)要求完成任務(wu)(wu)(wu)(wu),即(ji)在(zai)給定(ding)(ding)指(zhi)令(ling)提示(shi)的(de)情(qing)況下(xia)給出特定(ding)(ding)的(de)回應(ying),其中提示(shi)可(ke)以選擇性(xing)包含一條解釋任務(wu)(wu)(wu)(wu)的(de)指(zhi)令(ling)。指(zhi)令(ling)微(wei)(wei)調研究涉及(ji)指(zhi)令(ling)理(li)解、指(zhi)令(ling)數據獲取和指(zhi)令(ling)對齊等內容。
(1)指令(ling)理(li)解(jie)(jie),指語(yu)(yu)言(yan)大(da)模型(xing)準(zhun)確理(li)解(jie)(jie)人類語(yu)(yu)言(yan)指令(ling)的(de)(de)能力,是語(yu)(yu)言(yan)大(da)模型(xing)執行(xing)指令(ling)完成任務的(de)(de)前(qian)提。為了增強(qiang)對指令(ling)的(de)(de)理(li)解(jie)(jie),許多工作采(cai)用多任務提示(shi)方式對基于指令(ling)描述的(de)(de)大(da)量任務集上對語(yu)(yu)言(yan)大(da)模型(xing)進(jin)行(xing)微調,如FLAN[50]、InstructGPT[21]等,這些模型(xing)在未見(jian)的(de)(de)任務上顯示(shi)出優越的(de)(de)零(ling)樣本性能。
(2)指(zhi)令(ling)數(shu)(shu)據(ju)(ju)獲取(qu),指(zhi)如何構(gou)(gou)建(jian)(jian)(jian)包含多(duo)樣性(xing)的(de)(de)任務指(zhi)令(ling)數(shu)(shu)據(ju)(ju)。指(zhi)令(ling)數(shu)(shu)據(ju)(ju)構(gou)(gou)建(jian)(jian)(jian)常見(jian)有三種方(fang)式:i)基(ji)(ji)于(yu)公開(kai)人工(gong)標注(zhu)數(shu)(shu)據(ju)(ju)構(gou)(gou)建(jian)(jian)(jian),代(dai)表指(zhi)令(ling)數(shu)(shu)據(ju)(ju)集包括1616種不(bu)同任務的(de)(de)Super-Natural Instruction[51]、2000種不(bu)同NLP任務的(de)(de)OPT-IML[52]。ii)借助(zhu)語(yu)言(yan)大模型(xing)(xing)的(de)(de)自動生成(cheng)構(gou)(gou)建(jian)(jian)(jian),如Unnatural Instructions[53],通過(guo)種子指(zhi)令(ling)作為提(ti)示讓(rang)語(yu)言(yan)大模型(xing)(xing)生成(cheng)新(xin)的(de)(de)指(zhi)令(ling)描述(shu)和問題,然后再輸入(ru)到模型(xing)(xing)讓(rang)其輸出回(hui)答。iii)基(ji)(ji)于(yu)人工(gong)標注(zhu)方(fang)法,如ChatGPT在人工(gong)標注(zhu)指(zhi)令(ling)的(de)(de)基(ji)(ji)礎上通 過(guo)GPT-3、InstructGPT等在線平臺收集用戶真實指(zhi)令(ling)數(shu)(shu)據(ju)(ju)。
智能服務機器人 |