都說醫(yī)療、金融等專業(yè)領(lǐng)域的語料數(shù)據(jù)稀缺,這會(huì)制約AI大模型的發(fā)展——那能不能讓兩個(gè)ChatGPT對(duì)聊,聊出點(diǎn)數(shù)據(jù)出來?
近日,天橋腦科學(xué)研究院(TCCI)主辦了AI For Brain Science系列會(huì)議第二期—— “面向AI模型的數(shù)據(jù)生成方法及其對(duì)醫(yī)療領(lǐng)域的啟示”。
【資料圖】
在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授吳夢玥主持下,三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語言模型數(shù)據(jù)瓶頸的看法和實(shí)踐。
快速構(gòu)建專屬GPT
國際上一項(xiàng)研究評(píng)估指出,ChatGPT回答癌癥相關(guān)問題的水平已經(jīng)與美國國家癌癥研究所的回答持平。不過,ChatGPT只能通過受限的應(yīng)用程序編程接口訪問;并且涉及到個(gè)人醫(yī)療,人們也普遍不希望將自己的隱私信息分享給第三方公司。
針對(duì)這樣的難題,加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團(tuán)隊(duì)的合作者提出了一種能自動(dòng)生成高質(zhì)量多輪聊天語料庫的流程,利用ChatGPT與其自身進(jìn)行對(duì)話,生成對(duì)話數(shù)據(jù),再基于產(chǎn)生的對(duì)話數(shù)據(jù)調(diào)優(yōu)、增強(qiáng)開源的大型語言模型。他們從而獲得了高質(zhì)量的專屬模型“白澤”,并在數(shù)天前推出了2.0版本。這個(gè)名字的靈感來源是中國古代傳說中的一種神獸,“能言語,達(dá)知萬物之情”。
許燦文介紹,“白澤”在這個(gè)過程中并沒有學(xué)會(huì)新的知識(shí),只是提取了大模型中的特定數(shù)據(jù),并且保留了ChatGPT “分點(diǎn)作答”“拒絕回答”等語言能力。這在專業(yè)上被比喻為一種“蒸餾”。進(jìn)一步地,他們提出了反饋?zhàn)哉麴s的概念,即利用ChatGPT當(dāng)教官,對(duì)“白澤”回答的結(jié)果進(jìn)行評(píng)分排序,從而進(jìn)一步提高了“白澤”模型的性能。
許燦文認(rèn)為,“白澤”通過自動(dòng)化的知識(shí)蒸餾,在特定領(lǐng)域達(dá)到ChatGPT的能力,成本卻遠(yuǎn)遠(yuǎn)低于ChatGPT,兼具經(jīng)濟(jì)意義和實(shí)用意義。在醫(yī)療領(lǐng)域,本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮,輔助患者診療。
大模型優(yōu)化醫(yī)療文本挖掘
萊斯大學(xué)博士生唐瑞祥和合作者同樣基于大模型提出了一種新的數(shù)據(jù)生成策略,并在命名實(shí)體識(shí)別、關(guān)系提取等經(jīng)典的醫(yī)療文本挖掘任務(wù)上取得了更佳表現(xiàn)。
ChatGPT具有創(chuàng)造性的寫作能力,在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識(shí)密集型領(lǐng)域表現(xiàn)出色。然而,具體到醫(yī)療文本挖掘,他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù),表現(xiàn)并不總是優(yōu)秀,也可能引發(fā)隱私問題。
唐瑞祥等提出了一種新策略:利用大型模型生成大量醫(yī)療數(shù)據(jù),再通過小型模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示,相較于直接利用大型模型執(zhí)行下游任務(wù),這一新策略能夠取得更出色的效果,同時(shí)因?yàn)槟P蛿?shù)據(jù)在本地,也大幅降低了潛在的隱私風(fēng)險(xiǎn)。
他們進(jìn)一步指出,隨著開源大模型數(shù)量的增加和大模型能力的提升,其產(chǎn)生的文本數(shù)據(jù)與人類產(chǎn)生的文本數(shù)據(jù)的差別將越來越小,發(fā)展檢測二者差別的技術(shù)手段將是一項(xiàng)富有挑戰(zhàn)性的工作?,F(xiàn)有的兩種檢測手段,無論是黑盒檢測——直接比較大模型生成的文本數(shù)據(jù)與人類生成的文本數(shù)據(jù)(比如比較高頻詞分布),還是白盒檢測——開發(fā)者在生成文本上做標(biāo)簽,在未來都可能失效。能否有效地檢測出數(shù)據(jù)是不是GPT生成的,將影響到廣大用戶對(duì)大模型AI的信任程度。
大模型時(shí)代數(shù)據(jù)生成不一樣
從歷史演變的角度來看,在沒有GPT的時(shí)代,科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題?大模型又帶來了哪些新趨勢?
上海交通大學(xué)博士生曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時(shí)代的幾大新趨勢:首先是構(gòu)建更加通用的模型,以確保其能夠應(yīng)用于多樣化的任務(wù)——這意味著模型需要具備廣泛的適應(yīng)性和泛化能力;其次是從特定任務(wù)出發(fā),進(jìn)一步精細(xì)化地處理,例如在醫(yī)療領(lǐng)域,甚至可以針對(duì)特定類型的抑郁癥進(jìn)行專業(yè)化的任務(wù)處理,提供更加精準(zhǔn)和個(gè)性化的解決方案;最后,數(shù)據(jù)生成和模型訓(xùn)練的過程將從分離走向融合,而為了保證數(shù)據(jù)質(zhì)量的硬性過濾也將逐漸被軟性控制所取代。
“數(shù)據(jù)生成研究與應(yīng)用的發(fā)展,為大模型AI走向各個(gè)專業(yè)領(lǐng)域,尤其是醫(yī)療領(lǐng)域提供廣闊的可能性?!辈苋鹕f。
記者獲悉,TCCI致力于支持全球范圍內(nèi)的腦科學(xué)交流。AI For Brain Science系列會(huì)議致力于促進(jìn)AI與腦科學(xué)研究人員的討論合作,將持續(xù)聚焦領(lǐng)域內(nèi)的數(shù)據(jù)瓶頸和關(guān)鍵痛點(diǎn),促進(jìn)前沿AI技術(shù)在腦科學(xué)領(lǐng)域發(fā)揮更大的價(jià)值。
新民晚報(bào)記者 郜陽
百事通!醫(yī)療等垂直領(lǐng)域語料數(shù)據(jù)稀缺 能讓倆ChatGPT對(duì)聊出來嗎?青年科學(xué)家這樣認(rèn)為
三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語言模型數(shù)據(jù)瓶頸的看法和實(shí)踐。
【全球時(shí)快訊】神舟十六號(hào)載人飛行任務(wù)航天員乘組出征儀式在酒泉衛(wèi)星發(fā)射中心舉行
5月30日,神舟十六號(hào)載人飛行任務(wù)航天員乘組出征儀式在酒泉衛(wèi)星發(fā)射中心問天閣圓夢園廣場舉行。四川觀察(
慶“六一”活動(dòng)豐富多彩 全球快播報(bào)
5月29日,我市各小學(xué)、幼兒園舉辦了形式多樣、內(nèi)容豐富的慶“六一”主題活動(dòng)。市育才小學(xué)通過少先隊(duì)入隊(duì)活
長江證券:后期豬價(jià)低迷或?qū)⒊掷m(xù) 行業(yè)產(chǎn)能去化趨勢確定 建議積極布局生豬板塊性行情
長江證券5月30日研報(bào)表示,當(dāng)下養(yǎng)殖股估值仍處于底部,牧原股份和溫氏股份頭均市值分別僅為3680和3759元,
世界熱訊:黑八奇跡延續(xù) 熱火勝綠軍晉級(jí)總決賽 即將對(duì)陣掘金!
音頻解說黑八奇跡延續(xù)熱火勝綠軍晉級(jí)總決賽即將對(duì)陣掘金!今天的關(guān)注度非常高,直接上了熱搜榜,那么具體的
每日消息!懵了!這地呼吁市民每月洗澡2-4次?俄羅斯一則大消息,1800億巨頭急速漲...
缺電缺水正在成為需要解決的問題!“廣東急了”突然沖上百度熱搜,原因是云南發(fā)電量驟降。今年4月,云南省
百事通!醫(yī)療等垂直領(lǐng)域語料數(shù)據(jù)稀缺 能讓倆ChatGPT對(duì)聊出來嗎?青年科學(xué)家這樣認(rèn)為
三名青年科學(xué)家分享了關(guān)于破解大規(guī)模語言模型數(shù)據(jù)瓶頸的看法和實(shí)踐。
【全球時(shí)快訊】神舟十六號(hào)載人飛行任務(wù)航天員乘組出征儀式在酒泉衛(wèi)星發(fā)射中心舉行
5月30日,神舟十六號(hào)載人飛行任務(wù)航天員乘組出征儀式在酒泉衛(wèi)星發(fā)射中心問天閣圓夢園廣場舉行。四川觀察(
慶“六一”活動(dòng)豐富多彩 全球快播報(bào)
5月29日,我市各小學(xué)、幼兒園舉辦了形式多樣、內(nèi)容豐富的慶“六一”主題活動(dòng)。市育才小學(xué)通過少先隊(duì)入隊(duì)活
熱頭條丨利亞德(300296.SZ):目前深圳產(chǎn)能占全部產(chǎn)能比重不足四成,暫無搬離計(jì)劃
格隆匯5月30日丨有投資者在投資者互動(dòng)平臺(tái)向利亞德(300296 SZ)提問,“洲明,艾比森,聯(lián)建等很多行內(nèi)企業(yè)都
全球觀熱點(diǎn):G7,欠南方國家的“債”何時(shí)還?(觀象臺(tái))
日,慈善機(jī)構(gòu)樂施會(huì)發(fā)布報(bào)告稱,組成七國集團(tuán)(G7)的7個(gè)富裕國家曾承諾向貧窮國家提供約13萬億美元的發(fā)展
全球最新:日照之行,保姆級(jí)帶娃趕海攻略
最近的天氣很適合趕海,趁著周末帶著家里的小朋友出來體驗(yàn)趕海,雖然很累但大人和小孩都玩的很開心?。?zhǔn)備
申花新援首秀驚艷球迷
日前,上海申花在新賽季中超第十輪跟實(shí)力不俗的河南隊(duì)相遇。這場比賽申花在攻防兩端發(fā)揮一般,并沒有全面壓
長江證券:后期豬價(jià)低迷或?qū)⒊掷m(xù) 行業(yè)產(chǎn)能去化趨勢確定 建議積極布局生豬板塊性行情
長江證券5月30日研報(bào)表示,當(dāng)下養(yǎng)殖股估值仍處于底部,牧原股份和溫氏股份頭均市值分別僅為3680和3759元,
環(huán)球快看點(diǎn)丨莫斯科遭無人機(jī)襲擊,被擊落時(shí)劇烈爆炸!俄邊境州24小時(shí)內(nèi),遭烏軍攻...
據(jù)環(huán)球網(wǎng)5月30日援引俄羅斯衛(wèi)星通訊社最新消息,莫斯科市長索比亞寧表示,今天凌晨,俄羅斯首都莫斯科的幾
西安出發(fā),去延安銀川內(nèi)蒙自駕往返10天求推薦 實(shí)時(shí)
1、西安出發(fā),去延安銀川內(nèi)蒙自駕往返10天求推薦我八月份也準(zhǔn)備走這條路線,我的計(jì)劃是從西安出發(fā)之一站到
熱鬧的“五道口德比” 發(fā)展中的校園籃球
熱鬧的“五道口德比”發(fā)展中的校園籃球,張慶鵬,cba,朱芳雨,校園籃球,五道口德比
世界熱訊:黑八奇跡延續(xù) 熱火勝綠軍晉級(jí)總決賽 即將對(duì)陣掘金!
音頻解說黑八奇跡延續(xù)熱火勝綠軍晉級(jí)總決賽即將對(duì)陣掘金!今天的關(guān)注度非常高,直接上了熱搜榜,那么具體的
周動(dòng)用武警叛變 環(huán)球聚看點(diǎn)
1、周可以指揮武警,他們個(gè)個(gè)身懷絕技能夠飛檐走壁。2、而徐是軍人,他的手下飛機(jī)大炮輪船火箭能夠上天入地
被問"是否會(huì)赦免特朗普" 拜登忍不住笑了......|天天即時(shí)
據(jù)美媒報(bào)道,美國總統(tǒng)拜登當(dāng)?shù)貢r(shí)間29日被記者問及“是否會(huì)赦免特朗普”時(shí),會(huì)心一笑隨后轉(zhuǎn)身離開。據(jù)報(bào)道佛
環(huán)球熱點(diǎn)!朝鮮宣布!將于6月發(fā)射軍事偵察衛(wèi)星一號(hào)
據(jù)朝中社30日?qǐng)?bào)道,朝鮮勞動(dòng)黨中央軍事委員會(huì)副委員長李炳哲29日表示,朝鮮將于6月發(fā)射軍事偵察衛(wèi)星一號(hào)。
全球熱訊:科索沃塞族抗議者與北約部隊(duì)發(fā)生暴力沖突
據(jù)路透社報(bào)道,當(dāng)?shù)貢r(shí)間5月29日,科索沃北部塞族人集會(huì)抗議阿族當(dāng)選城鎮(zhèn)長官上任。在此過程中,北約駐科索
上海東航置業(yè):暫停《云錦東方云筑》開盤銷售搖號(hào)排序活動(dòng)_環(huán)球速看料
上海東航置業(yè)有限公司發(fā)布關(guān)于暫?!对棋\東方云筑》開盤銷售搖號(hào)排序活動(dòng)及后續(xù)相關(guān)活動(dòng)的通知。通知稱,為
天天滾動(dòng):愛是一顆幸福的子彈結(jié)局_漆黑的子彈結(jié)局是什么
1、大結(jié)局剃澤彰磨(白頭發(fā)的那個(gè))和布施翠死了。2、蓮太郎和延珠沒事。本文就為大家分享到這里,希望小伙
每日消息!懵了!這地呼吁市民每月洗澡2-4次?俄羅斯一則大消息,1800億巨頭急速漲...
缺電缺水正在成為需要解決的問題!“廣東急了”突然沖上百度熱搜,原因是云南發(fā)電量驟降。今年4月,云南省
個(gè)人所得稅匯繳操作流程是什么?2023個(gè)人所得稅起征點(diǎn)是多少?
個(gè)人所得稅匯繳操作流程是什么?個(gè)人所得稅匯繳操作流程如下:1、計(jì)算應(yīng)繳納的個(gè)人所得稅金額:根據(jù)稅法規(guī)定,個(gè)人所得稅應(yīng)按月計(jì)算和繳納。
飯店?duì)I業(yè)執(zhí)照注銷流程是什么?飯店?duì)I業(yè)執(zhí)照注銷還要交稅嗎?
飯店?duì)I業(yè)執(zhí)照注銷流程是什么?飯店?duì)I業(yè)執(zhí)照注銷流程如下:1、提交注銷申請(qǐng):飯店?duì)I業(yè)執(zhí)照注銷申請(qǐng)需要通過線上或線下渠道提交給工商行政管理
轉(zhuǎn)移性收入具體包括哪些內(nèi)容?轉(zhuǎn)移性收入和財(cái)產(chǎn)性收入的區(qū)別?
轉(zhuǎn)移性收入具體包括哪些內(nèi)容?轉(zhuǎn)移性收入是指由政府或其他機(jī)構(gòu)通過轉(zhuǎn)移支付方式向個(gè)人或家庭提供的收入,包括以下內(nèi)容:1、社會(huì)保障金:政府
最新濟(jì)南職工醫(yī)保報(bào)銷政策?濟(jì)南職工醫(yī)保住院報(bào)銷比例是多少?
最新濟(jì)南職工醫(yī)保報(bào)銷政策?濟(jì)南職工醫(yī)保報(bào)銷政策具體如下:1、職工醫(yī)保的住院報(bào)銷比例,根據(jù)住院費(fèi)用的高低劃分,一千三百元至三萬元之間,
詐騙為什么公安說不需要請(qǐng)律師?警察一般怎么處理詐騙案?
詐騙為什么公安說不需要請(qǐng)律師?詐騙公安說不用請(qǐng)律師的,可能是因?yàn)樵p騙金額較小,不構(gòu)成犯罪。但是如果詐騙金額達(dá)到了5000元以上的,最好還是
網(wǎng)上被騙1000可以申請(qǐng)報(bào)案嗎?詐騙案應(yīng)該找哪個(gè)部門最有效?
網(wǎng)上被騙1000可以申請(qǐng)報(bào)案嗎?一、網(wǎng)絡(luò)詐騙多少錢可以立案,立案標(biāo)準(zhǔn)是什么?1、網(wǎng)絡(luò)詐騙數(shù)額2000-5000元,達(dá)到詐騙罪標(biāo)準(zhǔn)。2、數(shù)額較小,沒
詐騙不足3000元警察會(huì)管嗎?詐騙不足2000給予立案嗎?
詐騙不足3000元警察會(huì)管嗎?詐騙不足3000 警察會(huì)管的。根據(jù)《中華人民共和國治安管理處罰法》的規(guī)定,輕微的詐騙行為仍然屬于違法行為,公
全球觀天下!胡小林出家視頻大全_胡小林十念法
1、十念法,即印光法師慈悲為末法眾生開示的十念計(jì)數(shù)法 此法含有天臺(tái)之止觀攝心妙用 在《增廣印光文
蘇州在職公積金怎么快速領(lǐng)???蘇州在職員工如何提取公積金?
蘇州在職公積金怎么快速領(lǐng)取?蘇州在職公積金提取流程如下:1、按規(guī)定準(zhǔn)備資料想要提取公積金,需要客戶按照公積金中心的要求準(zhǔn)備相應(yīng)的資料
股東可以隨時(shí)變更法人嗎?股東可以變更出資方式嗎?
股東可以隨時(shí)變更法人嗎?股東可以變更法人。股東可以提議對(duì)法人進(jìn)行變更,然后由公司的股東進(jìn)行表決,表決通過的辦理法人變更登記。股東變
有職工醫(yī)保還要買商業(yè)保險(xiǎn)嗎?商業(yè)保險(xiǎn)到底有沒有必要買?
有職工醫(yī)保還要買商業(yè)保險(xiǎn)嗎?有職工醫(yī)保還有必要買商業(yè)保險(xiǎn),醫(yī)保和商業(yè)保險(xiǎn)實(shí)際上是互為補(bǔ)充的關(guān)系。職工醫(yī)保和商業(yè)保險(xiǎn)的區(qū)別如下:1、商
被問"是否會(huì)赦免特朗普" 拜登忍不住笑了......|天天即時(shí)
據(jù)美媒報(bào)道,美國總統(tǒng)拜登當(dāng)?shù)貢r(shí)間...
環(huán)球熱點(diǎn)!朝鮮宣布!將于6月發(fā)射軍事偵察衛(wèi)星一號(hào)
據(jù)朝中社30日?qǐng)?bào)道,朝鮮勞動(dòng)黨中央...
全球熱訊:科索沃塞族抗議者與北約部隊(duì)發(fā)生暴力沖突
據(jù)路透社報(bào)道,當(dāng)?shù)貢r(shí)間5月29日,...
上海東航置業(yè):暫?!对棋\東方云筑》開盤銷售搖號(hào)排序活動(dòng)_環(huán)球速看料
上海東航置業(yè)有限公司發(fā)布關(guān)于暫停...
62%受訪者對(duì)新能源汽車基本了解 汽車“里程焦慮”較為突出
近日,重慶市萬州區(qū)、開州區(qū)、城口...
聚焦!2022年全國“綠色產(chǎn)品認(rèn)證與標(biāo)識(shí)宣傳周”正式啟動(dòng)
9月26日,由市場監(jiān)管總局主辦的202...
昆明市體育中心足球錦標(biāo)賽落幕 組委會(huì)已經(jīng)在為新賽季做準(zhǔn)備
9月18日,全民健身·2021昆明市體...
中安街道種植了100畝萬壽菊 每畝產(chǎn)值是種植包谷的兩倍多
時(shí)下,正是萬壽菊收獲的季節(jié)。走進(jìn)...