水印法是在生成AI文本時(shí)打上“水印”。國(guó)家互聯(lián)網(wǎng)信息辦公室、工信部、公安部、國(guó)家廣電總局已發(fā)布《人工智能生成合成內(nèi)容標(biāo)識(shí)辦法》,將于9月起實(shí)施,要求相關(guān)服務(wù)提供者對(duì)生成合成內(nèi)容添加顯式標(biāo)識(shí),或在生成合成內(nèi)容的文件元數(shù)據(jù)中添加隱式標(biāo)識(shí),就屬于此類。這種方法的準(zhǔn)確率高,但存在標(biāo)記被人為弱化甚至移除的風(fēng)險(xiǎn)。
目前的Fast-DetectGPT演示版使用的是開源小語(yǔ)言模型GPT-Neo 2.7B,說(shuō)它“小”,是因?yàn)槟P偷膮?shù)只有27億個(gè)。如果使用更強(qiáng)的模型,比如671B的滿血版DeepSeek-R1,理論上識(shí)別準(zhǔn)確率就會(huì)更高。
澎湃新聞:那么,“阿爾法圍棋”(AlphaGo)為什么能屢屢下出人類想不到的招數(shù)?而且2016年韓國(guó)李世石九段在番棋戰(zhàn)中僅有的一局中盤勝是人類的“最后一勝”,那以后再也沒有贏過(guò)AlphaGo?
張?jiān)溃篟1通過(guò)較長(zhǎng)的推理鏈進(jìn)行思考和規(guī)劃,生成的文本內(nèi)容與此前通用模型的輸出分布有差異。我們猜測(cè),這可能是R1在強(qiáng)化學(xué)習(xí),探索新的推理路徑時(shí)產(chǎn)生了分布變化,使現(xiàn)有檢測(cè)器的工作難度增加。
不妨這樣理解:作為AI,F(xiàn)ast-DetectGPT面對(duì)被測(cè)文本,先在不改變?cè)獾那闆r下改寫,再將自己的文本與被測(cè)文本對(duì)比,如果被測(cè)文本是AI寫的,相似性會(huì)比較顯著。
6163银河电子游戏“考試和分?jǐn)?shù)不應(yīng)該是學(xué)生生活的全部。除了分?jǐn)?shù),我還可以去關(guān)心窗前第一排柳芽的萌動(dòng);去欣賞天上金黃的滿月,讓后羿嫦娥、吳剛玉兔的傳說(shuō)在心中流過(guò);去盛裝的西湖邊騎行,淋一點(diǎn)小雨,吹無(wú)數(shù)的風(fēng)……可是,家長(zhǎng)的教誨又讓人無(wú)法反駁:‘你知道嗎,中考差一分,就是一個(gè)操場(chǎng)的人!’
張?jiān)?003年畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)專業(yè),此后在牛津大學(xué)獲得該專業(yè)碩士、博士學(xué)位,在劍橋大學(xué)從事博士后研究,現(xiàn)為西湖大學(xué)終身教授,主要研究自然語(yǔ)言處理、文本挖掘、機(jī)器學(xué)習(xí)和人工智能。鮑光勝是他的博士生,曾在微軟(中國(guó))、阿里巴巴工作多年,三年前進(jìn)入西湖大學(xué)。今年,他們關(guān)于Fast-DetectGPT的私有大模型擴(kuò)展Glimpse的論文已被4月將在新加坡舉行的2025國(guó)際表征學(xué)習(xí)大會(huì)收錄。
Fast-DetectGPT在開源模型GPT-Neo 2.7B上運(yùn)行,無(wú)需訓(xùn)練即可識(shí)別各種AI大語(yǔ)言通用模型生成的文本內(nèi)容,對(duì)GPT3.5、GPT4生成的文本,識(shí)別率分別達(dá)到96%、90%。與斯坦福大學(xué)2023年提出的DetectGPT相比,檢測(cè)速度提高340倍,識(shí)別錯(cuò)誤率降低75%。去年,以鮑光勝為第一作者、西湖大學(xué)工學(xué)院副院長(zhǎng)張?jiān)澜淌跒橥ㄓ嵶髡叩南嚓P(guān)論文在深度學(xué)習(xí)領(lǐng)域頂級(jí)會(huì)議——2024國(guó)際表征學(xué)習(xí)大會(huì)上發(fā)表。
澎湃新聞:Fast-DetectGPT檢測(cè)DeepSeek-v3生成文本的準(zhǔn)確率達(dá)到89%,對(duì)DeepSeek-R1的檢測(cè)準(zhǔn)確率則較低。我們看到,類似R1的推理模型正成為大模型發(fā)展的新方向,F(xiàn)ast-DetectGPT會(huì)有什么優(yōu)化和改進(jìn)?
技術(shù)總是雙刃劍,模仿、鑒別會(huì)是持久的“攻防戰(zhàn)”。作為Fast-DetectGPT的私有大模型擴(kuò)展,Glimpse可以檢測(cè)26種語(yǔ)言的文本,并有更高的識(shí)別準(zhǔn)確率??偟恼f(shuō),AI模型生成的文本會(huì)越來(lái)越逼真,但人類使用AI程序?qū)ξ谋具M(jìn)行識(shí)別的能力也將越來(lái)越強(qiáng)大。
AlphaGo沒有心理波動(dòng),這也是它在人機(jī)對(duì)弈中的優(yōu)勢(shì)之一,但寫作中最可貴的可能就是情感、是“心理波動(dòng)”。另一方面,“寫得好”也沒有邊界,不存在止境,無(wú)法枚舉。
張?jiān)溃褐饕斜O(jiān)督分類器法、零樣本分類器法、水印法。使用監(jiān)督分類器法要收集大量已知數(shù)據(jù),包括AI生成文本和人類創(chuàng)作文本,做分類學(xué)習(xí)。對(duì)訓(xùn)練時(shí)見過(guò)的大語(yǔ)言模型生成的文本,它的識(shí)別準(zhǔn)確率較高;但遇到未見過(guò)的模型生成的文本,識(shí)別準(zhǔn)確率下降。
張?jiān)溃簢宓淖兓跓o(wú)窮,但結(jié)果只有兩種,或勝或負(fù)(和局極其偶然),弈棋規(guī)則也很明確。在這種情況下,AI程序的“算力”得以充分發(fā)揮,AlphaGo在訓(xùn)練中學(xué)習(xí)了幾萬(wàn)份專業(yè)棋手的對(duì)弈棋譜,??還進(jìn)行了三千萬(wàn)盤自我對(duì)決。而保持高強(qiáng)度比賽狀態(tài)的世界頂尖棋手,平均每年的職業(yè)對(duì)局不超過(guò)一百盤,即使加上訓(xùn)練對(duì)局、打譜,其數(shù)量也完全不在同一量級(jí)。
所謂“生成”文本,就是機(jī)器通過(guò)上文來(lái)選擇下文,選擇依據(jù)是詞匯、句式等在其學(xué)習(xí)的數(shù)據(jù)集中的使用概率,概率越大,越可能被選中——可以想象一下搜索引擎中跳動(dòng)的下拉提示框。
據(jù)公安部網(wǎng)絡(luò)安全局官方公眾號(hào),因使用AI捏造“頂流明星在澳門輸了10億”的謠言,一名男子被處以行政拘留8日。據(jù)介紹,3月10日,網(wǎng)民徐某強(qiáng)為博流量、謀取非法利益,使用軟件“某書”中AI智慧生成功能,輸入熱點(diǎn)詞,制作“頂流明星被曝境外豪賭輸光十億身價(jià)引發(fā)輿論海嘯”的謠言信息并在網(wǎng)上發(fā)布,造成謠言迅速擴(kuò)散,引發(fā)大量網(wǎng)民議論,誘發(fā)相關(guān)謠言、話題等頻繁登上熱搜熱榜,嚴(yán)重?cái)_亂公共秩序。
Fast-DetectGPT、DetectGPT屬于零樣本分類器法,無(wú)需收集數(shù)據(jù)進(jìn)行訓(xùn)練,主要通過(guò)AI文本的特征來(lái)“找同類”。
3月24日,西湖大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室的博士生鮑光勝打開實(shí)驗(yàn)室團(tuán)隊(duì)研發(fā)的AI應(yīng)用程序Fast-DetectGPT,將開頭那段“我的煩惱”的文字輸入,程序很快給出判斷結(jié)果:由AI生成的概率為19%。
2023年2月16日,“杭州市政府3月1號(hào)取消機(jī)動(dòng)車依尾號(hào)限行”的“新聞”瘋傳。據(jù)浙江之聲報(bào)道,當(dāng)天杭州某小區(qū)業(yè)主群討論ChatGPT,一位業(yè)主開玩笑說(shuō)嘗試用它寫“杭州取消限行”的“新聞”,在群里直播了用ChatGPT寫作的過(guò)程,并把文章發(fā)在群里,其他業(yè)主不明就里,截圖轉(zhuǎn)發(fā)。
Fast-DetectGPT的工作基于一個(gè)前提:人類和AI通用模型在文本形成中有不同的選擇。人類寫文章時(shí)的選擇比較多樣,個(gè)體間的差異大;而不同AI通用模型間的差異不明顯——因?yàn)樵谡Z(yǔ)料庫(kù)上預(yù)訓(xùn)練的通用模型反映的是人類作為集體的寫作行為,生成文本時(shí)也傾向于選擇有更高模型概率的詞匯、句式。因此,兩種文本在詞匯使用、句子結(jié)構(gòu)、語(yǔ)法復(fù)雜度、語(yǔ)義連貫性等方面有不同,我們提取覆蓋這些區(qū)別特征的統(tǒng)計(jì)量“條件概率曲率”,分析它們?cè)趦深愇谋镜姆植?,?dāng)被測(cè)文本的統(tǒng)計(jì)特征值主要落在AI生成文本的分布中,則大概率為AI生成的。
AI通用模型的文本生成能力持續(xù)進(jìn)階,已經(jīng)到了人無(wú)法準(zhǔn)確辨別的程度,因此,其不當(dāng)使用可能帶來(lái)的虛假新聞、學(xué)術(shù)不端行為、惡意產(chǎn)品評(píng)價(jià)等問題引起社會(huì)高度關(guān)注。
張?jiān)溃喝祟惖乃伎际且蚬缘摹鼇?lái)自于行為及其反饋、后果、互動(dòng)等,而通用模型的思考偏向統(tǒng)計(jì)性。寫文章,AI的寫法是學(xué)習(xí)現(xiàn)有數(shù)據(jù),根據(jù)詞與詞之間“共現(xiàn)性”的概率高低等來(lái)選擇下文,缺少“泛化性”,也就是將在訓(xùn)練數(shù)據(jù)集中所習(xí),通過(guò)背后的因果邏輯“舉一隅反三隅”,應(yīng)用到別處,從而獲得分布以外的泛化性。這與創(chuàng)造性的人類寫作有很大區(qū)別。
我問了7個(gè)人,有5個(gè)認(rèn)為由AI生成,主要理由是“辭藻堆砌”。
6163银河电子游戏在哪下載安裝?6163银河电子游戏好用嗎?
作者: 孟州 😼125.83MB
查看474.10MB
查看73.9MB
查看502.39MB
查看
網(wǎng)友評(píng)論更多
11南陽(yáng)w
書寫無(wú)愧于時(shí)代和人民的新篇章——第34屆中國(guó)新聞獎(jiǎng)獲獎(jiǎng)作品和第18屆長(zhǎng)江韜奮獎(jiǎng)獲獎(jiǎng)?wù)邟呙?#128478;🗡
2025-06-05 10:51:04 推薦
187****6240 回復(fù) 184****1089:第34屆中國(guó)新聞獎(jiǎng)、第18屆長(zhǎng)江韜奮獎(jiǎng)評(píng)選結(jié)果揭曉🗣來(lái)自商丘
187****6641 回復(fù) 184****8322:2024年中國(guó)新聞工作者援助項(xiàng)目名單發(fā)布🗨來(lái)自周口
157****9247:按最下面的歷史版本🗯🗳來(lái)自駐馬店
70信陽(yáng)505
重走滇緬路 再敘華僑情(僑界傳真)🗺🗻
2025-06-05 18:54:51 推薦
永久VIP:中國(guó)記協(xié)公示第34屆中國(guó)新聞獎(jiǎng)、第18屆長(zhǎng)江韜奮獎(jiǎng)評(píng)選結(jié)果🗼來(lái)自滎陽(yáng)
158****3164:中國(guó)記協(xié)公示第三十四屆中國(guó)新聞獎(jiǎng)、第十八屆長(zhǎng)江韜奮獎(jiǎng)評(píng)選結(jié)果🗽來(lái)自新鄭
158****6013 回復(fù) 666🗾:關(guān)于公示第18屆長(zhǎng)江韜奮獎(jiǎng)評(píng)選結(jié)果公告🗿來(lái)自登封
16新密yx
關(guān)于公示第34屆中國(guó)新聞獎(jiǎng)評(píng)選結(jié)果的公告😸😹
2025-06-04 18:03:07 不推薦
偃師qf:第十二屆范敬宜新聞教育獎(jiǎng)評(píng)選結(jié)果公示😺
186****5683 回復(fù) 159****8506:人民網(wǎng)主流價(jià)值語(yǔ)料庫(kù)首批入選2024“融媒有技”優(yōu)秀案例😻