人們好像覺得生成式人工智能的發展快極了,但安省倫敦西安大略大學研究人員的最新研究顯示,聊天機械人在提供準確的醫療訊息方面,還存在很多不足。
這項同行評議的研究於7月底發表在《公共科學圖書館綜合》(PLOS One)雜誌上,旨在調查ChatGPT在醫學教育中的診斷準確性和實用性。
ChatGPT由OpenAI開發,它使用一個大型語言模型,該模型是根據從互聯網上收集的大量數據訓練而成,可以快速生成會話文本,回答用戶的詢問。
西安大略大學兒科學助理教授、該研究的首席研究員阿姆里特·基爾帕拉尼(Amrit Kirpalani)說:「這種東西無處不在。」
「我們已經看到,用它通過了執照考試,用ChatGPT通過了醫學院入學考試(MCAT)。」他說,「我們想知道,它如何處理更複雜的病例,那些我們在醫學上看到的複雜病例,以及它如何使其答案合理化?」
在這項研究中,ChatGPT給出了150個複雜的臨床病例,並被提示在多項選擇中選擇正確的診斷,然後提供一個解釋,說明它是如何得到答案的。
基爾帕拉尼說,在49%的情況下,它給出的答案正確。研究人員發現,不管答案是對是錯,它都善於簡化解釋,讓人相信它的答案。
「它可以被用作一種工具,但我認為,它必須被用作正確的工具。在這一點上,它不應該被用於醫療建議。」他說,他承認,它可能在其它方面被證明是有用的。
「事實上,它非常擅長用非常簡單的方式解釋事情,我們可以利用它進行教育。如果我們適當的培訓它,並對它所說的話進行監督,它幾乎可以像一個私人導師嗎?」
這項研究是在2023年使用ChatGPT和GPT-3.5大語言模型進行的,該模型後來被GPT-4和GPT-40所取代。目前尚不清楚如果使用這些模型,ChatGPT的回答是否會更準確。
倫敦人威爾·蒂爾曼(Will Tillmann)是數百萬試用過ChatGPT的人之一,他說,他發現它在重寫段落和起草工作郵件方面很有用,「但我認為,持懷疑態度可能很重要」。
他想知道,如果允許特定領域的專家,比如醫學專家,來驗證ChatGPT提供的訊息,是否有助於改進它,使它更準確。
基爾帕拉尼說,他的研究結果表明,需要更廣泛的人工智能知識,讓公眾了解人工智能的好處和缺陷。
自從ChatGPT於2022年底推出以來,人們一直擔心它的準確性和錯誤資訊,就像Google的Gemini和X的Grok等類似的聊天機械人一樣,它們也使用大型語言模型。
今年早些時候,哥倫比亞大學的一個研究小組進行的測試證實了這些擔憂。
五種大型語言模型,包括GPT-4、Gemini和Meta的Llama 2,給出與美國初選相關的回答。參與者認為聊天機械人給出的回答中有一半以上錯誤,40%被歸類為有害和不準確的。
今年5月,OpenAI表示,正在更新ChatGPT,以便將用戶引導到官方來源獲取選民訊息。#
------------------
💎成為會員 📧訂閱電子報
https://hk.epochtimes.com/subscribe
🔔下載大紀元App 接收即時新聞通知
🍎iOS:https://bit.ly/epochhkios
🤖Android:https://bit.ly/epochhkand