近日,海豚智能與牛津大學(xué)、劍橋大學(xué)與北京航空航天大學(xué)等合作伙伴共同發(fā)布大模型測評基準(zhǔn)U2-Bench。這是專為大模型超聲圖像理解能力設(shè)計的多任務(wù)測評基準(zhǔn)。U2-Bench 收錄了7,241例來自15個解剖部位的病例,覆蓋疾病診斷、病灶定位、報告生成等8大任務(wù)、50 個臨床場景,以此來全面、客觀、準(zhǔn)確的評估多模態(tài)大模型在復(fù)雜超聲數(shù)據(jù)上的表現(xiàn)。
在最新測試中,海豚智能的超聲大模型Dolphin-V1在U2-Bench上綜合得分(U2-Score)為0.4748。其中模型在超聲標(biāo)準(zhǔn)切面識別任務(wù)上表現(xiàn)優(yōu)異,對于心臟與胎兒的標(biāo)準(zhǔn)切面識別的準(zhǔn)確率超過85%。
“U2-Bench 的誕生離不開海豚智能這群富有創(chuàng)造力的年輕人們的努力。”法國國家技術(shù)科學(xué)院院士,逸超醫(yī)療董事長雅克·蘇凱表示,“很高興看到他們?yōu)槌曨I(lǐng)域帶來的改變,這將成為超聲AI研究的新篇章。”
英國皇家學(xué)會副主席,牛津大學(xué)終身教授Alison Noble 院士表示,“公開統(tǒng)一的測評基準(zhǔn)對于超聲大模型走向臨床應(yīng)用至關(guān)重要。”
海豚智能創(chuàng)始人,CEO勒安捷表示:“U2-Bench 不僅填補(bǔ)了醫(yī)療超聲大模型領(lǐng)域評測的空白,更為大模型在超聲領(lǐng)域的應(yīng)用帶來了更多的可能性。
作為一家醫(yī)學(xué)影像大模型公司,海豚智能認(rèn)為實(shí)現(xiàn)技術(shù)在醫(yī)療場景中的落地至關(guān)重要,這也是海豚智能強(qiáng)調(diào)要將臨床洞見融入到AI模型的研發(fā)流程中的關(guān)鍵原因。未來,海豚智能將進(jìn)一步推進(jìn)模型的落地,繼續(xù)與合作伙伴們共建臨床上高效、可信的超聲大模型。
編輯:郭成