绿茶通用站群绿茶通用站群

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

中国科学院信息工程研究所虎嵩林:“攻、检、防”循环推动大模型安全加固

4月26日,在2024中关村论坛年会——数据安全治理与发展(zhǎn)论坛上,中国科学院 信工所研究员虎嵩林(lín)接受包括证券(quàn)时报记者在内的媒体采访时指出,促使大模型遵循人类价值观、服(fú)从人类 意图,规避各类风险,并(bìng)保障数(shù)字和物理空间的应用安全,实现有用性、无害性和诚实性多目标的平衡,已(yǐ)经(jīng)成(chéng)为亟待解决(jué)的世界难题(tí)。需要在现有的技术条件下持(chí)续探索,通过(guò)“攻、检、防”,不(bù)断发现漏洞、自动(dòng)识别并进行持续化(huà)的(de)安全加固,形成(chéng)一个循(xún)环发展的飞轮。敷尔佳2023年度分配预案:拟10派10元>

(中国科学院信工所研究员虎(hǔ)嵩林 郭博昊/摄)

当前(qián),大模型(xíng)正在成 为驱动新(xīn)质生(shēng)产力发展的新动能、人类探(tàn)索未(wèi)知的新(xīn)工具。“大模型不仅可以对话和生成视频、还可以调用(yòng)工具、链接物理(lǐ)设备、并通过与 机(jī)器人结合实现具身智能(néng)。大模型本身(shēn)也正在从人类可利用的 工具客体(tǐ)向认识、改(gǎi)造自然(rán)社会的主体转变。成为数学定(dìng)理证明、科学研究的(de)合作者,成为(wèi)独立运营企业的(de)法律主体。”虎嵩林指出。

在赋能新时代发(fā)展的同(tóng)时(shí),生成式人工智能也给全球带来了(le)前所未有的安(ān)全风险(xiǎn)。比如,数据(jù)方(fāng)面,数据会带来价值偏见、隐私泄露、数据(jù)污染等问题:训练(liàn)数据固有偏见导致模型产生偏见内容;海量训练数(shù)据扩大 了数据安(ān)全和隐私保 护风险。算法方(fāng)面,算法模型生成特性及安全漏洞会引发“幻 觉”或虚假信息、模型遭受攻击(jī)等风(fēng)险。

虎嵩林表示,大模型能力的通用性、潜在的主体地位(wèi)以及应用的深度与广度,也都将进一(yī)步放大其危害程度。包括两位(wèi)图灵奖得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内(nèi)的产学两界 领军人物联名发出的AI风险声明中 ,更将AI可能带来的“毁灭性”的风险,上升到了与流行病以及核战(zhàn)争相提并论的高度。

2023年底敷尔佳2023年度分配预案:拟10派10元《自(zì)然》杂志预测的2024年的重大科学事件中,GPT5的发布以及联合国(guó)人工智能高级(jí)别咨询机构将发布的AI监管相关报告位列其中,反映了(le)全球对协(xié)调人工 智能发(fā)展与安全的重大关切。

“毫无疑问,促使大(dà)模型遵循人(rén)类价值观 、服从人类意图,规避各类风险,并保障(zhàng)数字和物理空间的(de)应用安全,实现(xiàn)有用性(xìng)、无害性和诚实性多目标(biāo)的(de)平 衡,已经成为亟(jí)待解决的世界难题。”虎嵩林表示(shì)。

“大模型的安全(quán)风险主要体现(xiàn)在(zài)无害性(Harmless)和诚(chéng)实(shí)性(Honest)两个方面。”虎嵩林表(biǎo)示,其中,有害(hài)信(xìn)息对应前者,包括价值(zhí)偏见,隐私泄(xiè)露,还有黄(huáng)赌毒、涉(shè)恐涉暴(bào)、仇恨(hèn)、反讽(fěng)、歧(qí)视、刻板印象(xiàng)等等各种信息污染;不实信息对应后者,包括虚假信 息、伪造、欺诈内容(róng)等。

更(gèng)广义地讲,也包括由(yóu)输出信息所直接导致的各类不安全的指 令调(diào)用、智(zhì)能体或者具身智 能机器(qì)人(rén)的恶意行为等。而(ér)算法模型生成特性及(jí)安全漏(lòu)洞会引发“幻觉”,则是一把“双刃(rèn)剑(jiàn)”,既有可能是导致有害、不实信息 的“元凶”,也有可能是科学创新、艺术创意的能力来源。

需要看到,生成式(shì)大(dà)模型特有的预训练、微调、上(shàng)下(xià)文、提示等新的学习范式,使其安全具有了与(yǔ)传统(tǒng)AI安全不同的许多新特点,面临诸多新(xīn)挑(tiāo)战,制约了传统安全方法、经(jīng)验、工具在大模型安全领域发挥效能。

大(dà)模(mó)型安全风(fēng)险的成因既可(kě)以是来自各类训练数据的缺陷或算法的局限性(xìng)等模型内因,也(yě)可 以(yǐ)是利用这些新型(xíng)学习范式的恶意(yì)使用或蓄意攻击等外因。这使得大模型在数据准备、预 训练、微调 对(duì)齐、推理以及应用阶(jiē)段 都会存在各种潜在的风(fēng)险。尽管目前我们在安全理论、大模型(xíng)安全评测、自动化测试、价值观对齐、幻(huàn)觉缓解等方(fāng)面都开展了一系(xì)列的研究和应 用工作,这些领域依然(rán)充满了挑战。

“当下,从理论上,或者说技术上,大模型安全还有很(hěn)多亟待(dài)解决的难(nán)题。”虎(hǔ)嵩林坦言(yán),我们对大模型“智能涌现”的原理还 所知甚(shèn)少,对上下文(wén)学(xué)习、提示(shì)学习、思(sī)维 链等能力的内在(zài)机(jī)理仍(réng)严重缺乏认知。一些研(yán)究工作也证(zhèng)明AI的(de)安(ān)全性无法完全保障,对任意一个(gè)对齐模型总存在一定长度的(de)提示可(kě)以(yǐ)将(jiāng)之攻(gōng)破等,这都极大地制约我们从原理上(shàng)认识(shí)和防御大模型的(de)安全风(fēng)险。

“我(wǒ)们(men)需要在现有的技术条件下持(chí)续(xù)探索,这也是我们设计‘以(yǐ)攻促防、攻防相长’思路,研制Galexy(星河)大 模型安全测评平台的原因,敷尔佳2023年度分配预案:拟10派10元也是举 办首届生成式(shì)人(rén)工智能安全大(dà)赛的初衷。”虎嵩林表(biǎo)示(shì),我们(men)希望(wàng)通过“攻、检、防”,不断发现漏洞、自动识别并(bìng)进(jìn)行(xíng)持续化的安(ān)全加固,形成一个循环发展的飞轮。

校对:祝甜婷

未经允许不得转载:绿茶通用站群 敷尔佳2023年度分配预案:拟10派10元

评论

5+2=