中国科学院信息工程研究所虎嵩林：“攻、检、防”循环推动大模型安全加固

4月26日，在2024中关村论坛年会——数据安全治理与发展(zhǎn)论坛上，中国科学院信工所研究员虎嵩林(lín)接受包括证券(quàn)时报记者在内的媒体采访时指出，促使大模型遵循人类价值观、服(fú)从人类意图，规避各类风险，并(bìng)保障数(shù)字和物理空间的应用安全，实现有用性、无害性和诚实性多目标的平衡，已(yǐ)经(jīng)成(chéng)为亟待解决(jué)的世界难题(tí)。需要在现有的技术条件下持(chí)续探索，通过(guò)“攻、检、防”，不(bù)断发现漏洞、自动(dòng)识别并进行持续化(huà)的(de)安全加固，形成(chéng)一个循(xún)环发展的飞轮。敷尔佳2023年度分配预案：拟10派10元>

（中国科学院信工所研究员虎(hǔ)嵩林郭博昊/摄）

当前(qián)，大模型(xíng)正在成为驱动新(xīn)质生(shēng)产力发展的新动能、人类探(tàn)索未(wèi)知的新(xīn)工具。“大模型不仅可以对话和生成视频、还可以调用(yòng)工具、链接物理(lǐ)设备、并通过与机(jī)器人结合实现具身智能(néng)。大模型本身(shēn)也正在从人类可利用的工具客体(tǐ)向认识、改(gǎi)造自然(rán)社会的主体转变。成为数学定(dìng)理证明、科学研究的(de)合作者，成为(wèi)独立运营企业的(de)法律主体。”虎嵩林指出。

在赋能新时代发(fā)展的同(tóng)时(shí)，生成式人工智能也给全球带来了(le)前所未有的安(ān)全风险(xiǎn)。比如，数据(jù)方(fāng)面，数据会带来价值偏见、隐私泄露、数据(jù)污染等问题：训练(liàn)数据固有偏见导致模型产生偏见内容；海量训练数(shù)据扩大了数据安(ān)全和隐私保护风险。算法方(fāng)面，算法模型生成特性及安全漏洞会引发“幻觉”或虚假信息、模型遭受攻击(jī)等风(fēng)险。

虎嵩林表示，大模型能力的通用性、潜在的主体地位(wèi)以及应用的深度与广度，也都将进一(yī)步放大其危害程度。包括两位(wèi)图灵奖得主Hinton、Bengio和谷歌DeepMind和OpenAI的CEO在内(nèi)的产学两界领军人物联名发出的AI风险声明中，更将AI可能带来的“毁灭性”的风险，上升到了与流行病以及核战(zhàn)争相提并论的高度。

2023年底敷尔佳2023年度分配预案：拟10派10元《自(zì)然》杂志预测的2024年的重大科学事件中，GPT5的发布以及联合国(guó)人工智能高级(jí)别咨询机构将发布的AI监管相关报告位列其中，反映了(le)全球对协(xié)调人工智能发(fā)展与安全的重大关切。

“毫无疑问，促使大(dà)模型遵循人(rén)类价值观、服从人类意图，规避各类风险，并保障(zhàng)数字和物理空间的(de)应用安全，实现(xiàn)有用性(xìng)、无害性和诚实性多目标(biāo)的(de)平衡，已经成为亟(jí)待解决的世界难题。”虎嵩林表示(shì)。

“大模型的安全(quán)风险主要体现(xiàn)在(zài)无害性（Harmless）和诚(chéng)实(shí)性（Honest）两个方面。”虎嵩林表(biǎo)示，其中，有害(hài)信(xìn)息对应前者，包括价值(zhí)偏见，隐私泄(xiè)露，还有黄(huáng)赌毒、涉(shè)恐涉暴(bào)、仇恨(hèn)、反讽(fěng)、歧(qí)视、刻板印象(xiàng)等等各种信息污染；不实信息对应后者，包括虚假信息、伪造、欺诈内容(róng)等。

更(gèng)广义地讲，也包括由(yóu)输出信息所直接导致的各类不安全的指令调(diào)用、智(zhì)能体或者具身智能机器(qì)人(rén)的恶意行为等。而(ér)算法模型生成特性及(jí)安全漏(lòu)洞会引发“幻觉”，则是一把“双刃(rèn)剑(jiàn)”，既有可能是导致有害、不实信息的“元凶”，也有可能是科学创新、艺术创意的能力来源。

需要看到，生成式(shì)大(dà)模型特有的预训练、微调、上(shàng)下(xià)文、提示等新的学习范式，使其安全具有了与(yǔ)传统(tǒng)AI安全不同的许多新特点，面临诸多新(xīn)挑(tiāo)战，制约了传统安全方法、经(jīng)验、工具在大模型安全领域发挥效能。

大(dà)模(mó)型安全风(fēng)险的成因既可(kě)以是来自各类训练数据的缺陷或算法的局限性(xìng)等模型内因，也(yě)可以(yǐ)是利用这些新型(xíng)学习范式的恶意(yì)使用或蓄意攻击等外因。这使得大模型在数据准备、预训练、微调对(duì)齐、推理以及应用阶(jiē)段都会存在各种潜在的风(fēng)险。尽管目前我们在安全理论、大模型(xíng)安全评测、自动化测试、价值观对齐、幻(huàn)觉缓解等方(fāng)面都开展了一系(xì)列的研究和应用工作，这些领域依然(rán)充满了挑战。

“当下，从理论上，或者说技术上，大模型安全还有很(hěn)多亟待(dài)解决的难(nán)题。”虎(hǔ)嵩林坦言(yán)，我们对大模型“智能涌现”的原理还所知甚(shèn)少，对上下文(wén)学(xué)习、提示(shì)学习、思(sī)维链等能力的内在(zài)机(jī)理仍(réng)严重缺乏认知。一些研(yán)究工作也证(zhèng)明AI的(de)安(ān)全性无法完全保障，对任意一个(gè)对齐模型总存在一定长度的(de)提示可(kě)以(yǐ)将(jiāng)之攻(gōng)破等，这都极大地制约我们从原理上(shàng)认识(shí)和防御大模型的(de)安全风(fēng)险。

“我(wǒ)们(men)需要在现有的技术条件下持(chí)续(xù)探索，这也是我们设计‘以(yǐ)攻促防、攻防相长’思路，研制Galexy(星河)大模型安全测评平台的原因，敷尔佳2023年度分配预案：拟10派10元也是举办首届生成式(shì)人(rén)工智能安全大(dà)赛的初衷。”虎嵩林表(biǎo)示(shì)，我们(men)希望(wàng)通过“攻、检、防”，不断发现漏洞、自动识别并(bìng)进(jìn)行(xíng)持续化的安(ān)全加固，形成一个循环发展的飞轮。

校对：祝甜婷

未经允许不得转载：绿茶通用站群敷尔佳2023年度分配预案：拟10派10元