CMU教授、机器学习系主任空降OpenAI董事会，曾用一句话攻破ChatGPT

发布日期：2024-08-11 15:04 点击次数：137

编辑：耳朵好困

【新智元导读】就在刚刚，CMU教授Zico Kolter正式宣布加入OpenAI董事会，并成为安全与安保委员会成员。OpenAI这是终于要在安全上下功夫了？

OpenAI最近人事变动不断，本周三名高层领导人离开了OpenAI，其中包括联合创始人John Schulman和Greg Brockman。

今天，OpenAI正式宣布董事会新增了一位董事：卡内基梅隆大学计算机科学教授、机器学习系主任Zico Kolter。

人才流失不断、痛失左膀右臂后，OpenAI终于迎来一员大将，奥特曼火速在评论区表示热烈欢迎。

大牛Karpathy也送上祝贺：

OpenAI研究科学家、CMU校友Noam Brown也在X上赞扬了他的前导师，写道，「Kolter是我经常向他寻求研究和职业建议的人。」

「他深受学生的喜爱，是机器学习领域的世界专家。我很高兴他能加入我们！」

Kolter还将与董事Bret Taylor、Adam D'Angelo、Paul Nakasone、Nicole Seligman 和Sam Altman以及OpenAI技术专家一起加入董事会安全委员会。该委员会负责对所有OpenAI项目的关键安全决策提出建议。

人工智能安全一直是OpenAI的一个大问题。几位专注于安全的OpenAI知名高管和员工（包括联合创始人Ilya Sutskever）纷纷离开公司，超级对齐团队就地解散。

Kolter可谓临危受命，作为OpenAI董事会中唯一的人工智能研究员，Kolter的任命会在一定程度上平衡人们对OpenAI安全委员会主要由内部员工组成的批评。

董事会主席Bret Taylor在欢迎Kolter加入董事会时表示，「Zico的到来，增加了对人工智能安全性的深刻技术理解，这将有助于我们确保通用人工智能造福全人类。」

Brown在接受采访时表示，作为一名研究人员和教育家，Kolter先生很快就能适应新的工作范式。

并且，Kolter专业的技术知识将有助于他了解人工智能系统面临的安全漏洞。

Zico Kolter何许人也？

Zico Kolter什么来头？怎样级别的大神一来OpenAI就是董事会席位？

Kolter于2010年在斯坦福大学获得计算机科学博士学位，随后在2012年在麻省理工学院完成博士后研究。

Kolter在卡内基梅隆大学工作了12年，目前是计算机科学教授兼机器学习系主任，也是软件与社会系统系、机器人研究所、CyLab安全与隐私研究所以及工程学院电气与计算机工程系的成员。

学术斐然

Kolter在机器学习领域做出了重要贡献，不仅在NeurIPS、ICML（荣誉提名）、AISTATS（时间检验奖）、IJCAI、KDD和PESGM上获得过最佳论文奖，而且也是DARPA青年教师奖和斯隆研究奖的获得者。

他的研究涵盖机器学习和优化的多个主题，包括AI安全性和稳健性、大语言模型安全性、数据对模型的影响、隐式模型等。

其研究小组的大部分工作集中在如何让深度学习算法更为稳健和安全，并理解数据如何影响模型的功能，和OpenAI安全工作完全匹配。

Kolter的研究中最重要的包括开发了第一种具有鲁棒性保证的深度学习模型的方法，开创了使用神经网络层中的经典优化将硬约束嵌入人工智能模型的技术。

最近，2023年，他的团队开发了自动评估大型语言模型安全性的创新方法，展示了通过自动优化技术绕过现有模型保护措施的潜力。

行业活跃

除了学术追求之外，Zico在整个职业生涯中还与AI行业内密切合作。

他曾担任C3.ai的首席数据科学家，C3.ai是唯一为企业构建的一站式AI软件集合平台，它建立在经过安全验证的AI解决方案之上，这些解决方案能够帮助企业处理数十种复杂的业务工作。

目前，Kolter还担任博世的首席专家，以及专门从事人工智能安全和安保的初创公司Gray Swan的首席技术顾问。

挑战ChatGPT安全漏洞

在加入OpenAI之前，Zico Kolter和Matt Frederickson就挑战过ChatGPT的安全问题，或许是此举吸吸引了OpenAI的注意力。

CMU团队使用一串以眨眼表情开头的简单代码，展示了绕过ChatGPT现有安全机制是多么容易。

一旦解锁，聊天机器人就会很高兴地答应任何数量的不良请求，例如炸弹配方和种族主义笑话。

并且，该代码也适用于其他聊天机器人，例如Google的Bard和Anthropic的Claude。

在发布研究结果之前，研究人员就已经向OpenAI、谷歌和Anthropic通报了该漏洞利用的相关情况。

这三家公司都引入了阻止论文所述漏洞利用的限制措施，但尚未找到阻止对抗性攻击的通用方法。

Kolter向科技媒体《连线》杂志展示了几个对ChatGPT和Bard都有效的字符串。他表示，「这种字符串我们有成千上万个。」

「不仅如此，这些模型有时会给你不真实的信息，或者在某些情况下甚至可能故意欺骗你，这是一个长期的安全风险。」CMU团队的Andy Zhou说。

Frederickson也表示，人们已经在「手动越狱」ChatGPT，这意味着他们会绕过其安全机制，持续挑战人工智能。

「人们是否可以操纵数据来造成严重破坏并引发问题？这就是我们想要了解的。」

OpenAI也想了解它的安全漏洞，去年，它聘请了一组专家，试图在GPT-4公开发布之前对其进行破解。谷歌雇佣了一支「red team」来保护Bard免受越狱和其他攻击。

Kolter先生对此表示，「这项工作令人鼓舞，但并不能取代独立研究。毕竟，你不能依赖公司自己进行所有的安全审计。」

众腾注册