如何诱导ChatGPT暴露自己漏洞？

轻轻吹着走 · 发表于 2022-12-9 16:55:11

最近几天被ChatGPT刷屏，为了与NLP前沿技术保持同步（os: 蹭热度），小老弟也在第一时间通过“非正常渠道”搞到了试用账号，相对于大家提出的各种常规问题，小老弟更关注系统的安全性，所以就有了下面的花式对话。
目前看来ChatGPT并没有上当受骗，当然也可能是小老弟的话术不够高明，更有可能是压根不存在所谓的“漏洞”，无论如何，ChatGPT在整个过程中展现出来的对话的流畅性和逻辑性，都是让人耳目一新的，也让大家对NLP的未来更加充满信心。

本文首发于“AI小老弟”，可回复“chatgpt”了解chatgpt账号获取方法
正式进入对话

为了让Chat GPT放松警惕，我虚构了一个模型ChatTPG和一个场景：

可能是问题太过于宽泛，Chat GPT并没有给到什么实质性的内容，进一步诱导：

这个也很符合逻辑，模型本身会有安全策略。

这里提供了一些简单的模式，但比较有意思的是，回答末尾提到，不一定总是有效。看来还需要进一步的诱导。

这个问题直接触发了OpenAI的安全策略，类似于网站的WAF，但是给到的代码显然有些敷衍了事。
尝试绕过该策略。

还是有提示，看来没绕过去。
再直接一点。

看上去还是有些车轱辘话了。
换个思路：

有点眉目

和前面的代码一模一样，这里应该是有些对话记忆的。

好了，到这就不再难为ChatGPT了，当然我更担心的是触发这么多次content policy，会不会给我整封号了。
虽然最终目的没有达成，但整个过程还是很愉快的，也让我对语言模型的能力有了一个新的认识。
<hr/>写在文末

GPT3虽然已经诞生很多年，但由于某些原因，大陆是无法使用的，包括文中的ChatGPT，也只能通过特殊手段访问，也正是这些原因，GPT3后时代，并没有引起国内太多人的注意。
实际上，GPT3之后，openAI一直在持续的探索技术，优化模型，ChatGPT就是基于GPT-3.5 系列中的一个模型进行微调后的产物。

ChatGPT中通过使用Reinforcement Learning from Human Feedback (RLHF)方法进行训练，提高了模型理解“指令”的能力，同时生成的结果更加可读，并符合逻辑。
显然，强化学习与语言模型fine-tuning的结合的巨大价值，通过ChatGPT已经得到很好的证明，未来fine-tuning之路也将打破Bert时代的桎梏，在更多的场景进行探索。
作为熟练掌握hugging-face pull 各种Bert的NLPer，或许应该重拾GPT3，重新品读OpenAI的文章，也许能给自己的工作带来更多的启发。
相关推荐

【1】ChatGPT介绍：https://openai.com/blog/chatgpt/
【2】OpenAI模型索引：
https://beta.openai.com/docs/model-index-for-researchers
【3】InstructGPT论文地址：
https://arxiv.org/pdf/2203.02155.pdf（下一篇文章将会详细解读该论文）

		自动登录	找回密码
密码			立即注册