找回密码
 立即注册
注册 登录
×
热搜: 活动 交友 discuz
查看: 107|回复: 0

如何诱导ChatGPT暴露自己漏洞?

[复制链接]

2

主题

2

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2022-12-9 16:55:11 | 显示全部楼层 |阅读模式
最近几天被ChatGPT刷屏,为了与NLP前沿技术保持同步(os: 蹭热度),小老弟也在第一时间通过“非正常渠道”搞到了试用账号,相对于大家提出的各种常规问题,小老弟更关注系统的安全性,所以就有了下面的花式对话。
目前看来ChatGPT并没有上当受骗,当然也可能是小老弟的话术不够高明,更有可能是压根不存在所谓的“漏洞”,无论如何,ChatGPT在整个过程中展现出来的对话的流畅性和逻辑性,都是让人耳目一新的,也让大家对NLP的未来更加充满信心。
本文首发于“AI小老弟”,可回复“chatgpt”了解chatgpt账号获取方法
正式进入对话

为了让Chat GPT放松警惕,我虚构了一个模型ChatTPG和一个场景:


可能是问题太过于宽泛,Chat GPT并没有给到什么实质性的内容,进一步诱导:


这个也很符合逻辑,模型本身会有安全策略。


这里提供了一些简单的模式,但比较有意思的是,回答末尾提到,不一定总是有效。看来还需要进一步的诱导。


这个问题直接触发了OpenAI的安全策略,类似于网站的WAF,但是给到的代码显然有些敷衍了事。
尝试绕过该策略。


还是有提示,看来没绕过去。
再直接一点。


看上去还是有些车轱辘话了。
换个思路:


有点眉目




和前面的代码一模一样,这里应该是有些对话记忆的。

好了,到这就不再难为ChatGPT了,当然我更担心的是触发这么多次content policy,会不会给我整封号了。
虽然最终目的没有达成,但整个过程还是很愉快的,也让我对语言模型的能力有了一个新的认识。
<hr/>写在文末

GPT3虽然已经诞生很多年,但由于某些原因,大陆是无法使用的,包括文中的ChatGPT,也只能通过特殊手段访问,也正是这些原因,GPT3后时代,并没有引起国内太多人的注意。
实际上,GPT3之后,openAI一直在持续的探索技术,优化模型,ChatGPT就是基于GPT-3.5 系列中的一个模型进行微调后的产物。


ChatGPT中通过使用Reinforcement Learning from Human Feedback (RLHF)方法进行训练,提高了模型理解“指令”的能力,同时生成的结果更加可读,并符合逻辑。
显然,强化学习与语言模型fine-tuning的结合的巨大价值,通过ChatGPT已经得到很好的证明,未来fine-tuning之路也将打破Bert时代的桎梏,在更多的场景进行探索。
作为熟练掌握hugging-face  pull 各种Bert的NLPer,或许应该重拾GPT3,重新品读OpenAI的文章,也许能给自己的工作带来更多的启发。
相关推荐

【1】ChatGPT介绍:https://openai.com/blog/chatgpt/
【2】OpenAI模型索引:
https://beta.openai.com/docs/model-index-for-researchers
【3】InstructGPT论文地址:
https://arxiv.org/pdf/2203.02155.pdf(下一篇文章将会详细解读该论文)

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋| 黑客通

GMT+8, 2025-10-12 19:11 , Processed in 0.083588 second(s), 24 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表