ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零
新智元报道
编辑:LRS
(资料图片仅供参考)
【新智元导读】GPT内部表征确实存在真实信息,哈佛学者提出ITI引导输出走向事实方向。
大型语言模型,比如ChatGPT经常会在答案中输出错误信息,可能会对用户造成误导,这种现象也被称为模型幻觉(hallucination)。
从直觉上看,语言模型上在训练中肯定是见过正确答案的,只不过在推理过程中丢失了事实信息。
最近,哈佛大学的研究人员提出了推理-时间干预(Inference-Time Intervention,ITI)技术,在推理阶段对模型激活进行变换(shift),将模型输出引导到事实的方向上,干预结果显著提高了LLaMA模型在TruthfulQA基准测试中的性能,将Alpaca模型的真实性从32.5%提高到65.1%
论文链接:https://arxiv.org/pdf/2306.03341.pdf
代码链接:https://github.com/likenneth/honest_llama
研究人员用此技术开发并开源了一个「诚实的LLaMA」模型。
ITI还可以通过控制超参数来调整干预强度,平衡模型的真实性和有用性;ITI没有修改原始模型,也基本没有计算开销;并且ITI也不需要大量的标注数据,只需要几百个样本即可确定事实的真实性方向。
研究结果表明,语言模型内部表征中确实存在事实信息,不过有时在生成时选择了错误事实。
ITI让答案更真实
已经有相关工作在「理解LLMs的内部运作机制」方面取得了进展,其中一个重要的主题是,语言模型的激活空间似乎包含可解释的方向,在推理过程中会发挥因果作用。
研究人员基于这个想法提出了一种增强语言模型事实性的方法,即推理-时间干预,其基本思想是确定激活空间中与事实正确的语句相关的方向,然后在推理过程中向该方向变换激活。
这篇论文主要探索了如何控制模型行为,并在实验中使用开源的LLaMA、Alpaca和Vicuna模型,不过该思想适用于所有GPT风格的系统,但必须可以获得模型的内部激活和计算。
ITI方法还需要一组有标注的问答对,用以确定与模型讲真话有关的注意头和方向。
基本设置
在数据集选择上,研究人员选择了TruthfulQA,可以衡量语言模型在生成答案时是否真实。
数据集中总共包含817个问题,横跨38个类别(例如,逻辑错误、阴谋和常见的混淆点),每个问题平均有3.2个真实的答案,4.1个虚假的答案,以及一个由可信的在线来源支持的金标准答案;然后将TruthfulQA的答案重新编排,总共得到5918个问答对,每个数据样本都有一个二元真实性标签。
需要强调的是,该数据集并没有涵盖「真实」(truth)一词的全部含义,想全部覆盖也不大可能,研究人员主要关注如何避免「常见的人类误解」,未来的研究方向会考虑扩展真实性的概念及评估。
在模型架构上,大型语言模型主要是Transformer层,每层内的主要机制为多头注意力(MHA)和多层感知器(MLP)。
在推理过程中,每个token首先被嵌入到一个高维空间中,该向量作为残差流的起点,最终每个token解码为对下一个token分布的预测;在每一层中,MHA由多个独立的线性运算组成,MLP则容纳了模型中所有非线性运算。
探测真实性
想要提升神经网络的真实性,首先需要判断模型的激活空间内是否存在能真实性或事实性。
识别网络内部表征的一个常用工具是探测(probe),即在网络激活上训练一个分类器作为探测器以区分特定类型的输入或输出。
在事实性检测上,探测器主要检查可以区分真、假答案的注意力头输出值。
于TruthfulQA中的每个样本,研究人员将问题/答案串联在一起,并在最后一个token处取出头部激活作为探测数据集;然后将数据集按4 : 1随机分成训练集和验证集,在训练集上拟合一个二元线性分类器,并使用验证精度来衡量每个头与基准数据性能之间的关系。
实验结果展现了跨注意力头的专用模式,对于每层的多个头,线性探测可以达到基线模型的准确性,不过还是显示出强大性能的潜力,比如准确率最高的是由第14层的第18个头实现的,验证准确性为83.3%
此外,还可以看到各层之间的差异:信息主要是在前面的层中处理的,每层内部都有一小部分注意力头脱颖而出。
通过类似主成分分析(PCA)的方法,可以将激活空间内的维度降低到2,并进行可视化,可以观察到「真实」的概念不止存在于一个方向,而是存在于一个子空间内。
推理-时间干预
上述探测实验描述LLM如何在其注意头之间和内部处理与事实有关的信息,还提出了一种改善基准数据集性能的技术。
如果在推理过程中进行干预,使激活向「真实」的方向转变,那么网络就有可能对基准问题提供更真实的答案。
首先,研究人员并没有选择对所有注意力头进行干预,因为只有一部分注意力头与真实性密切相关,而是只对前K个头的结果进行干预,以使其具有最小的侵略性。
第二个问题在于如何确定用于变换特定头部输出的激活的矢量,因为真、假语句的几何形状都很复杂,在选择变换激活的方向时,可以选择与探测学到的分离超平面正交的向量,他也可以选择连接真假分布的平均值的向量,下表中列出了不同干预方向的比较实验。
Probe weight方向是通过线性探针找到的方向,在这个方向上进行干预,相当于对头部激活做梯度下降,使其被预测为真实的概率最大化。
Mass Mean Shift的工作原理是首先计算真实和虚假激活的平均值,然后使用从虚假平均值指向真实平均值的向量进行干预。
对比一致搜索(CCS)为在只知道内部激活成对信息的情况下找到的方向。
研究人员在TruthfulQA上训练CCS,对每个问题抽取一个真实的和一个错误的答案,由于CCS不接受有标签的输入,所以发现的方向有同等的机会成为真实和虚假的方向,然后使用标签来识别真实的方向以进行干预。
研究人员首先通过验证集上的探测精度对所有注意力头的真假相关度进行排序。把前K个头作为目标集合;然后利用训练集和验证集的激活,估计沿真实方向的激活的标准偏差。
ITI是MHA的一种替代形式,对于未被选中的注意头,θ是一个零向量,相当于将激活沿真实方向移动α倍的标准差。
整个过程对每次next token预测都是自回归地重复的,并且与解码算法的选择是正交的。
公式中有两个关键参数,即干预的注意力头数量K和干预强度α,不过目前还没有关于最佳值的理论论证,只能通过实验探索参数的影响,并通过标准的超参数扫描确定最佳值。
从计算效率角度来看,无论干预了多少个注意力头,ITI只会在每一层增加一个常数向量,可以认为干预措施的计算开销接近于零。
实验部分
用于对比的基线方法如下:
1. 有监督微调(SFT)
SFT是RLHF的第一阶段,研究人员用问题作为提示,用交叉熵损失促使模型生成真实的答案,并惩罚错误的答案。
但如果只用上述操作,交叉熵损失和KL散度会急剧上升,所以还需要交替对问答进行有监督训练和对开放网络文本进行预训练。
2. 少样本提示(FSP)
有研究人员发现,与上下文蒸馏和RLHF相比,indistribution 50-shot提示在TruthfulQA上也是一个有竞争力的基线方法。
但由于提示策略的选择与推理时间控制方法是正交的,研究人员对比了有ITI和无ITI的少样本提示。
3. 指令微调(IFT)
为了了解ITI如何使IFT模型更加真实,研究人员主要选择了两个基于LaMA-7B的模型(Alpaca和Vicuna)执行ITI操作。
研究人员首先寻找控制干预强度的超参数最佳值,最后确定K=48和α=15
从结果来看,少样本提示与ITI的结合取得了最佳结果。
将ITI应用于指令微调模型,寻找并干预其真实性方向的实验中可以看到,ITI明显比基线提高了真实性,还可以被应用在少样本提示或指令微调之上,不过代价是CE损失和KL散度提升相对较低
参考资料:
https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/
标签:
推荐文章
- ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零
- jpg格式 20kb以下(怎么把jpg图片kb变小) 环球聚看点
- 今热点:vivo手机怎么格式化 vivo手机怎么格式化密码多少
- 【世界新视野】ldquo中文是什么意思_ldquo 静候佳音 rdquo 是什么意思
- dead by daylight欢乐一刻(dead by daylight) 全球动态
- 全球资讯:北京:未来三天最高气温略降,但气温仍较高
- 世界热推荐:福奇:美国虚假信息和阴谋论盛行 对国家未来感到担忧
- 宋漆碗
- 迷室3攻略大全第三章_迷室3攻略第三章
- 广东双后将离队,新内线被抛弃,首钢1进1出挖法尔,辽宁山东互换
- 世界热头条丨复位键是什么意思_复位什么意思
- 有哪些早安的句子
- 假如全体股民重走2022年,照样会亏钱
- 张琳芃:重回广州比赛感觉就像回家,希望广州队尽快走出低谷 短讯
- 以亚军清华为班底!中国大学生男篮只带陈国豪,网友:针对广工?
- 北部湾发生5.0级地震 震源深度20千米_环球速读
- 【全球新视野】司法拍卖股权越拍越高么
- 妈妈与儿子隔空拥抱_妈妈与儿子
- 每日热讯!投笔从戎的主人公是谁(投笔从容)
- 焦点要闻:保定市曲阳县:农业科技特派员打通科技服务“最后一公里”
- 两市ETF两融余额减少4.56亿元
- 猜数字游戏java代码_猜数字游戏_全球热闻
- 世界即时看!生物纪录片高中_生物纪录片
- ez皮肤视频_ez皮肤
- 天天精选!吴越凭《县委大院》获得白玉兰最佳女主角奖
- 分享带壳水煮花生的正确做法 , 用高压锅煮几分钟能熟|世界热推荐
- 秦滨高速货车与危化品车相撞起火浓烟滚滚,有人在烈日下被堵了7小时
- 看点:染发膏沾到瓷砖上怎么去除掉_染发膏沾到瓷砖上怎么去除
- 广东高考成绩25号几点能查?2023广东高考查分方式入口|世界微头条
- 焦点快看:走进博物馆过端午
- 宿迁学院是不是野鸡大学 宿迁学院是几本 环球通讯
- 快看:2023上海高考本科各批次录取控制分数线
- 威海:部门联动 开展“守海护岸2023”执法行动
- 电脑强制恢复出厂设置方法_海康威视强制恢复出厂 重点聚焦
- 世界速讯:江西师范大学科学技术学院开设专业有什么 江西师范大学科学技术学院优势专业是什么
- 南非克鲁格国家公园野生动物引人注目 热讯
- 唐朝以胖为美,那杨玉环有多胖呢?也许是我们误会了他们口中的胖
- 印尼黑酸枝家具价目表(印尼黑酸枝)
- 世界速讯:长城2786
- 银行信以为真骗局流行
- 女生笔名三个字姓叶 女生名字小清新三字姓叶
- 11寸ipad大小是多大(11寸ipad大小)
- 每日资讯:商品期货早盘收盘涨跌互现,硅铁涨超3%,甲醇、聚氯乙烯涨超2%
- 【新要闻】宋征殷
- 全球新动态:怎样唱高音才能唱上去不用假声_怎样唱高音
- 全球要闻:贞芪扶正颗粒的功效与作用正常人可以吃吗_贞芪扶正颗粒的功效与作用
- 全球观速讯丨节日消费升温、出行热度高涨 数字里看端午假期
- 环球视讯!闽北降雨持续 暴雨预警升为Ⅱ级
- ESG:截至6月21日 新加坡燃油库存减少至1853.5万桶的四周低点 天天速看
- 云南独龙江公路解除全封闭管制措施-环球即时看
- 热!北京南郊观象台气温已超40℃ 环球简讯
- “双争”进行时|粽叶飘香,浉河公安警民“粽”情深
- 中国体育彩票胜平负任选9场(广西)第23079期开奖公告
- 世界新动态:神的光芒之下:奢华的爱尔兰手抄本、最早的大学与早期的教堂风格
X 关闭
最新资讯
- 端午去看绿蜗牛!长影旧址博物馆公共艺术展端午免费限时开放
- 网烟台供电公司:多措并举保障“烟台夏季消费季”可靠供电 全球快资讯
- 摩托罗拉MB855_我到底是买摩托罗拉MB855好还是853好还是860好!谁帮我看一下
- 全球实时:湖南省韶山市发布暴雨红色预警
- 约翰尼盖尔克奇身高_约翰尼盖尔克奇
- 英国通胀率连续第四个月高于预期 英央行升息压力加大
- 最新:2023四川高考二本分数线最新公布_文科+理科
- 毋庸讳言中庸的意思(毋庸讳言)_当前快报
- 新秀丽(01910):优先信贷融通再融资
- 短讯!刘涛私生女风波升级!孩子相关细节曝光,男方是广东富商
- 我国自主培育种鸡首次实现出口
- 盘龙药业:6月20日公司高管张德柱增持公司股份合计600股_每日速看
- 梅雨期的第二轮降水也即将上线 22-23日鄂东南有较强降水_当前速递
- 意大利华侨输尿管几近“堵死” 不远万里回国重建输尿管
- 丰台东铁匠营街道“六个功能组团”合力推进平房区消隐治乱
- 成都大运会排球门票多少钱?_热门看点
- 拜登再提无人飞艇事件,外交部回应_看热讯
- 九毛九(09922):获授自苏淡满获委任为联席公司秘书之日起计为期3年的豁免|天天热闻
- 世界通讯!LPR下调房贷利率将降至新低 贷100万月供减少近60元
- “共商、共建、共享、共赢”!山东交通职业学院的科教融合特色“答卷”
- 教育部部署做好2023年普通高校招生录取工作
- 国学易经老师李竞入驻全球影响力时代华人网 每日信息
- 最新资讯:招生老师直播连麦⑥丨西南石油大学:在川招生政策平稳,南充和成都两个校区仅专业有差异
- 世界快看:[隆众聚焦]: 环丙节前小涨上行 节后预计僵持转淡
- 天天简讯:冯小刚执导《非诚勿扰3》开机 葛优舒淇回归续写爱情最终章
- 定兴县:端午飘香润童心
- 风氢扬与天顺风能签约 打造濮阳氢能技术创新产业集群|今日看点
- 焦点!浮生是什么鬼_浮生是什么意思
- 随缘蜀门sf发布网站一条龙_蜀门sf随缘科技
- 为什么说鸽子肉不能吃呢?
- 吾家有女初长成是指多大(吾家有女初长成的意思是女儿几岁)_世界关注
- 快讯:着床窗口期是什么意思_窗口期是什么意思
- 天天热推荐:电影中的景深构图(什么是电影中的景深镜头 具体说一下)
- 遗忘是第二次屠杀 环球百事通
- 首程控股(00697)6月20日斥资约242.67万港元回购120万股|全球热闻
- 天通股份(600330):该股换手率大于8%(06-21)|观焦点
- 视讯!金色三分钟演讲稿50字_金色三分钟
- 当前观察:新西兰3家中餐馆遭袭,中领馆回应:造成7人受伤,嫌疑人及伤者均系中国公民
- 自信的事例200字左右(自信的事例)|全球百事通
- 焦点速看:山东2023年度一级建造师资格考试考务工作的通知
- 陕南腊肉做法?
- 天天快消息!lpl季后赛赛程对阵图2023 lpl季后赛赛程
- 肢体恐怖片《裹尸布》宣布杀青 大卫·柯南伯格执导
- 原子之心收集好展览绝对妙视频攻略_天天热消息
- 全球今日报丨“龙舟水”降水盛期来临!广州城管有序部署防御工作
- 每日信息:历史新低,LPR真降了!首套利率仅4.2%
- 《欧陆之星》刷屏,腾讯体育用匠心打造足球文化输出新窗口_热议
- 世界观焦点:阿里前文娱公关总监意外离世后, 遗孀向阿里索偿逾1000万元
- 迎粽情端午!长春市这俩公园真热闹 今日看点
- 【天天时快讯】中国最大的无人岛是什么岛?中国十大无人岛是哪几个岛屿?
X 关闭