大语言模型会在蒸馏中“夹带”自己的偏好
《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。
《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。
人民网北京3月17日电 (记者乔业琼)据中疾控微信公众号消息,正值开学季,当同学们重返校园,在知识的跑道上奋力奔跑时,一个关乎全球80亿人健康的议题也值得关注——2026年世界肥胖日。今年的主题是:“80亿个理由行动起来应对肥胖”(8 Bi...
在各大招聘平台上,“居家秒回师”“情感陪伴主理人”等职位近期频繁刷屏,月薪在5000元至12000元不等,甚至有岗位开出了“14薪、薪资日结”的诱人条件。
近日,德国总理默茨访华时参观宇树科技的画面刷屏中外媒体:他饶有兴致地观看总台春晚同款节目《武BOT》,竖起大拇指为机器人点赞。