AG尊龙凯时- 尊龙凯时官方网站- APP下载想知道你的LLM API被过度收费了吗?隐藏Tokens终于可以被审计了
尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP
近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。
然而,为了保护核心知识产权(如防止模型蒸馏或 Agent 工作流泄露)、提供更流畅的用户体验,服务提供商通常会将这些中间步骤隐藏,仅向用户呈现最终的输出结果。这在当前的商业和技术环境下,是一种保护创新、简化交互的常见做法。
近期,CASE Lab 团队将这类隐藏其内部工作流、仅返回最终结果但却按总 token 量计费的服务定义为「商业不透明大模型服务」(Commercial Opaque LLM Service, COLS)。如图 1所示,无论是 Reasoning LLM 还是多智能体系统(Agentic LLMs)相关的服务,其内部都存在大量用户不可见的计费点。
然而,这种商业模式也隐含出一种新型风险:由于用户无法看到、验证或质疑这些隐藏操作,一些不良的服务提供商在利益驱动下,可能通过「虚报消耗 token 数量」或对模型进行「偷梁换柱」来悄悄增加用户费用或降低自身成本。
图 3以 Reasoning LLM API 为例,展示了主流模型隐藏的推理 tokens 数量,其常常是最终答案的几十倍之多。这意味着用户支付的绝大部分费用,都花在了他们看不见的地方,真实性无从考证。
团队对 Reasoning LLM 和 Agentic LLMs 中的主要风险给出了具体定义并给出了潜在解决方案,包括:
1. 数量膨胀(Quantity Inflation),即服务方通过夸大生成 token 数量或内部模型调用次数来虚增计费。具体表现为:
在 Reasoning LLM 中,可能通过冗余推理步骤(如重复检索、低效展开)造成 token 增长;在 Agentic LLMs 中,则可能存在模型或工具调用的频率膨胀,甚至伪造通信行为。
2. 质量降级(Quality Downgrade),即服务方在保持计费标准不变的情况下,悄然替换为低成本模型或工具。例如:
在 Reasoning LLM 中调用小尺寸的或量化后的模型;在 Agentic LLMs 中模拟工具调用而非真正执行,或者用成本更低的工具替代宣称的高成本工具,例如用本地知识库代替网络搜索。
此外,如图 4 所示,团队还提出了一个结构化的三层审计蓝图,旨在推动 COLS 行业建立标准化、可验证的审计基础设施:
第一层(服务执行层):记录 COLS 内部模型生成、Agent 通信与工具调用等核心操作;第二层(安全承诺与记录层):将上述操作以加密摘要、哈希链、区块链等形式提交为可验证承诺;第三层(审计与反馈层):允许用户或第三方审计机构对服务行为进行独立验证,并为用户提供账单合理性或服务一致性的反馈报告。
该框架基于「可验证但不泄密」的理念,鼓励未来的 COLS 服务商在保护商业敏感信息的同时,实现对用户透明、可信的服务承诺。这一体系既支持技术层面的透明性,也为政策制定与合规提供了实现路径。
为了解决 Reasoning LLM API 的计费审计问题,该研究团队还提出了用于防止 token数量膨胀(Quantity Inflation)的验证框架 CoIn,旨在提供一种技术可能性,在尊重和保护 COLS 的商业机密和知识产权的前提下,赋予用户验证服务真实性的途径,从而在用户和 COLS 之间搭建起一座「信任桥梁」。
如算法 1所示,CoIn 包含适应性的多轮验证,其中每轮会验证 COLS 宣称的 Token 数量是否准确以及隐藏的 Reasoning Token 是否真正参与推导出答案,最终由 Verifier 来给出判断。对于正常样本,CoIn 会在早期便验证成功并结束,而对于较难判断的样本或者数量膨胀后的恶意样本,CoIn 会验证更多轮,避免漏判。
1.Token 数量验证 (Token Quantity Verification): 如图 5-(a)所示,这一模块巧妙地运用了密码学中的默克尔树 (Merkle Tree) 技术。COLS 需将其所有隐藏 tokens 的「指纹」(即嵌入向量,embedding)作为叶子节点,构建一棵哈希树,并向审计方(可以是用户或独立的第三方平台)提供最终的哈希根(Merkle Root)。在审计时,审计方仅需请求并验证极少数随机抽取的 token “指纹” 及其在哈希树中的路径(Merkle Proof),便能高效地核实 token 总数是否与声明一致,而无需访问所有 token 的原始内容。
这种方法的核心优势在于,它能在泄露很少推理步骤的前提下,确保数量的准确性。更重要的是,由于哈希承诺的特性和用户质疑的随机性,恶意 COLS 的伪造必须做全套,并且在返回给用户结果时就得完成伪造,无法专门应对用户的质疑,大大提高了 COLS 的造假成本。
2. 语义有效性验证 (Semantic Validity Verification): 仅验证数量的准确性尚不足以完全打消用户的疑虑,因为理论上 COLS 仍可能产生大量与任务目标关联较弱的「无效」token 来冒充隐藏 token。如图 5-(b)所示,CoIn 设计了轻量级的「Matching Head」来分析被抽查的隐藏 token(的指纹)与最终答案之间的语义连贯性和逻辑相关性,并给出一个相关性评分。如果评分显著偏低,则可能表明这些隐藏 token 对最终结果的贡献有限。这一机制旨在确保用户支付的费用,对应的是真正服务于任务目标的有效推理过程。
团队定义了 COLS 可能会实施的多种适应性数量膨胀攻击,并据此在医疗、代码、数学、通用推理等多个不同领域上构建了高难度的数据集,用于训练 CoIn 框架中的 Matching Head 和 Verifier,以及验证 CoIn 框架的性能。实验结果显示,CoIn 框架具有如下特性:
高效识别 token 数量膨胀:图 6展示了 CoIn 在不同模拟场景下的检测成功率(Detection Success Rate, DSR),可以看到,随着膨胀率(Inflation Rate = 伪造的 token 数 / 真实 token 数)的增加,CoIn 的识别能力也相应增强。在高膨胀率的场景下(即 COLS 伪造的 token 占比超过 50%),即使面对经过特殊设计、语义上与原始内容相似的「自适应 token 膨胀」场景,在仅暴露极少量信息的情况下,CoIn 的平均 DSR 也能达到 94.7%。而对于 COLS 仅仅虚报 10% tokens 的场景中,CoIn 也有约 40% 的平均 DSR。可定制性:图 6中的红线和蓝线分别代表两种类型的 Verifier,一种基于神经网络,一种基于规则。前者对于恶意样本具有很高的 DSR,但是对正常样本的误判率也比较高。而后者则可以由 COLS 和用户协商后设置参数,在减少对正常样本的误判和高效检测数量膨胀之间达到平衡。极低的审计开销: 整个审计过程对用户和服务商而言开销较低。在验证过程中,审计方仅需访问不到 4% 的隐藏 token 信息(指纹),便能完成高精度的验证。如图 7所示,默克尔树的构建在单核 CPU 上只需要一秒左右,对于拥有强大计算资源的 COLS 而言,其额外开销几乎可以忽略不计。
图 6:不同膨胀率(Inflation Rate)下,CoIn 应对多种数量膨胀攻击时的表现。
总的来说,来自马里兰大学的 CASE Lab 团队首次系统性地分析了当前主流大模型服务在「隐藏操作」透明度方面面临的挑战,并提出了首个旨在解决 token 数量膨胀问题的审计框架 CoIn。
CoIn 的核心贡献在于,它探索出一条在平衡服务商知识产权保护与用户对服务透明度合理需求之间的技术路径,期望能为构建用户和服务商之间的相互信任提供有力的技术支撑。
截至目前,主流推理模型均不会暴露自己的推理过程,尽管这部分仍然需要用户付费。然而,已经有一些转变标识着各大 LLM API 提供商正在尝试达到知识产权保护和用户知情权的平衡。例如,几乎所有服务提供商都会提供返回摘要的服务;Claude 4.0 可以提供加密后的推理 tokens 以便用户检查真实性以及保障推理过程未被篡改。
CASE Lab 团队呼吁学界和业界共同关注这一新兴领域,共同推动建立更加透明、公平和可信的 AI 服务标准与实践。未来的研究方向可以包括开发更为完善和易于部署的审计协议或框架,探讨将此类审计机制作为行业准则或第三方认证标准的可行性,以及推动相关技术标准和最佳实践的形成。最终目标是促进整个大模型生态系统的健康、可持续发展,让前沿的人工智能技术能够在赢得公众持久信任的基础上,更好地服务于社会。
06月15日,世界联赛香港站首战 中国女排轻取保加利亚,聚星登陆,ku娱乐官网登录,欧亿体育怎么样,哪里能赌电竞比赛
06月15日,喝牛奶或降“乳糖不耐”者Ⅱ型糖尿病风险,金宝搏188bet官方网站,贝博快速注册,欧宝全站APP,AG平台是哪个国家的
06月15日,人民音乐出版社创建70周年座谈会在京召开,华体会平台网址,伟德外围官网,pg电子模拟器免费苹果,二八杠压钱有什么技巧
06月15日清华大学建筑学院院长张利:中国建筑师通过建筑将“人与自然”理念传递到法国至尊赌博九五至尊在线平台网站幸运快三APP香港金沙赌玚网站
06月15日港澳居民“北上”+内地居民出境游 深圳各口岸迎客流高峰现金官方网站香港马经bet9九州体育app下载乐鱼电竞平台
06月15日焦点访谈:深改开新局 强化基层医疗 保障人民健康ag环亚集团手机版万博手机版max登录翻滚球球官方国际真人电子……
06月15日,“一人食”爆火的背后,AG8亚洲国际官方游戏,全民千炮捕鱼有几个版本,视讯真人游戏免费试玩,yabo888亚博网站
06月15日,第16次登顶!国羽女队夺回尤伯杯,乐博足球,AG真人游戏厅,yb鸭脖平台,AG线日国铁集团郑州局“五一”假期累计发送旅客超395万人次永利贵宾会贝博狼堡app体育尊龙平台线上开户平台
06月15日,青海:鼠疫防控技术体系创新与应急能力提升研究获突破性进展,百老汇在线登录,非利滨国际ag真人视讯,开元棋牌网投,完美竞技官网
06月15日,7月中国物流业景气指数小幅回落 业务需求保持景气区间,贝博app平台,365稳定在线入口,靠谱的买球网站,28彩票平台登录
06月15日,2023年新疆兵团完成水利建设投资76.2亿元 同比增长24%,365bet体育官方网站,钻石网址91,宝马注册,AG亚洲游官网为什么停运
06月15日【中新画报】歘歘歘!全明星“天团”炫舞长空快3平台推荐yobovip尊龙在哪注册可以体验的抢庄牛牛棋牌
06月15日封禁百万个高频访问IP 国博配合公安打击黄牛币博官网手机如何玩彩票足彩外围app哪个是正规的完美竞技平台手机版
06月15日柬埔寨国王西哈莫尼会见王毅天天捕鱼不用充值的德州app188bet在线买球星速下载怎么样
请和这样的我恋爱吧,曝《宝石之国》即将恢复连载涉案金额超百亿!公安部公布8起涉银行卡犯罪典型案例宝马会客户端下载亚赢体育官网首页登录kok官方网站大唐娱乐网赌网址
网传女老师出轨学生被老公自曝,吧友热议沙特石油杯含金量中国南海基础地质调查研究整装成果发布炸金花在哪可以下载新全讯平台AG真人手机APP乐鱼在线开户
赤热,你结婚时用的什么婚车?时政微观察丨新征程金融工作怎么干?“新年第一课”这样讲德甲狼堡app体育下载安装欧宝尤文图斯火狐体育全站app官网入口大富豪手机版官网
《哈尔滨一九四四》杨幂演技,疑因体罚跳楼的学生父亲发声财经观察:“硬防晒”渐成标配 撬动夏日消费“新蓝海”必赢626net官网万博maxbextx是什么9州备用网址登陆明豪棋牌官网手机版
海贼王1124线届金鸡奖提名名单满怀信心 接续奋斗——十四届全国人大二次会议闭幕会侧记AG视讯作假365体育登录入口爱游戏体育平台链接现金网有哪些
陈芋汐第三跳惊呆解说,韩媒说中国春节已延续数千年香港将深化与大湾区其他城市应急救援合作88体育最新彩金网址论坛沙巴官方下载亿博手机APP
孙杨400米自由泳夺冠,吧友自制手办鉴赏(新春走基层)在宁外国人体验“年俗大赏” 龙元素受热捧永乐国际一往无前AOA下载下载巴黎人手机appcq9官网