
SERVICE PHONE
363050.com发布时间:2025-06-23 03:20:47 点击量:
平博体育,平博真人,平博棋牌,平博彩票,平博电竞,平博百家乐,平博游戏,平博体育官方网站,平博体育网址,平博体育app,平博app下载,平博投注,平博,平博官方网站,平博最新入口,平博赛事,平博足球
近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。
然而,为了保护核心知识产权(如防止模型蒸馏或 Agent 工作流泄露)、提供更流畅的用户体验,服务提供商通常会将这些中间步骤隐藏,仅向用户呈现最终的输出结果。这在当前的商业和技术环境下,是一种保护创新、简化交互的常见做法。
近期,CASE Lab 团队将这类隐藏其内部工作流、仅返回最终结果但却按总 token 量计费的服务定义为「商业不透明大模型服务」(Commercial Opaque LLM Service, COLS)。如图 1所示,无论是 Reasoning LLM 还是多智能体系统(Agentic LLMs)相关的服务,其内部都存在大量用户不可见的计费点。
然而,这种商业模式也隐含出一种新型风险:由于用户无法看到、验证或质疑这些隐藏操作,一些不良的服务提供商在利益驱动下,可能通过「虚报消耗 token 数量」或对模型进行「偷梁换柱」来悄悄增加用户费用或降低自身成本。
图 3以 Reasoning LLM API 为例,展示了主流模型隐藏的推理 tokens 数量,其常常是最终答案的几十倍之多。这意味着用户支付的绝大部分费用,都花在了他们看不见的地方,真实性无从考证。
团队对 Reasoning LLM 和 Agentic LLMs 中的主要风险给出了具体定义并给出了潜在解决方案,包括:
1. 数量膨胀(Quantity Inflation),即服务方通过夸大生成 token 数量或内部模型调用次数来虚增计费。具体表现为:
在 Reasoning LLM 中,可能通过冗余推理步骤(如重复检索、低效展开)造成 token 增长;在 Agentic LLMs 中,则可能存在模型或工具调用的频率膨胀,甚至伪造通信行为。
2. 质量降级(Quality Downgrade),即服务方在保持计费标准不变的情况下,悄然替换为低成本模型或工具。例如:
在 Reasoning LLM 中调用小尺寸的或量化后的模型;在 Agentic LLMs 中模拟工具调用而非真正执行,或者用成本更低的工具替代宣称的高成本工具,例如用本地知识库代替网络搜索。
此外,如图 4 所示,团队还提出了一个结构化的三层审计蓝图,旨在推动 COLS 行业建立标准化、可验证的审计基础设施:
第一层(服务执行层):记录 COLS 内部模型生成、Agent 通信与工具调用等核心操作;第二层(安全承诺与记录层):将上述操作以加密摘要、哈希链、区块链等形式提交为可验证承诺;第三层(审计与反馈层):允许用户或第三方审计机构对服务行为进行独立验证,并为用户提供账单合理性或服务一致性的反馈报告。
该框架基于「可验证但不泄密」的理念,鼓励未来的 COLS 服务商在保护商业敏感信息的同时,实现对用户透明、可信的服务承诺。这一体系既支持技术层面的透明性,也为政策制定与合规提供了实现路径。
为了解决 Reasoning LLM API 的计费审计问题,该研究团队还提出了用于防止 token数量膨胀(Quantity Inflation)的验证框架 CoIn,旨在提供一种技术可能性,在尊重和保护 COLS 的商业机密和知识产权的前提下,赋予用户验证服务真实性的途径,从而在用户和 COLS 之间搭建起一座「信任桥梁」。
如算法 1所示,CoIn 包含适应性的多轮验证,其中每轮会验证 COLS 宣称的 Token 数量是否准确以及隐藏的 Reasoning Token 是否真正参与推导出答案,最终由 Verifier 来给出判断。对于正常样本,CoIn 会在早期便验证成功并结束,而对于较难判断的样本或者数量膨胀后的恶意样本,CoIn 会验证更多轮,避免漏判。
1.Token 数量验证 (Token Quantity Verification): 如图 5-(a)所示,这一模块巧妙地运用了密码学中的默克尔树 (Merkle Tree) 技术。COLS 需将其所有隐藏 tokens 的「指纹」(即嵌入向量,embedding)作为叶子节点,构建一棵哈希树,并向审计方(可以是用户或独立的第三方平台)提供最终的哈希根(Merkle Root)。在审计时,审计方仅需请求并验证极少数随机抽取的 token “指纹” 及其在哈希树中的路径(Merkle Proof),便能高效地核实 token 总数是否与声明一致,而无需访问所有 token 的原始内容。
这种方法的核心优势在于,它能在泄露很少推理步骤的前提下,确保数量的准确性。更重要的是,由于哈希承诺的特性和用户质疑的随机性,恶意 COLS 的伪造必须做全套,并且在返回给用户结果时就得完成伪造,无法专门应对用户的质疑,大大提高了 COLS 的造假成本。
2. 语义有效性验证 (Semantic Validity Verification): 仅验证数量的准确性尚不足以完全打消用户的疑虑,因为理论上 COLS 仍可能产生大量与任务目标关联较弱的「无效」token 来冒充隐藏 token。如图 5-(b)所示,CoIn 设计了轻量级的「Matching Head」来分析被抽查的隐藏 token(的指纹)与最终答案之间的语义连贯性和逻辑相关性,并给出一个相关性评分。如果评分显著偏低,则可能表明这些隐藏 token 对最终结果的贡献有限。这一机制旨在确保用户支付的费用,对应的是真正服务于任务目标的有效推理过程。
团队定义了 COLS 可能会实施的多种适应性数量膨胀攻击,并据此在医疗、代码、数学、通用推理等多个不同领域上构建了高难度的数据集,用于训练 CoIn 框架中的 Matching Head 和 Verifier,以及验证 CoIn 框架的性能。实验结果显示,CoIn 框架具有如下特性:
高效识别 token 数量膨胀:图 6展示了 CoIn 在不同模拟场景下的检测成功率(Detection Success Rate, DSR),可以看到,随着膨胀率(Inflation Rate = 伪造的 token 数 / 真实 token 数)的增加,CoIn 的识别能力也相应增强。在高膨胀率的场景下(即 COLS 伪造的 token 占比超过 50%),即使面对经过特殊设计、语义上与原始内容相似的「自适应 token 膨胀」场景,在仅暴露极少量信息的情况下,CoIn 的平均 DSR 也能达到 94.7%。而对于 COLS 仅仅虚报 10% tokens 的场景中,CoIn 也有约 40% 的平均 DSR。可定制性:图 6中的红线和蓝线分别代表两种类型的 Verifier,一种基于神经网络,一种基于规则。前者对于恶意样本具有很高的 DSR,但是对正常样本的误判率也比较高。而后者则可以由 COLS 和用户协商后设置参数,在减少对正常样本的误判和高效检测数量膨胀之间达到平衡。极低的审计开销: 整个审计过程对用户和服务商而言开销较低。在验证过程中,审计方仅需访问不到 4% 的隐藏 token 信息(指纹),便能完成高精度的验证。如图 7所示,默克尔树的构建在单核 CPU 上只需要一秒左右,对于拥有强大计算资源的 COLS 而言,其额外开销几乎可以忽略不计。
图 6:不同膨胀率(Inflation Rate)下,CoIn 应对多种数量膨胀攻击时的表现。
总的来说,来自马里兰大学的 CASE Lab 团队首次系统性地分析了当前主流大模型服务在「隐藏操作」透明度方面面临的挑战,并提出了首个旨在解决 token 数量膨胀问题的审计框架 CoIn。
CoIn 的核心贡献在于,它探索出一条在平衡服务商知识产权保护与用户对服务透明度合理需求之间的技术路径,期望能为构建用户和服务商之间的相互信任提供有力的技术支撑。
截至目前,主流推理模型均不会暴露自己的推理过程,尽管这部分仍然需要用户付费。然而,已经有一些转变标识着各大 LLM API 提供商正在尝试达到知识产权保护和用户知情权的平衡。例如,几乎所有服务提供商都会提供返回摘要的服务;Claude 4.0 可以提供加密后的推理 tokens 以便用户检查真实性以及保障推理过程未被篡改。
CASE Lab 团队呼吁学界和业界共同关注这一新兴领域,共同推动建立更加透明、公平和可信的 AI 服务标准与实践。未来的研究方向可以包括开发更为完善和易于部署的审计协议或框架,探讨将此类审计机制作为行业准则或第三方认证标准的可行性,以及推动相关技术标准和最佳实践的形成。最终目标是促进整个大模型生态系统的健康、可持续发展,让前沿的人工智能技术能够在赢得公众持久信任的基础上,更好地服务于社会。
06月13日,成都市龙泉驿区政协党组书记、主席张军接受纪律审查和监察调查,伟德体育足球,中特,千赢88,MG电子快速登陆
06月13日,山东冠县警方通报网传“9岁男童疑遭故意伤害”案件,传奇捕鱼电玩,九游会官网入口,第三张补牌的规则,ag线日,新疆阿克苏赴穗推介文旅 拓展大湾区市场,精选玄机,巴士电玩城捕鱼,jdb捕鱼放水时间怎么算,棋牌休闲游戏
06月13日“龙虾之都”盱眙小龙虾集中开捕展“富民画卷”火狐体育官网iOS下载真人cs国际比赛规则捕鱼达人网页版在线月中国国有企业营业总收入同比增长1.2%香港赌王心经国际真人电子job体育app欧宝可靠吗
06月13日四天三艘“中国造”货轮上海外高桥口岸首航哪个体育平台好赚钱在线平台买球球址汇杏鑫官方网站下载ManBetx外围官网……
06月13日,多国校长探讨数字教育赋能终身学习,亚美体育是正规网站吗,ope体育平台d,18luck新利,永乐国际app官方网站
06月13日新华社记者说|今年两会,习尤为关切这件“新”事千亿官方网站皇冠注册壹定发游戏娱乐平台网址365bet怎么买球
06月13日,共享单车价格都快贵过地铁了,但共享单车运营企业还在亏本?,博狗在线官网平台,立博体育官方,乐虎国际唯一登录首页,体球网足球即时比分手机版
06月13日,“2024东亚文化之都·潍坊活动年”开幕,新开户送体验金平台,天游注册登录,MG真人入口登录,BOB综合体育官网app下载
06月13日,中国香港队惜败瑞典队 仍晋级国际乒联混团世界杯八强,葡京在线游戏,美女六肖图B,送金币棋牌大全,欧洲杯东道主
06月13日(国际观察)斯塔默执政“蜜月期”的紧迫挑战亚新体育体育平台所有巴黎人网站香港小四喜PG电子游戏官方下载
06月13日川渝两地首次开展森林火灾联合应急演练19体育官网登录万博休体育还能玩吗新宝2必威体育官方
06月13日李强会见新西兰总督基罗火狐体育压注大红鹰官网登录皇冠体育在线娱乐牛牛抢庄模式规则
EDGM战胜Hero,人民文娱评华晨宇日出演唱会羽绒服越厚重越保暖,羽绒服最适合干洗……别被这些羽绒服传言误导伯爵官网网站国际象棋真人秀背景音乐爱游戏下载appAOA登录官网
狂飙,出国后发现白人有白人的卷法部长通道丨孙业礼:“冰天雪地”正在变成“金山银山”必威快速登陆火狐体育安卓版最新版欧洲杯哪个平台能赌博乐体育在线
塞尔维亚街头现巨幅五星红旗,来到你的世界风暴“伊莎”袭击英国 希思罗机场多架航班艰难降落银河娱乐捕鱼下载金沙官网是多少博鱼电竞博鱼体育官方app
叙利亚首都仅剩最后一道重要防线,婚后事哈尔滨机场单日起降架次、旅客量双创纪录ca88网址大发体育足球BOB综合体育苹果下载沙巴体育中文注册登录
杭州官宣梅西3月来杭,我的大学生活是这样的山西平遥:女孩坠入护城河 消防紧急施救果博真人太阳城注册彩金宝博官网是多少泛亚电竞菠菜
我是加百列,迪丽热巴鼻子倒影初冬时节 重庆巫山下庄村云雾缭绕美如画AG试玩在哪里开户注册送8金币澳门游戏网站是多少真钱真人赌场