大模型长文本能力突破 40万token或为新起点

2025-07-04 17:59:02

摘要生成中

大模型长文本能力迎来突破，40万token或只是开始

大模型正以惊人的速度提升长文本处理能力，从4000 token到40万token,这一能力似乎成为大模型厂商的新"标配"。

国际上，OpenAI通过多次升级将GPT-3.5和GPT-4的上下文长度分别提升至1.6万和3.2万token。Anthropic更是一举将上下文长度提高到10万token。LongLLaMA则将上下文长度扩展到25.6万token甚至更多。

国内方面,大模型初创公司月之暗面推出的Kimi Chat可支持输入20万汉字,约40万token。港中文和MIT联合开发的LongLoRA技术,能将7B模型文本长度扩展到10万token,70B模型扩展到3.2万token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在内的众多顶级大模型公司和机构都将拓展上下文长度作为重点升级方向。这些公司也都是资本市场追捧的对象。OpenAI已获近120亿美元投资,Anthropic估值有望达300亿美元,月之暗面成立半年即完成两轮近20亿元融资。

大模型公司如此重视长文本技术,上下文长度扩大100倍意味着什么?

表面上看,这意味着模型可处理的文本长度和阅读能力大幅提升。例如,GPT-3.5只能输入约2000个汉字,而Kimi Chat可输入20万汉字,相当于一本长篇小说。

更深层次来看,长文本技术正在推动大模型在金融、司法、科研等专业领域的落地。长文档摘要、阅读理解、问答等能力是这些领域的基本需求,也是亟待智能化升级的重点。

不过,文本长度并非越长越好。有研究表明,大模型支持的上下文长度与模型效果之间并不存在直接关系,更重要的是模型如何使用上下文内容。

但目前看来,国内外对文本长度的探索还远未达到"临界点"。40万token可能只是一个开始,大模型公司仍在不断突破这一技术。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

22人点赞了这条动态

0/400

踏空资深专业户

· 07-06 22:03

长度长了不如准确率高

Gas Fee Whisperer

· 07-05 14:38

好大哦 4w你怕不是在暗示点啥

崩溃电话热线

· 07-05 12:08

好家伙这波token涨猛了

独孤验证者

· 07-04 18:29

长长长就是还是没用

SocialFiQueen

· 07-04 18:28

数字又能存多久不能存心里就别说长文本

共识机器人

· 07-04 18:27

长但有用吗

SelfRugger

· 07-04 18:23

文本长了有嘛用还能交易不

StakeOrRegret

· 07-04 18:14

那就跑更多bug呗

后排吃瓜哥

· 07-04 18:13

搁这卷？啥时候是个头！