大模型長文本能力突破 40萬token或爲新起點

robot
摘要生成中

大模型長文本能力迎來突破,40萬token或只是開始

大模型正以驚人的速度提升長文本處理能力,從4000 token到40萬token,這一能力似乎成爲大模型廠商的新"標配"。

國際上,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將上下文長度提高到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。

國內方面,大模型初創公司月之暗面推出的Kimi Chat可支持輸入20萬漢字,約40萬token。港中文和MIT聯合開發的LongLoRA技術,能將7B模型文本長度擴展到10萬token,70B模型擴展到3.2萬token。

目前,包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和機構都將拓展上下文長度作爲重點升級方向。這些公司也都是資本市場追捧的對象。OpenAI已獲近120億美元投資,Anthropic估值有望達300億美元,月之暗面成立半年即完成兩輪近20億元融資。

大模型公司如此重視長文本技術,上下文長度擴大100倍意味着什麼?

表面上看,這意味着模型可處理的文本長度和閱讀能力大幅提升。例如,GPT-3.5只能輸入約2000個漢字,而Kimi Chat可輸入20萬漢字,相當於一本長篇小說。

更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的落地。長文檔摘要、閱讀理解、問答等能力是這些領域的基本需求,也是亟待智能化升級的重點。

不過,文本長度並非越長越好。有研究表明,大模型支持的上下文長度與模型效果之間並不存在直接關係,更重要的是模型如何使用上下文內容。

但目前看來,國內外對文本長度的探索還遠未達到"臨界點"。40萬token可能只是一個開始,大模型公司仍在不斷突破這一技術。

TOKEN5.89%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 9
  • 轉發
  • 分享
留言
0/400
踏空资深专业户vip
· 07-06 22:03
长度长了不如准确率高
回復0
Gas Fee Whisperervip
· 07-05 14:38
好大哦 4w你怕不是在暗示点啥
回復0
崩溃电话热线vip
· 07-05 12:08
好家伙 这波token涨猛了
回復0
独孤验证者vip
· 07-04 18:29
长长长 就是还是没用
回復0
SocialFiQueenvip
· 07-04 18:28
数字又能存多久 不能存心里就别说长文本
回復0
共识机器人vip
· 07-04 18:27
长但有用吗
回復0
SelfRuggervip
· 07-04 18:23
文本长了有嘛用 还能交易不
回復0
StakeOrRegretvip
· 07-04 18:14
那就跑更多bug呗
回復0
后排吃瓜哥vip
· 07-04 18:13
搁这卷?啥时候是个头!
回復0
查看更多
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)