🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
大模型掀40萬token長文本競賽 推動專業領域落地應用
大模型公司掀起長文本技術競賽,40萬token只是開始
4000到40萬token,大模型正在以驚人的速度不斷提升長文本處理能力。
長文本能力似乎已成爲大模型廠商的新"標配"。國外方面,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將上下文長度提升到10萬token。LongLLaMA則將上下文長度擴展到25.6萬token甚至更多。
國內方面,大模型初創公司月之暗面推出的智能助手Kimi Chat支持輸入20萬漢字,約合40萬token。港中文賈佳亞團隊聯合MIT發布的LongLoRA技術可將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。
目前,國內外已有一大批頂級大模型技術公司和研究機構將上下文長度拓展作爲升級重點。這些公司大多獲得了資本市場的青睞,如OpenAI斬獲近120億美元投資,Anthropic估值有望達到300億美元,月之暗面成立半年就完成兩輪近20億元融資。
大模型公司如此重視長文本技術,上下文長度擴大100倍意味着什麼?表面上看是輸入文本長度和閱讀能力的提升。更深層次來看,長文本技術正在推動大模型在金融、司法、科研等專業領域的應用落地。
然而,大模型可處理的上下文長度並不是關鍵,更重要的是模型對上下文內容的利用。目前國內外對文本長度的探索還遠未達到"臨界點",40萬token可能只是開始。
月之暗面創始人楊植麟表示,正是由於大模型輸入長度受限,才造成了許多應用落地的困境。長文本技術可以解決大模型初期被詬病的一些問題,增強某些功能,同時也是進一步推進產業和應用落地的關鍵技術。這標志着大模型發展進入了從LLM到Long LLM的新階段。
長文本技術爲大模型帶來了一系列新的功能升級,如超長文本信息提取與分析、復雜代碼生成、長對話場景下的角色扮演等。這些功能顯示出大模型正朝着專業化、個性化、深度化的方向發展,有望成爲撬動產業落地的新抓手。
然而,長文本技術也面臨着"不可能三角"困境:文本越長,越難聚集充分注意力;注意力限制下,短文本難以完整解讀復雜信息;處理長文本需要大量算力,提高成本。這主要源於大多數模型基於的Transformer結構中的自注意力機制,其計算量會隨上下文長度呈平方級增長。
目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。未來大模型廠商需要在文本長短、注意力和算力三者之間尋求最佳平衡點,以處理足夠信息的同時兼顧注意力計算和算力成本限制。