# 大規模モデルの長文能力が突破口を迎え、40万トークンは始まりに過ぎない大規模モデルは驚異的な速度で長文処理能力を向上させており、4000トークンから40万トークンへと、この能力は大規模モデルメーカーの新しい"標準"のようです。国際的に、OpenAIは何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万トークンと3.2万トークンに引き上げました。Anthropicはさらにコンテキスト長を10万トークンに引き上げました。LongLLaMAはコンテキスト長を25.6万トークン以上に拡張しました。国内において、大規模モデルのスタートアップである月之暗面が発表したKimi Chatは、20万の漢字、約40万のトークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに、70Bモデルを3.2万トークンに拡張することができます。現在、OpenAI、Anthropic、Meta、月の暗い面など、多くのトップモデル企業や機関が文脈の長さの拡張を重点的なアップグレードの方向性としています。これらの企業はすべて資本市場に支持されている対象です。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みで、月の暗い面は設立から半年で2回の約20億元の資金調達を完了しました。大規模モデル企業が長文技術をこれほど重視する理由とは、文脈の長さが100倍に拡大することが意味するのか?表面上見ると、これはモデルが処理できるテキストの長さと読解能力が大幅に向上したことを意味します。例えば、GPT-3.5は約2000文字の漢字を入力できるのに対し、Kimi Chatは20万文字の漢字を入力でき、長編小説1冊に相当します。より深い視点から見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの実用化を推進しています。長文書の要約、読解、質問応答などの能力はこれらの分野の基本的なニーズであり、また、早急に知能化のアップグレードが求められています。しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、大規模モデルがサポートするコンテキストの長さとモデルのパフォーマンスとの間には直接的な関係はなく、より重要なのはモデルがコンテキストの内容をどのように使用するかです。しかし現在のところ、国内外でのテキストの長さに関する探求はまだ"臨界点"には達していないようです。40万トークンは単なる始まりに過ぎず、大規模モデル企業はこの技術を引き続き突破しています。
大規模モデルの長文能力が40万トークンを突破、これは新たな出発点かもしれません。
大規模モデルの長文能力が突破口を迎え、40万トークンは始まりに過ぎない
大規模モデルは驚異的な速度で長文処理能力を向上させており、4000トークンから40万トークンへと、この能力は大規模モデルメーカーの新しい"標準"のようです。
国際的に、OpenAIは何度もアップグレードを行い、GPT-3.5とGPT-4のコンテキスト長をそれぞれ1.6万トークンと3.2万トークンに引き上げました。Anthropicはさらにコンテキスト長を10万トークンに引き上げました。LongLLaMAはコンテキスト長を25.6万トークン以上に拡張しました。
国内において、大規模モデルのスタートアップである月之暗面が発表したKimi Chatは、20万の漢字、約40万のトークンの入力をサポートしています。香港中文大学とMITが共同開発したLongLoRA技術は、7Bモデルのテキスト長を10万トークンに、70Bモデルを3.2万トークンに拡張することができます。
現在、OpenAI、Anthropic、Meta、月の暗い面など、多くのトップモデル企業や機関が文脈の長さの拡張を重点的なアップグレードの方向性としています。これらの企業はすべて資本市場に支持されている対象です。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みで、月の暗い面は設立から半年で2回の約20億元の資金調達を完了しました。
大規模モデル企業が長文技術をこれほど重視する理由とは、文脈の長さが100倍に拡大することが意味するのか?
表面上見ると、これはモデルが処理できるテキストの長さと読解能力が大幅に向上したことを意味します。例えば、GPT-3.5は約2000文字の漢字を入力できるのに対し、Kimi Chatは20万文字の漢字を入力でき、長編小説1冊に相当します。
より深い視点から見ると、長文技術は金融、司法、研究などの専門分野における大規模モデルの実用化を推進しています。長文書の要約、読解、質問応答などの能力はこれらの分野の基本的なニーズであり、また、早急に知能化のアップグレードが求められています。
しかし、テキストの長さは長ければ長いほど良いわけではありません。研究によると、大規模モデルがサポートするコンテキストの長さとモデルのパフォーマンスとの間には直接的な関係はなく、より重要なのはモデルがコンテキストの内容をどのように使用するかです。
しかし現在のところ、国内外でのテキストの長さに関する探求はまだ"臨界点"には達していないようです。40万トークンは単なる始まりに過ぎず、大規模モデル企業はこの技術を引き続き突破しています。