Велика модель має прорив у здатності працювати з довгими текстами, 400 тисяч токенів може бути лише початком
Великі моделі швидко покращують здатність обробки довгих текстів, з 4000 токенів до 400 000 токенів, ця здатність, здається, стала новим "стандартом" для виробників великих моделей.
На міжнародному рівні OpenAI кілька разів оновлювала GPT-3.5 та GPT-4, збільшивши довжину контексту до 16 000 та 32 000 токенів відповідно. Anthropic в одному кроці підвищила довжину контексту до 100 000 токенів. LongLLaMA розширила довжину контексту до 256 000 токенів і навіть більше.
На внутрішньому ринку стартап компанії Moon's Dark Side представила Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, приблизно 400 тисяч токенів. Технологія LongLoRA, розроблена спільно китайським університетом та MIT, може розширити довжину тексту для 7B моделі до 100 тисяч токенів, а для 70B моделі до 32 тисяч токенів.
Наразі багато провідних компаній та установ у сфері великих моделей, таких як OpenAI, Anthropic, Meta та Місяць темряви, зосереджуються на розширенні довжини контексту як ключовому напрямку оновлення. Ці компанії також є об'єктами уваги ринку капіталу. OpenAI отримав майже 12 мільярдів доларів інвестицій, оцінка Anthropic може досягти 30 мільярдів доларів, а Місяць темряви, заснований лише півроку тому, вже завершив два раунди фінансування на майже 2 мільярди юанів.
Що означає те, що компанії з великими моделями так серйозно ставляться до технології довгих текстів, якщо довжина контексту збільшується в 100 разів?
На перший погляд, це означає, що довжина тексту, який може обробляти модель, та її здатність до читання значно підвищились. Наприклад, GPT-3.5 може вводити лише близько 2000 ієрогліфів, тоді як Kimi Chat може вводити 200000 ієрогліфів, що дорівнює довгому роману.
Глибше розглядаючи, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здібності до узагальнення довгих документів, розуміння прочитаного, відповіді на запитання є базовими вимогами цих сфер та є пріоритетами для інтелектуального оновлення.
Проте, довжина тексту не завжди є кращою. Дослідження показують, що між довжиною контексту, підтримуваною великими моделями, та ефективністю моделі немає прямого зв'язку; важливіше, як модель використовує контент контексту.
Але наразі виглядає так, що дослідження довжини тексту в країні та за її межами ще далеко не досягли "критичної точки". 400 тисяч токенів, можливо, лише початок, компанії з великими моделями все ще постійно порушують цю технологію.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
22 лайків
Нагородити
22
9
Репост
Поділіться
Прокоментувати
0/400
MissedTheBoat
· 07-06 22:03
Довжина менш важлива, ніж висока точність.
Переглянути оригіналвідповісти на0
GasFeeWhisperer
· 07-05 14:38
Яка велика! 4w, ти, напевно, натякаєш на щось.
Переглянути оригіналвідповісти на0
CrashHotline
· 07-05 12:08
Гарна справа, цей токен показав значне зростання.
Переглянути оригіналвідповісти на0
LoneValidator
· 07-04 18:29
Довго, довго, довго - все ще без користі.
Переглянути оригіналвідповісти на0
SocialFiQueen
· 07-04 18:28
Цифри як довго можуть зберігатися? Якщо не можна зберегти в серці, то не кажіть про довгі тексти.
Переглянути оригіналвідповісти на0
ConsensusBot
· 07-04 18:27
Довгий, але корисний?
Переглянути оригіналвідповісти на0
SelfRugger
· 07-04 18:23
Який сенс у довгому тексті? Чи можна ще торгувати?
Велика модель здатна обробляти довгі тексти, що перевищують 400 000 токенів, може стати новою відправною точкою.
Велика модель має прорив у здатності працювати з довгими текстами, 400 тисяч токенів може бути лише початком
Великі моделі швидко покращують здатність обробки довгих текстів, з 4000 токенів до 400 000 токенів, ця здатність, здається, стала новим "стандартом" для виробників великих моделей.
На міжнародному рівні OpenAI кілька разів оновлювала GPT-3.5 та GPT-4, збільшивши довжину контексту до 16 000 та 32 000 токенів відповідно. Anthropic в одному кроці підвищила довжину контексту до 100 000 токенів. LongLLaMA розширила довжину контексту до 256 000 токенів і навіть більше.
На внутрішньому ринку стартап компанії Moon's Dark Side представила Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, приблизно 400 тисяч токенів. Технологія LongLoRA, розроблена спільно китайським університетом та MIT, може розширити довжину тексту для 7B моделі до 100 тисяч токенів, а для 70B моделі до 32 тисяч токенів.
Наразі багато провідних компаній та установ у сфері великих моделей, таких як OpenAI, Anthropic, Meta та Місяць темряви, зосереджуються на розширенні довжини контексту як ключовому напрямку оновлення. Ці компанії також є об'єктами уваги ринку капіталу. OpenAI отримав майже 12 мільярдів доларів інвестицій, оцінка Anthropic може досягти 30 мільярдів доларів, а Місяць темряви, заснований лише півроку тому, вже завершив два раунди фінансування на майже 2 мільярди юанів.
Що означає те, що компанії з великими моделями так серйозно ставляться до технології довгих текстів, якщо довжина контексту збільшується в 100 разів?
На перший погляд, це означає, що довжина тексту, який може обробляти модель, та її здатність до читання значно підвищились. Наприклад, GPT-3.5 може вводити лише близько 2000 ієрогліфів, тоді як Kimi Chat може вводити 200000 ієрогліфів, що дорівнює довгому роману.
Глибше розглядаючи, технології довгих текстів сприяють впровадженню великих моделей у фінансовій, судовій, науковій та інших професійних сферах. Здібності до узагальнення довгих документів, розуміння прочитаного, відповіді на запитання є базовими вимогами цих сфер та є пріоритетами для інтелектуального оновлення.
Проте, довжина тексту не завжди є кращою. Дослідження показують, що між довжиною контексту, підтримуваною великими моделями, та ефективністю моделі немає прямого зв'язку; важливіше, як модель використовує контент контексту.
Але наразі виглядає так, що дослідження довжини тексту в країні та за її межами ще далеко не досягли "критичної точки". 400 тисяч токенів, можливо, лише початок, компанії з великими моделями все ще постійно порушують цю технологію.