Kemampuan teks panjang model besar mengalami terobosan, 400.000 token mungkin hanya permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang menakjubkan, dari 4000 token hingga 400.000 token, kemampuan ini tampaknya menjadi "standar" baru bagi produsen model besar.
Di tingkat internasional, OpenAI telah meningkatkan panjang konteks dari GPT-3.5 dan GPT-4 menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks menjadi 100.000 token. LongLLaMA memperluas panjang konteks hingga 256.000 token atau bahkan lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Moon's Dark Side, dapat mendukung input 200.000 karakter Han, sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Chinese University of Hong Kong dan MIT dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.
Saat ini, banyak perusahaan dan lembaga model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Dark Side of the Moon, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang utama. Perusahaan-perusahaan ini juga merupakan objek yang dicari oleh pasar modal. OpenAI telah mendapatkan hampir 12 miliar dolar investasi, valuasi Anthropic diharapkan mencapai 30 miliar dolar, dan Dark Side of the Moon telah menyelesaikan dua putaran pendanaan hampir 2 miliar yuan dalam waktu enam bulan setelah didirikan.
Perusahaan model besar sangat memperhatikan teknologi teks panjang, apa arti peningkatan panjang konteks 100 kali lipat?
Secara superficial, ini berarti panjang teks yang dapat diproses oleh model dan kemampuannya untuk membaca meningkat secara signifikan. Misalnya, GPT-3.5 hanya dapat memasukkan sekitar 2000 karakter Han, sementara Kimi Chat dapat memasukkan 200.000 karakter Han, setara dengan sebuah novel panjang.
Dalam pandangan yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kebutuhan dasar di bidang ini, serta merupakan fokus yang mendesak untuk ditingkatkan secara cerdas.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa tidak ada hubungan langsung antara panjang konteks yang didukung model besar dan kinerja model, yang lebih penting adalah bagaimana model menggunakan konten konteks.
Namun saat ini, tampaknya eksplorasi panjang teks di dalam dan luar negeri masih jauh dari mencapai "titik kritis". 400.000 token mungkin hanya sebuah awal, perusahaan model besar masih terus menerus menerobos teknologi ini.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
22 Suka
Hadiah
22
9
Posting ulang
Bagikan
Komentar
0/400
MissedTheBoat
· 07-06 22:03
Panjang tidak lebih baik daripada akurasi yang tinggi
Lihat AsliBalas0
GasFeeWhisperer
· 07-05 14:38
Wah besar sekali 4w, apakah kamu tidak sedang memberikan isyarat sesuatu?
Lihat AsliBalas0
CrashHotline
· 07-05 12:08
Wah, token ini naik dengan cepat!
Lihat AsliBalas0
LoneValidator
· 07-04 18:29
Panjang-panjang tetap saja tidak berguna.
Lihat AsliBalas0
SocialFiQueen
· 07-04 18:28
Angka bisa bertahan berapa lama, jika tidak bisa disimpan dalam hati, jangan bilang teks panjang.
Lihat AsliBalas0
ConsensusBot
· 07-04 18:27
Panjang tapi berguna?
Lihat AsliBalas0
SelfRugger
· 07-04 18:23
Apa gunanya teks yang panjang? Masih bisa diperdagangkan?
Kemampuan teks panjang model besar melampaui 400.000 token atau mungkin menjadi titik awal baru
Kemampuan teks panjang model besar mengalami terobosan, 400.000 token mungkin hanya permulaan
Model besar sedang meningkatkan kemampuan pemrosesan teks panjang dengan kecepatan yang menakjubkan, dari 4000 token hingga 400.000 token, kemampuan ini tampaknya menjadi "standar" baru bagi produsen model besar.
Di tingkat internasional, OpenAI telah meningkatkan panjang konteks dari GPT-3.5 dan GPT-4 menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah meningkatkan panjang konteks menjadi 100.000 token. LongLLaMA memperluas panjang konteks hingga 256.000 token atau bahkan lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Moon's Dark Side, dapat mendukung input 200.000 karakter Han, sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Chinese University of Hong Kong dan MIT dapat memperluas panjang teks model 7B menjadi 100.000 token, dan model 70B menjadi 32.000 token.
Saat ini, banyak perusahaan dan lembaga model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Dark Side of the Moon, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang utama. Perusahaan-perusahaan ini juga merupakan objek yang dicari oleh pasar modal. OpenAI telah mendapatkan hampir 12 miliar dolar investasi, valuasi Anthropic diharapkan mencapai 30 miliar dolar, dan Dark Side of the Moon telah menyelesaikan dua putaran pendanaan hampir 2 miliar yuan dalam waktu enam bulan setelah didirikan.
Perusahaan model besar sangat memperhatikan teknologi teks panjang, apa arti peningkatan panjang konteks 100 kali lipat?
Secara superficial, ini berarti panjang teks yang dapat diproses oleh model dan kemampuannya untuk membaca meningkat secara signifikan. Misalnya, GPT-3.5 hanya dapat memasukkan sekitar 2000 karakter Han, sementara Kimi Chat dapat memasukkan 200.000 karakter Han, setara dengan sebuah novel panjang.
Dalam pandangan yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian. Kemampuan ringkasan dokumen panjang, pemahaman bacaan, dan tanya jawab adalah kebutuhan dasar di bidang ini, serta merupakan fokus yang mendesak untuk ditingkatkan secara cerdas.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa tidak ada hubungan langsung antara panjang konteks yang didukung model besar dan kinerja model, yang lebih penting adalah bagaimana model menggunakan konten konteks.
Namun saat ini, tampaknya eksplorasi panjang teks di dalam dan luar negeri masih jauh dari mencapai "titik kritis". 400.000 token mungkin hanya sebuah awal, perusahaan model besar masih terus menerus menerobos teknologi ini.