Anthropic telah melancarkan Claude Sonnet 4 dengan tetingkap konteks yang besar iaitu 1 juta token, yang mampu memproses keseluruhan siri buku Harry Potter dalam satu arahan. Perkembangan ini telah mencetuskan perbincangan yang ketara dalam komuniti AI, terutamanya mengenai perbandingannya dengan model pesaing Google dalam ujian prestasi dunia sebenar.
Spesifikasi Tetingkap Konteks
- Claude Sonnet 4: 1 juta token
- Gemini 1.5 Pro: 1 juta token
- Gemini 1.5 Flash: 1 juta token
- Anggaran kapasiti: ~1 juta perkataan (keseluruhan siri Harry Potter )
Pertukaran Antara Kelajuan dan Perincian Muncul dalam Tugasan Konteks Panjang
Ujian mendedahkan pembahagian prestasi yang jelas antara Claude Sonnet 4 dan model Gemini Google. Dalam tugasan analisis adegan filem yang tertanam dalam 900,000 perkataan teks, Claude menyelesaikan kerja dengan pantas dalam masa hanya 41.8 saat, hampir separuh masa Gemini Flash (69.2 saat) dan jauh lebih pantas daripada Gemini Pro (116.0 saat). Walau bagaimanapun, kelajuan ini datang dengan kos - respons Claude secara konsisten sekitar 500 perkataan manakala model Gemini menyampaikan analisis yang jauh lebih komprehensif iaitu 1,591 hingga 3,372 perkataan.
Gambaran ketepatan memihak kepada Claude, dengan model ini menunjukkan halusinasi yang lebih sedikit berbanding varian Gemini yang kadangkala salah mengenal pasti tajuk filem. Apabila Claude tidak pasti tentang butiran, ia hanya menolak untuk memberikan maklumat yang berpotensi salah daripada membuat fakta palsu.
Perbandingan Prestasi - Analisis Adegan Filem
Model | Masa Respons | Bilangan Perkataan | Ketepatan |
---|---|---|---|
Claude Sonnet 4 | 41.8 saat | ~500 perkataan | Tinggi (tiada halusinasi) |
Gemini 1.5 Flash | 69.2 saat | 3,372 perkataan | Sederhana (beberapa halusinasi) |
Gemini 1.5 Pro | 116.0 saat | 1,591 perkataan | Sederhana (beberapa halusinasi) |
![]() |
---|
Carta ini menggambarkan perbandingan prestasi pelbagai model AI dalam menganalisis strategi permainan, menonjolkan keseimbangan antara kelajuan dan perincian dalam analisis mereka |
Analisis Kod Mendedahkan Kelebihan Teknikal Gemini
Untuk analisis pangkalan kod yang kompleks yang melibatkan sistem Ruby on Rails, model Gemini menunjukkan prestasi yang unggul walaupun Claude mempunyai kelebihan kelajuan. Perbincangan komuniti menyerlahkan kebimbangan berterusan tentang isu pengurusan konteks Gemini, dengan pengguna melaporkan masalah di mana model menjadi keliru dalam perbualan panjang dan mula mencampurkan konsep dan kenyataan, kemudian merujuk kepada beberapa fakta atau komen hibrid yang direka-reka.
Gemini SANGAT teruk dalam pencampuran konteks. Ia tidak dapat menjejaki apa yang saya katakan dan apa yang ia katakan dalam perbualan di bawah 200K token.
Maklum balas ini menunjukkan bahawa walaupun Gemini cemerlang dalam tugasan analisis terperinci, ia bergelut untuk mengekalkan konteks jangka panjang yang koheren dalam senario interaktif.
Penetapan Harga Mewujudkan Halangan Ketara
Struktur kos sangat memihak kepada penawaran Google. Claude mengenakan caj lapan dolar Amerika Syarikat bagi setiap 1 juta token input untuk arahan melebihi 200,000 token, manakala Gemini Pro berharga hanya satu dolar lima puluh sen Amerika Syarikat dan Gemini Flash hanya tiga puluh lima sen Amerika Syarikat bagi sejuta token. Jurang harga ini telah menyebabkan ahli komuniti menyerlahkan platform AI Studio percuma Google, yang menyediakan akses kepada tetingkap konteks 1 juta token penuh tanpa kos, walaupun dengan had penggunaan.
Perbandingan Harga - Setiap 1 Juta Token Input
- Claude Sonnet 4: $8.00 USD (untuk gesaan >200K token)
- Gemini 1.5 Pro: $1.50 USD
- Gemini 1.5 Flash: $0.35 USD
- Google AI Studio: Percuma (dengan had penggunaan)
Kesimpulan
Tetingkap konteks 1 juta token Claude Sonnet 4 mewakili pencapaian teknikal yang ketara, terutamanya untuk pengguna yang mengutamakan kelajuan dan ketepatan berbanding analisis terperinci. Walau bagaimanapun, premium harga yang besar dan prestasi unggul Gemini dalam tugasan komprehensif mewujudkan matriks keputusan yang kompleks untuk pembangun dan perniagaan yang memilih antara platform AI ini.
Rujukan: Vibe Check: Claude Sonnet 4. Now Has a 1-million Joken Context Window