Pemampatan Token Penglihatan DeepSeek-OCR Boleh Merevolusikan Cara LLM Memproses Teks

Pasukan Komuniti BigGo
Pemampatan Token Penglihatan DeepSeek-OCR Boleh Merevolusikan Cara LLM Memproses Teks

Dalam dunia kecerdasan buatan yang berkembang pesat, satu pendekatan baru untuk pengecaman aksara optik (OCR) sedang menimbulkan perbincangan penting dalam kalangan pemaju dan penyelidik. DeepSeek-OCR, yang baru dikeluarkan oleh syarikat kecerdasan buatan China DeepSeek, memperkenalkan konsep yang menarik: memperlakukan pengecaman teks sebagai masalah pemampatan di mana token penglihatan boleh mewakili maklumat yang jauh lebih banyak berbanding token teks tradisional. Perspektif inovatif ini telah mencetuskan perbincangan mengenai sifat asas bagaimana model bahasa besar memproses maklumat visual dan teks.

Terobosan Pemampatan Yang Menarik Perhatian

Aspek DeepSeek-OCR yang paling banyak dibincangkan dalam kalangan teknikal bukan hanya keupayaan OCRnya, tetapi pendekatan novelnya dalam perwakilan maklumat. Model tersebut mencapai apa yang penyelidik panggil sebagai pemampatan OCR hampir tanpa kehilangan pada nisbah kira-kira 10×, bermakna satu token penglihatan secara efektif boleh mewakili kandungan kira-kira sepuluh token teks. Nisbah pemampatan ini mewakili satu potensi terobosan dalam kecekapan sistem AI memproses maklumat teks daripada imej.

Komuniti telah aktif berdebat mengapa pemampatan ini berfungsi dengan sangat efektif. Sesetengah pakar mencadangkan bahawa token penglihatan, yang merupakan vektor bernilai berterusan dalam ruang semantik, secara semula jadi membawa lebih banyak maklumat berbanding token teks diskret. Seperti yang dinyatakan secara bernas oleh seorang pengulas, Token penglihatan adalah medium pemampatan yang baik kerana dengan satu token penglihatan anda mempunyai satu vektor dengan N elemen, tetapi dengan token teks anda mempunyai M vektor dengan N elemen. Perbezaan asas dalam perwakilan ini membolehkan model mengemas makna berbilang perkataan ke dalam token penglihatan tunggal, berpotensi mengurangkan keperluan pengiraan untuk memproses dokumen yang panjang.

Prestasi Mampatan

  • Mampatan hampir tanpa kehilangan pada nisbah ~10×
  • Mampatan 20× mengekalkan 60% ketepatan
  • Token penglihatan mewakili berbilang token teks dengan cekap

Aplikasi Praktikal dan Prestasi Dunia Sebenar

Di luar kelebihan pemampatan teori, pemaju sedang meneroka bagaimana DeepSeek-OCR berprestasi dalam senario praktikal. Model tersebut menyokong pelbagai mod resolusi daripada Tiny (512x512) hingga Large (1280x1280) dan juga mod Gundam dinamik yang menggabungkan resolusi berbeza untuk prestasi optimum. Pengguna awal telah menguji model tersebut pada pelbagai jenis dokumen, daripada pengekstrakan teks mudah hingga penukaran jadual kompleks dan penjanaan markah turun.

Perbincangan komuniti mendedahkan keputusan bercampur tetapi umumnya positif berbanding penyelesaian sedia ada. Walaupun sesetengah pengguna melaporkan bahawa sebarang model penglihatan adalah lebih baik daripada perisian OCR komersial, yang lain menyatakan bahawa susun atur kompleks masih mencabar. Seorang pengguna berkongsi pengalaman mereka dengan pengekstrakan jadual: Jadual dengan berbilang pengepala dan sel bergabung yang menjadi keliru, berbilang lajur dengan kotak tanda menjadi keliru, jadual berbilang halaman yang tidak difahami dengan betul. Ini mencadangkan bahawa walaupun DeepSeek-OCR mewakili kemajuan penting, masih ada ruang untuk penambahbaikan dalam mengendalikan struktur dokumen kompleks.

Mod Prestasi DeepSeek-OCR

  • Tiny: resolusi 512x512 (64 token penglihatan)
  • Small: resolusi 640x640 (100 token penglihatan)
  • Base: resolusi 1024x1024 (256 token penglihatan)
  • Large: resolusi 1280x1280 (400 token penglihatan)
  • Gundam: Resolusi dinamik menggabungkan nx640x640 + 1x1024x1024
Imej ini menunjukkan peringkat-peringkat pemprosesan sebuah dokumen yang mengandungi kandungan matematik, menonjolkan transformasi daripada susun atur yang kompleks kepada format yang telah diproses, relevan kepada prestasi DeepSeek-OCR dalam dunia sebenar
Imej ini menunjukkan peringkat-peringkat pemprosesan sebuah dokumen yang mengandungi kandungan matematik, menonjolkan transformasi daripada susun atur yang kompleks kepada format yang telah diproses, relevan kepada prestasi DeepSeek-OCR dalam dunia sebenar

Kelebihan Sumber Terbuka dan Keupayaan Pelbagai Bahasa

Faktor utama yang mendorong keterujaan komuniti ialah lesen MIT DeepSeek-OCR, menjadikannya tersedia secara percuma untuk kegunaan komersial dan penyelidikan. Pendekatan terbuka ini berbeza dengan beberapa penyelesaian OCR proprietari dan selari dengan sejarah DeepSeek mengeluarkan model AI sumber terbuka. Sokongan pelbagai bahasa untuk hampir 100 bahasa, walaupun tidak ditekankan dalam dokumentasi awal, mewakili satu lagi kelebihan penting untuk aplikasi global.

Pemaju amat berminat dengan bagaimana model tersebut mungkin berprestasi pada skrip bukan Latin, dengan seorang pengulas tertanya-tanya jika teks yang ditulis menggunakan aksara Cina lebih serasi dengan pemampatan berpusatkan penglihatan sedemikian berbanding teks Latin. Soalan ini menyentuh aspek penting teknologi—sama ada sistem penulisan tertentu mungkin mendapat lebih manfaat daripada pendekatan token penglihatan berbanding yang lain, berpotensi disebabkan kandungan maklumat yang lebih padat dalam sistem penulisan berasaskan aksara.

Ciri-ciri Utama

  • Sokongan pelbagai bahasa untuk hampir 100 bahasa
  • Berlesen MIT (mesra komersial)
  • Menyokong pemprosesan dokumen kompleks termasuk jadual dan penukaran markdown
  • Pemberat dan seni bina sumber terbuka

Masa Depan OCR dan Cabaran Yang Tinggal

Semasa perbincangan berterusan, beberapa tema timbul mengenai ke mana hala tuju teknologi OCR dan cabaran apa yang masih tinggal. Walaupun sesetengah ahli komuniti merasakan bahawa OCR pada asasnya telah selesai, yang lain menunjuk kepada bidang khusus di mana model semasa masih bergelut. Pengecaman teks tulisan tangan (HTR) kekal sangat mencabar, dengan seorang pengguna menyatakan bahawa LLM akan menyalin rekod tanpa masalah, output kelihatan betul sepenuhnya... Hanya teks yang disalin tiada kaitan dengan rekod khusus saya.

Perbincangan itu juga menyentuh implikasi yang lebih luas pemampatan token penglihatan untuk pembangunan AI. Jika token penglihatan sememangnya boleh mewakili teks dengan lebih cekap, ini boleh mempengaruhi bagaimana model multimodal masa depan direka bentuk, berpotensi membawa kepada sistem yang lebih cekap pengiraan untuk memproses dokumen visual. Walau bagaimanapun, kebimbangan tentang halusinasi dan ketepatan dalam aplikasi kritikal seperti dokumen undang-undang atau rekod perubatan mencadangkan bahawa pengesahan manusia akan kekal diperlukan untuk masa terdekat.

Kertas kerja itu lebih menarik daripada sekadar satu lagi VLM untuk OCR, mereka mula bercakap tentang pemampatan dan sebagainya.

Keluaran DeepSeek-OCR mewakili lebih daripada sekadar satu lagi alat OCR—ia memperkenalkan cara baru berfikir tentang bagaimana maklumat visual dan teks boleh dimampatkan dan diproses oleh sistem AI. Walaupun cabaran praktikal kekal, terutamanya dengan susun atur kompleks dan teks tulisan tangan, pendekatan pemampatan token penglihatan membuka kemungkinan menarik untuk pemprosesan dokumen yang lebih cekap. Semasa pemaju terus bereksperimen dan membina teknologi sumber terbuka ini, kami mungkin akan melihat lebih banyak inovasi dalam bagaimana AI memahami dan memproses kandungan teks dalam imej.

Rujukan: DeepSeek-OCR: Contexts Optical Compression