Pendekatan inovatif seorang pelajar sekolah menengah dalam penguraian audio telah mencetuskan perbincangan yang menarik dalam komuniti teknologi mengenai status semasa dan cabaran teknologi transkripsi muzik. Projek ini, yang pada mulanya digambarkan sebagai pemisahan sumber, telah mengetengahkan perbezaan penting dalam istilah pemprosesan audio dan mendedahkan kerumitan menukarkan audio kepada skor muzik.
Penjelasan Teknologi
Perbincangan komuniti mendedahkan perbezaan penting antara pemisahan sumber audio dan apa yang sebenarnya dicapai oleh projek ini. Berbanding melakukan pemisahan stem (mengasingkan instrumen individu daripada trek campuran), projek ini memberi tumpuan kepada pengesanan pic dan klasifikasi instrumen menggunakan transformasi Fourier dan analisis sampul.
Audio Source Separation saya rasa adalah istilah umum yang digunakan dalam penyelidikan. Ia sering digunakan untuk audio muzik di mana anda mahu melakukan pemisahan stem - iaitu pemisahan sumber di mana anda mahu mengasingkan stem audio, istilah yang merujuk kepada audio dari kumpulan isyarat yang berkaitan, contohnya dram (yang boleh mengandungi berbilang isyarat individu, seperti satu untuk setiap dram/simbal). [https://news.ycombinator.com/item?id=42098491]
Status Semasa Transkripsi Muzik
Perbincangan mendedahkan bahawa transkripsi muzik automatik telah menjadi subbidang penting dalam pembelajaran mendalam dan pengambilan maklumat muzik. Khususnya untuk transkripsi piano, teknologi ini telah mencapai tahap ketepatan yang mengagumkan. Walau bagaimanapun, transkripsi berbilang trek untuk susunan kompleks masih mencabar.
Cabaran Teknikal
Beberapa batasan teknikal telah dikenal pasti oleh komuniti:
- Variasi fizik instrumen: Instrumen yang sama boleh menghasilkan spektrum harmonik yang berbeza bergantung pada intensiti permainan
- Susunan kompleks: Muzik eksperimental dengan teknik permainan tidak konvensional boleh menghasilkan keputusan yang tidak dapat diramalkan
- Interpretasi skor: Menukar MIDI kepada notasi muzik yang betul melibatkan peraturan budaya dan kontekstual yang kompleks
- Ketepatan tempoh dan halaju: Walaupun pengesanan pic dan permulaan berfungsi dengan baik, tempoh nota dan intensiti masih mencabar
Penyelesaian Industri
Komuniti mengetengahkan beberapa penyelesaian sedia ada dalam bidang ini:
- DAW ( Digital Audio Workstations ) komersial semakin menggabungkan ciri pemisahan stem
- Projek MT3 Google untuk transkripsi muzik berbilang trek
- Demucs Meta untuk pemisahan sumber
- Alat khusus seperti RipX dan Stemroller
Perbincangan menekankan bahawa walaupun kemajuan ketara telah dicapai dalam bidang ini, terutamanya untuk transkripsi instrumen tunggal, menghasilkan transkripsi berbilang instrumen yang tepat masih merupakan cabaran kompleks yang memerlukan pendekatan canggih melampaui pemprosesan isyarat asas.
Sumber: Audio Decomposition Sumber: Hacker News Discussion