مورد إلكتروني

Modeling Music : Studies of Music Transcription, Music Perception and Music Production

التفاصيل البيبلوغرافية
العنوان: Modeling Music : Studies of Music Transcription, Music Perception and Music Production
بيانات النشر: KTH, Musikakustik Stockholm 2018
تفاصيل مُضافة: Elowsson, Anders
نوع الوثيقة: Electronic Resource
مستخلص: This dissertation presents ten studies focusing on three important subfields of music information retrieval (MIR): music transcription (Part A), music perception (Part B), and music production (Part C). In Part A, systems capable of transcribing rhythm and polyphonic pitch are described. The first two publications present methods for tempo estimation and beat tracking. A method is developed for computing the most salient periodicity (the “cepstroid”), and the computed cepstroid is used to guide the machine learning processing. The polyphonic pitch tracking system uses novel pitch-invariant and tone-shift-invariant processing techniques. Furthermore, the neural flux is introduced – a latent feature for onset and offset detection. The transcription systems use a layered learning technique with separate intermediate networks of varying depth. Important music concepts are used as intermediate targets to create a processing chain with high generalization. State-of-the-art performance is reported for all tasks. Part B is devoted to perceptual features of music, which can be used as intermediate targets or as parameters for exploring fundamental music perception mechanisms. Systems are proposed that can predict the perceived speed and performed dynamics of an audio file with high accuracy, using the average ratings from around 20 listeners as ground truths. In Part C, aspects related to music production are explored. The first paper analyzes long-term average spectrum (LTAS) in popular music. A compact equation is derived to describe the mean LTAS of a large dataset, and the variation is visualized. Further analysis shows that the level of the percussion is an important factor for LTAS. The second paper examines songwriting and composition through the development of an algorithmic composer of popular music. Various factors relevant for writing good compositions are encoded, and a listening test employed that shows the validity of the proposed methods. The dissertation is
Denna avhandling presenterar tio studier inom tre viktiga delområden av forskningsområdet ”Music Information Retrieval” (MIR) – ett forskningsområde fokuserat på att extrahera information från musik. Del A riktar in sig på musiktranskription, del B på musikperception och del C på musikproduktion. En avslutande del diskuterar maskininlärningsmetodiken och spanar framåt (del D). I del A presenteras system som kan transkribera musik med hänsyn till rytm och polyfon tonhöjd. De två första publikationerna beskriver metoder för att estimera tempo och positionen av taktslag i ljudande musik. En metod för att beräkna den mest framstående periodiciteten (”cepstroiden”) beskrivs, samt hur denna kan användas för att guida de applicerade maskininlärningssystemen. Systemet för polyfon tonhöjdsestimering kan både identifiera ljudande toner samt notstarter- och slut. Detta system är både tonhöjdsinvariant samt invariant med hänseende till variationer över tid inom ljudande toner. Transkriptionssystemen tränas till att predicera flera musikaspekter i en hierarkisk struktur. Transkriptionsresultaten är de bästa som rapporterats i tester på flera olika dataset. Del B fokuserar på perceptuella särdrag i musik. Dessa kan prediceras för att modellera fundamentala perceptionsaspekter, men de kan också användas som representationer i modeller som försöker klassificera övergripande musikparametrar. Modeller presenteras som kan predicera den upplevda hastigheten samt den upplevda dynamiken i utförandet med hög precision. Medelvärdesbildade skattningar från omkring 20 lyssnare utgör målvärden under träning och evaluering. I del C utforskas aspekter relaterade till musikproduktion. Den första studien analyserar variationer i medelvärdesspektrum mellan populärmusikaliska musikstycken. Analysen visar att nivån på perkussiva instrument är en viktig faktor för spektrumdistributionen – data antyder att denna nivå är bättre att använda än genreklassificeringar för att förutsäga spektrum. Den andra
QC 20180427
مصطلحات الفهرس: Music Information Retrieval, MIR, Music, Music Transcription, Music Perception, Music Production, Tempo Estimation, Beat Tracking, Polyphonic Pitch Tracking, Polyphonic Transcription, Music Speed, Music Dynamics, Long-time average spectrum, LTAS, Algorithmic Composition, Deep Layered Learning, Convolutional Neural Networks, Rhythm Tracking, Ensemble Learning, Perceptual Features, Representation Learning, Other Computer and Information Science, Annan data- och informationsvetenskap, Computer Engineering, Datorteknik, Media and Communication Technology, Medieteknik, Doctoral thesis, comprehensive summary, info:eu-repo/semantics/doctoralThesis, text
URL: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-226894
TRITA-EECS-AVL ; 2018-35
الإتاحة: Open access content. Open access content
info:eu-repo/semantics/openAccess
ملاحظة: application/pdf
English
أرقام أخرى: UPE oai:DiVA.org:kth-226894
0000-0002-4957-2128
urn:isbn:978-91-7729-768-0
1234353853
المصدر المساهم: UPPSALA UNIV LIBR
From OAIster®, provided by the OCLC Cooperative.
رقم الأكسشن: edsoai.on1234353853
قاعدة البيانات: OAIster