Entwicklung einer Software zur automatisierten Erkennung von Sprache und Musik in den Radiobeiträgen des Cultural Broadcasting Archive
Author | Ewald Wieser |
---|---|
Publication type | Bachelor Thesis |
Place Published | St. Pölten |
Publication date | 03.06.2012 |
Supervising Tutor | Markus Seidl |
Project Reference | Cultural Broadcast Archive |
Abstract
Ziel dieser Arbeit ist die Beschreibung des Entwicklungsprozesses einer Software zur Audioklassifizierung für das Cultural Broadcasting Archive. Der Arbeitsauftrag ist, die gesamte Musik in den Radiobeiträgen des CBA automatisiert zu annotieren, um diese bei Bedarf wegen möglicher Urheberrechtsprobleme löschen zu können.
Ausgangspunkt ist eine umfangreiche Literaturrecherche zu Mustererkennung und Klassifizierung im Allgemeinen, sowie zu bereits existierenden Features und Klassifikatoren zur Musikerkennung in Audiodateien. Um aussagekräftige Vergleiche anstellen zu können, wird eine repräsentative Ground Truth für das CBA erstellt. Anschließend wird das Continuous Frequency Activation-Feature in Matlab implementiert und erste Tests zur Verifizierung der Angaben der Entwickler dieses Features durchgeführt. Es folgt die Umsetzung des CFA-Features in einer Hochsprache mit Hilfe eines Audio Feature Extraction Frameworks und der Vergleich der Ergebnisse der beiden Implementierungen. Diese Umsetzung und die ersten Erkenntnisse dienen als Basis für weitere Untersuchungen des CFA-Features anhand der Ground Truth und zum Vergleich mit anderen Audiofeatures und Klassifikatoren. Durch Verbesserungen am CFA-Feature und/oder Kombination mit anderen Features soll eine entsprechend hohe Erkennungsgenauigkeit für Musik in den Dateien des CBA erreicht werden.