De Tijdloze van StuBru: onze Power BI-voorspelling

Naar jaarlijkse gewoonte blikken we de laatste dag van het jaar terug op de grootste hits aller tijden. Nog wat uitbollend en met weemoed terugdenkend aan een hartverwarmende editie van Music For Life, hoe kan je dit beter doen dan je in de zetel nestelen met De Tijdloze van Studio Brussel op?


Play where the puck is going

Begin januari posten we naar jaarlijkse gewoonte een update van ons Power BI rapport met de nieuwe top 100 van het afgelopen jaar. Een kenner en fervente fan van De Tijdloze, Mick (Cegeka), volgt al jaren het Power BI rapport van Kohera op de voet. Na een eerste enthousiast mailtje, was de samenwerking al snel geklonken. Dit jaar pakken we het iets ambitieuzer aan!


It’s okay not to know, it’s not okay not to dare

Waar we vorige jaren begin januari in actie schoten, staken we nu reeds in december de handen uit de mouwen. Aan de hand van een predictieve analyse doen we een poging om De Tijdloze 2019 te voorspellen. En omdat we van een uitdaging houden, proberen we niet enkel de top 3 te voorspellen maar voorspellen we de ganse lijst. Enkele Koherianen staken de hoofden samen en na een kort overleg bleek dat wat we teveel hadden aan enthousiasme, we ontbraken aan kennis. Niemand van ons had ervaring met een dergelijke predictieve analyse.


Share your knowledge, boost out power!

Via verschillende technologieën RapidMiner, Azure Machine Learning Studio, Python… werd gezocht naar een voorspellend model. Onze eerste pogingen waren – helaas zonder overdrijven – desastreus slecht. Gelukkig konden we beroep doen op Nico (U2U), Sammy en Ali (Arinti) voor tips en tricks.


You can’t milk a cow with your hands in your pants

Neurale netwerken, boosted decision tree, recommender, classification algoritmes… zijn allemaal de revue gepasseerd. Parameter tuning, zoeken naar optimale predictoren, aanpassen van het aantal hidden layers werden allemaal uitgeprobeerd.

Uiteindelijk bleek het model met time series analyse het best voorspellende model. Het AutoRegressive Integrated Moving Average (ARIMA) model is een statische methode om voorspellingen te doen op basis van een tijdslijn (in ons geval de editie van de Tijdloze). Om na te gaan of we correct voorspellen, werden de gegevens tot en met 2017 gebruikt om te zien in hoeverre we erin slaagden om 2018 goed te voorspellen. Eens dat redelijk goed overeenstemde, lieten we het model los op alle data om zo een berekende gok te doen voor de Tijdloze in 2019.

 De moeilijkheid bij deze voorspelling was vooral de beperkte dataset. We hebben allerlei gegevens toegevoegd om de dataset te verrijken met goede predictoren, maar dit bleek geen gemakkelijke opgave. De data die geëxporteerd kan worden uit Spotify zoals tempo, instrumentaliteit, duur, energie, dansbaarheid… bleken amper voorspellende waarde te hebben. Ook de top 100 hits hielpen helaas niet om in de kaarten te kijken. Onze voorspelling is vooral gebaseerd op de plaats de voorbije jaren, de gemiddelde plaats, het aantal keer in de tijdloze en nog een aantal gelijkaardige predictoren.

Seriously, have fun!

*** tromgeroffel ***

  • De Winnaar is: Pearl Jam – Black
  • Op nummer twee: Queen – Bohemian Rapsody
  • Op nummer drie: Nirvana – Smells Like Teen Spirit

Sterkste stijger: Editors – No sound but the wind (+20)

Sterkste daler: Red Zebra – I can’t live in a Living Room (-15)

 

Wil je zelf aan de slag met ons Power BI-rapport. Vul je gegevens in en we bezorgen je het .pbix-bestand via mail.

Ben je net als ons benieuwd hoe goed deze voorspelling is? Luister dan zeker naar de tijdloze op 31 december en hou onze blog in de gaten!