Estatística Musical para Nerds - 2022

Clique aqui para voltar para o portfólio

Mas a música, que vai para além das ideias, é completamente independente do mundo fenomenal; ignora-o totalmente, e poderia de algum modo continuar a existir, na altura em que o universo não existisse: não se pode dizer o mesmo das outras artes. A música, com efeito, é uma objetidade, uma cópia tão imediata de toda vontade como o mundo o é, como o são as próprias ideias cujo fenômeno múltiplo constitui o mundo dos objetos individuais. Ela não é, portanto, como as outras artes, uma reprodução das ideias, mas uma reprodução da vontade como as próprias ideias. É por isso que a influência da música é mais poderosa e mais penetrante que a das outras artes: estas exprimem apenas a sombra, enquanto que ela fala do ser.

O Mundo como Vontade e Representação, Arthur Schopenhauer

Acredito que, de certa forma, você é aquilo que você ouve.

Mas ouve de verdade, não de maneira passiva como "música de fundo", e sim como uma maneira de explorar quem você realmente é: por que essa música, ou esse músico, te impacta tanto? É uma pergunta extremamente íntima, e acho que dados podem te ajudar na tarefa.

A ideia inicial disso aqui era ser uma espécie de "diário musical" de 2022 em um projeto espiritualmente idêntico ao que fiz em . Basicamente, dados retirados do LastFM, baixados em forma de CSV através do site do Benjamin BenBen, tratados e cuidados por mim, e análise feita com SQL e R (em especial tidyverse e ggplot2 ou plotly). Acabou que, no final, achei interessante um padrão nos dados e transformei em um projeto puramente estatístico, de tentar encontrar parâmetros e ajustar os dados a equações, mas ainda consegui ter certa visão do que foi 2022 ao longo do trabalho.

Estatisticamente falando...

A grande vantagem de fazer isso aqui em vez de meramente aceitar as estatísticas do Spotify como o Wrapped é que... o Spotify não tem todo tipo de música! Alguns dos artistas que mais ouço, incluindo Joanna Newsom e Pixinguinha, não ouço através do Spotify, ou por não estarem lá — caso da primeira — ou por eu estar acostumado a ouvir alguns álbuns específicos.

Também vale a pena destacar que eu sou contra o uso excessivo de aplicativos e serviços que são desnecessários. O Spotify para a maioria das pessoas é desnecessário, o usuário médio não ouve uma quantidade muito grande de músicas diferentes, então o armazenamento usado para esse tipo de arquivos é desprezível.

Isso não vale para pessoas que estão acostumadas a ir a fundo em artistas, discografias, etc., afinal por mais que eu ainda prefira o método "oldschool" de se ouvir música, é impraticável ter um cartão de memória inteiro apenas para música.

Vale a pena destacar que, recentemente, o Bob Dylan, que aparecerá bastante na análise, deu uma opinião também não muito positiva sobre serviços de streaming pelo simples fato de eles tirarem o aspecto desbravador da coisa:

Tudo está suave e indolor. Pulamos no mainstream, o rio com todo o descarte industrial, restos químicos, pedras e lama, junto com Brian Wilson e seus irmãos, Soupy Sales e Tennessee Ernie Ford. A terra poderia vomitar seus mortos, e poderia estar chovendo sangue, que nós daríamos de ombros, indiferentes. Tudo está fácil demais. Só uma passada com o dedo anelar ou médio, um pequeno clique — isso é o que precisamos fazer. (...) Você precisaria de um detector de raio-X solar só para encontrar o coração de alguém, ver ao menos se eles ainda têm um.

Talvez eu esteja sentimental demais, mas ainda deixo aqui a sugestão para qualquer um que esteja lendo: tente ouvir música de maneira menos herética e pare para apreciar as ondas sonoras que de maneira organizada atingem seus tímpanos.

Nas palavras de Frank Zappa, outro que também vai aparecer bastante aqui:

Tudo nesse planeta tem algo a ver com música. Música funciona no domínio de ar esculturado. Por mais poluído que nossa atmosfera possa ser, o ar é o que faz a música funcionar. Já que todas as outras coisas que acontecem no domínio do som são transmitidas para o ouvido por aquela massa dançante, dependendo de quão abrangente for a sua definição, você pode perceber muito da experiência humana em termos musicais. Você poderia ouvir um buzinas de engarrafamento e perceber que era uma boa composição.

A lista e um mês interessante

Bom, os artistas que mais ouvi não fogem muito do esperado. O top 10 foi o seguinte:

Posição Artista # músicas ouvidas
1 Frank Zappa 4451
2 Bob Dylan 2646
3 Tom Waits 1299
4 Joanna Newsom 983
5 The Mothers of ınvention 823
6 Carla Bley 468
7 Elvis Presley 308
8 Bobby Leecan 293
9 Cartola 269
10 Kanye West 233

Tabela 1: Artistas mais ouvidos em 2022.

Para falar um pouco mais detalhadamente, talvez valha a pena mostrar quando que cada um desses foi mais ouvido, afinal assim é possível construir uma história do ano de 2022.

Figura 1: Músicos mais ouvidos ao longo de 2022.

Talvez a lista em si não queira dizer muita coisa, mas quando tem isso em comparação talvez ajude um pouco. Também nos dados, fiquei sabendo que maio e outubro foram os meses em que mais ouvi música no geral, e o mês de maio em específico teve um evento particularmente triste, que inspirou O Doce Existir, ou Fora Joassaba!, e ele em si explica o pequeno pico de Cartola e Bobby Leecan.

Cartola é simplesmente um dos maiores compositores brasileiros, e é notório por seus "sambas tristes", em contraposição com os dois outros mestres dessa época, Noel Rosa com sua irreverência e Pixinguinha com seu sublime amor. Leecan, por outro lado, um bluesman bem menos conhecido do que o naipe de Robert Johnson, Son House, ou mesmo Scrapper Blackwell, foi uma figura inusitada. Eu não o conhecia, até descobrir que a versão original de "Nobody Wants You When You're Down and Out" era dele. Encontrei um álbum de compilação de gravações de Leecan e terminei maravilhado com o material encontrado, extremamente bruto e cheio de alma.

Quero assistir ao sol nascer
Ver as águas dos rios correr
Ouvir os pássaros cantar,
Eu quero nascer, quero viver

— "Preciso Me Encontrar", Cartola

Now, I was feeling lonesome, kinda blue
Thought I'd play some numbers, like most colored people do
I put my money down on ol' 22
I didn't play no Bolita, I thought that would do.

As soon as I thought that I had won,
The man put ol' eleven said "Two twenty one"
A friend of mine walked up to me the very next day
Said he lost on that number the very same way

Now, you can see nobody needs you when you're down and out

— "Nobody Wants You When You're Down and Out", Bobby Leecan

Algo que une sambistas e bluesmen é a consciência de que a vida é, majoritariamente, sofrimento. O processo de cura é o processo de fazer, apreciar, interagir com música, ou arte no geral, e definitivamente eles me ajudaram. Também nessa época eu tive contato com uma boa (apesar de ainda mais edgy) versão em mangá de Crime e Castigo, o que certamente acentuou esse tipo de sentimento. Foi tudo numa época parecida, para piorar, então minha melancolia no mês de maio de 2022 estava a todos vapores.

Como já citei em outro texto, não sinto tanto emoções positivas quanto as negativas. Até artistas notoriamente irreverentes, como a banda de Frank Zappa, The Mothers of Invention, foram mais ouvidos por suas obras mais emocionais. We're Only in It For The Money, apesar de ter uma sátira óbvia dos Beatles e ser lembrado em grande parte por causa disso, ainda tem alguns dos sentimentos mais melancólicos que Zappa já colocou em gravação.

Ever take a minute just to show a real emotion?
In between the moisture cream and velvet facial lotion?
Ever tell your kids you're glad that they can think?
Ever say you loved 'em, ever let 'em watch you drink?
Ever wonder why your daughter looked so sad?
It's such a drag to have to love a plastic mom and dad!

— "Mom & Dad", The Mothers of Invention

All your children are poor, unfortunate victims
Of lies you believe
A plague upon your ignorance that keeps the youth
From the truth they deserve

— "What's the Ugliest Part of Your Body?", The Mothers of Invention

Apesar disso, como a Figura 1 deixa claro, ouvi muito mais álbuns sob o nome de Frank Zappa, e não sua banda. Isso inclui Absolutely Free e a mais ouvida dele, "Plastic People", que combina com "Mom & Dad", ainda que tenha um tom muito mais jocoso, e com muito mais escárnio.

Take a day and walk around
Watch the nazis burn your town
Then go home and check your self
You'll think we're singing 'bout someone else

— "Plastic People", Frank Zappa

Maio também foi o mês mais excêntrico porque o artista que ficou acima de todos os outros em todos os outros meses, Frank Zappa, não passou Dylan ou Tom Waits. Waits seguiu a linha das músicas melancólicas anteriores, com todas as mais ouvidas nesse mês sendo no naipe de "Christmas Card from a Hooker in Minneapolis".

Mas o maior evento de maio foi minha formatura. Fiz um pequeno vídeo sobre ela na época. Não sou, de forma alguma, um grande entusiasta de educação formal, faculdade, cultura universitária, mas ainda foi como um grande peso saindo das minhas costas e um grilhão se rompendo dos meus tornozelos.

Como pode ser visto no vídeo, a trilha sonora é uma música tradicional na voz de Bob Dylan — "You're Gonna Quit Me". Mais uma vez isso sai de um álbum de espírito não exatamente positivo. Eu não chamaria de negativo, também, mas definitivamente não é positivo. As músicas que mais ouvi de Dylan nesse mês foram dos álbuns World Gone Wrong e Good as I Been to You, que indicam como o cantor estava deslocado de seu tempo: são álbuns dos anos 90, e saíram depois de um de seus maiores fracassos, Under the Red Sky. E ainda as músicas mais ouvidas que não eram desses dois, "Just Like Tom Thumbs Blues" e "I Shall Be Released", falam de sentimentos semelhantes de não-pertencimento.

Six months on the chain gang
Believe me, it ain't no fun, Lawd, Lawd
Believe me, it ain't no fun, Lawd, Lawd
Believe me, it ain't no fun

— "You're Gonna Quit Me", tradicional

Música e humor

Eu não sou um ouvinte muito "linear", por falta de termo melhor. Sem continuidade, mudo com frequência a minha lista de álbuns mais ouvidos ao longo de períodos de uma semana ou um mês, mas talvez aqueles que mais ouvi ao longo do ano inteiro sejam relativamente constantes.

Figura 2: Álbuns mais ouvidos ao longo de 2022.

Mais ou menos.

Inclusive, comparando este o gráfico da Figura 2 com o da anterior, dá para notar que, de todas as músicas ouvidas por um artista em um mês, frequentemente elas saem majoritariamente de um mesmo álbum. Com Cartola e Bobby Leecan, é a totalidade, mas isso é incomum.

De qualquer forma, organizei os álbuns mais ouvidos em termos do total de músicas ouvidas de cada um deles, e a lista em si não foi tão surpreendente, mas com a quantidade ouvida em cada mês, foi possível tirar algumas medidas de dispersão que podem mostrar do meu padrão de se ouvir música.

Álbum Artista # músicas ouvidas sd CV
1 Absolutely Free Frank Zappa 922 37.98 0.49
2 Uncle Meat Frank Zappa 771 33.39 0.52
3 We're Only in It for the Money The Mothers of Invention 544 47.71 1.05
4 The Yellow Shark Frank Zappa 538 48.47 1.08
5 Have One on Me Joanna Newsom 516 39.81 0.93
6 Make A Jazz Noise Here Frank Zappa 454 43.27 1.14
7 Love and Theft Bob Dylan 308 21.09 0.82
8 Escalator Over the Hill Carla Bley 301 18.91 0.75
9 Guitar Maestro Suitcase Breakdown Bobby Leecan 293 36.73 1.50
10 Cartola (1976) Cartola 269 28.85 1.29

Tabela 2: Álbuns mais ouvidos e parâmetros estatísticos.

Como eu tenho quanto foi ouvido em cada mês, é fácil calcular medidas como desvio padrão e coeficiente de variação. O desvio padrão, dado por sd, não é tão útil em si mesmo, porque é de se esperar que, quanto mais se ouve um álbum, maior a chance de existirem variações em torno da média. Por isso o coeficiente de variação é o melhor parâmetro para fazer a análise em questão.

Surpreendentemente, dividiram-se em meio a meio os álbuns que ficaram acima e abaixo do valor 1 de CV. Absolutely Free, Uncle Meat, Have One on Me, Love and Theft e Escalator over the Hill foram os mais consistentemente ouvidos, o que foi uma certa surpresa para mim.

É quase certeiro que tenham existido álbuns que foram mais consistentemente ouvidos do que alguns como Guitar Maestro Suitcase Breakdown ao longo do ano, e talvez até outros que tenham sido mais consistentes do que Absolutely Free, mas isso faz sentido dado o que eu disse sobre eu não ser um ouvinte "linear" de música.

Apesar disso ainda existem surpresas. Have One on Me, para mim, tinha sido uma constante ao longo do ano, ou teria um comportamento ao longo de 2022 similar ao que teve de setembro a dezembro, fazendo uma espécie de zig-zag, mas de janeiro a março ele foi de ser meu álbum mais ouvido a não ser ouvido.

Além disso, vale destacar que Newsom, artista do álbum em questão, tem uma discografia inteira de apenas quatro álbuns, e uns EPs (dos quais, somados, apenas cinco músicas não se encontram presentes em algum dos álbuns). Se o total de músicas dela que eu ouvi foi de 983 (primeira tabela) e apenas do Have One on Me foram 516, isso quer dizer que o resto distribuiu entre si 467 músicas, e meu palpite (na verdade, certeza), é que um único, Ys, tomou boa parte do que sobrou.

De fato, das 467 que sobraram, 208 foram de Ys. Algo curioso é que Ys tem apenas... cinco músicas. Todas são extensas, variando entre 7 e 16 minutos, mas ainda assim elas foram muito ouvidas. Enquanto uma música de Ys foi ouvida, em média, 41.6 vezes, uma média de Have One on Me, que tem 18 faixas, foi ouvida apenas 28.7 vezes, o que quer dizer que, de certa forma, eu ouvi mais Ys do que Have One on Me, se considerássemos um "scrobble" do Last.FM como um álbum inteiro.

Mas claro, isso não faz muito sentido, afinal são poucas pessoas (e não estou incluso nelas) que ouvem música exclusivamente por álbuns do começo ao final. Na realidade, só lembro de ter visto uma pessoa falando que fazia isso, no falecido Zappa Forum.

Our nature does not change by will.
In the winter, 'round the ruined mill,
The creek is lying, flat and still;
It is water, though it's frozen.

— "On a Good Day", Joanna Newsom

Esse fenômeno com certeza estaria bem representado também em Carla Bley que, sendo a sexta artista mais ouvida por mim, foi majoritariamente ouvida por Escalator over the Hill. Segundo as estatísticas do Last.FM, mais de 60% do que ouvi de Bley foi exclusivamente desse álbum. Mas isso é segundo o Last.FM.

Apontei na outra análise dos meus hábitos musicais que alguns artistas têm álbuns sob nomes de diferentes pessoas. Bley está nesse grupo, tendo composto para Gary Burton (A Genuine Tong Funeral), Charlie Haden (Liberation Music Orchestra) e alguns outros. Isso torna as coisas um pouco inconsistentes porque métricas diferentes são usadas para artistas diferentes.

Geralmente os compositores eruditos têm suas composições sob seu nome independentemente de quem esteja fazendo a performance. Isso é o caso com Anton Webern e seus The Complete Works of Anton Webern, vol. 1, que na realidade foram conduzidos pelo Pierre Boulez, ou com Arnold Schönberg e seu Violin Concerto op.47, que ouvi em uma performance da violinista Hilary Hahn. Isso também acontece com Frank Zappa. The Yellow Shark, de 1992, foi de performance da Ensamble Modern, orquestra baseada em Frankfurt, e conduzido apenas parcialmente pelo próprio Zappa; London Symphony Orchestra, vols. 1 and 2 foi conduzido por Kent Nagano e, naturalmente, apresentado pela orquestra sinfônica de Londres; The Perfect Stranger foi conduzido (parcialmente) por Pierre Boulez. Os exemplos são vários no mundo erudito.

Mas o mesmo não acontece com Carla Bley. A Genuine Tong Funeral foi composto integralmente por ela, mas lançado sob o nome de Gary Burton, e Liberation Music Orchestra, apesar de ter várias músicas da guerra civil espanhola, tem três composições de Bley e foi completamente arranjado e orquestrado por ela. O mesmo vale para Dream Keeper, também da Liberation Music Orchestra.

É sempre preciso ter um pouco de cautela com os dados.

E também por causa disso acho melhor fazer, do zero, uma análise deles a ficar dependendo do Wrapped, que é ignorante dos nuances e sutilezas do ato de ouvir música.

It's in the lobby
of Cecil Clark's
that people raised
for one thing
like cows
for milk
and chickens
for legs
vote for something
weak
and to the point
riding the escalator
over the hill.

Vote for something
weak
and to the point.

— "Like Animals", letra por Paul Haines

Mas e o resto?

É conhecido que diversos fenômenos de larga escala que envolvem criatividade e consumo não passa por uma distribuição normal, mas seguindo o princípio de Pareto, ou a regra de 80/20.

Basicamente, esse princípio diz que 20% dos inputs em determinado fenômeno são responsáveis por 80% dos outputs. Ou seja, em uma fábrica, 20% dos trabalhadores são responsáveis por 80% do que é produzido. Na música, 20% dos músicos são responsáveis por 80% do que é consumido, e assim em diante.

No caso dessa análise, acho seguro dizer que temos uma pequena quantidade de álbuns que têm quase todas as músicas que foram ouvidas ao longo do ano, como em uma distribuição de Pareto, então seria interessante fazer um ajuste dos dados dos álbuns mais ouvidos para uma distribuição de Pareto — uma regressão.

Curiosamente, eu testei a regra do 80/20. 20% de todos os álbuns que eu ouvi corresponderam a 13285 músicas tocadas, e o total ouvido em 2022 foi de 16556. A razão deu 80.24%.

Apesar disso, não é o que eu vou fazer por causa da aparência dos dados e da manipulação deles poder ser mais simples de outras formas. Olhem o gráfico.


Clique no gif para ver o gráfico interativo.

O comportamento não é claramente o de uma distribuição de Pareto, nem nenhum outro muito óbvio. Primeiro, tentei fazer um ajuste exponencial, que é mais fácil de manusear. Para bancos de dados maiores do que o que estou usando, seria um pouco mais difícil evitar a distribuição de Pareto, mas ainda assim o melhor resultado provavelmente não seria de Pareto.

Spoiler: o resultado não ficou ruim... para a maioria dos pontos.

Fiz uma regressão linear entre o logaritmo da quantidade de músicas ouvidas e a posição delas, encontrando uma equação simples:

\[y=364.7796 \cdot 0.9738445 ^x \]

Agora, quanto aos dados da correlação que sempre nos interessam, tivemos

Residual standard error: 81.05 on 98 degrees of freedom
Multiple R-squared: 0.9396, Adjusted R-squared: 0.9389
F-statistic: 1523 on 1 and 98 DF, p-value: < 2.2e-16

O valor do erro residual padrão foi relativamente baixo, e o do p-valor extremamente baixo, indicando que o modelo funciona bem. Mas existe um problema claríssimo. Se considerarmos os primeiros valores, vamos ter, pela equação encontrada, no máximo 364 músicas, mas a Tabela 2 mostra claramente que pelo menos os seis primeiros álbuns estão longe desses 364 que a equação trata como máximo.

Realmente, uma exponencial não resove o problema. Mas, quem sabe, uma regressão a uma função fracionária possa funcionar. Minha intuição, depois de muito olhar para os gráficos, me diz que esse deve ser o melhor resultado.

E realmente, foi um resultado muito melhor, mas não da maneira imaginada. O primeiro resultado modelado nos deu uma equação na forma de:

\[y=\displaystyle{\frac{1133.6}{x}} + 78.067 \]

Residual standard error: 65.08 on 98 degrees of freedom
Multiple R-squared: 0.8087, Adjusted R-squared: 0.8068
F-statistic: 414.4 on 1 and 98 DF, p-value: < 2.2e-16

E, claramente, esse resultado não deve ser melhor — basta olhar os parâmetros. Mas ainda é possível usar equações que não são frações simples, elevando x ao quadrado, ou qualquer outro valor.

Vou poupar um dos valores que testei porque ele piorou ainda mais: a solução não é elevar ao quadrado, e vendo como foi ajustado com o inverso de x isso fica nítido:

Figura 3: Ajustes exponencial e inverso comparados aos dados reais.

Sabendo o comportamento de funções fracionárias, quanto mais se aumenta o expoente do x, mais a curvatura se distancia da direção para a qual ela deve ir. Elevar x ao quadrado implicaria abaixar a "cauda", para valores mais altos de x, e ainda distanciar do eixo y a parte mais vertical da função.

Então... o negócio é diminuir o expoente de x.

A modelagem pode ser feita também para o inverso da raiz de x, e o resultado dessa foi muito bom:

Residual standard error: 22.26 on 98 degrees of freedom
Multiple R-squared: 0.9776, Adjusted R-squared: 0.9774
F-statistic: 4282 on 1 and 98 DF, p-value: < 2.2e-16

A equação encontrada para esse bom modelo foi:

\[y=\displaystyle{\frac{1106.912}{\sqrt{x}}} - 68.901\]

Esses resultados são de longe os melhores, não só menor desvio padrão nos resíduos mas também maior R². Visualmente, fica claro que este foi o melhor modelo:

Figura 3: Ajustes exponencial e inverso comparados aos dados reais.

Conclusão

Information is not knowledge.
Knowledge is not wisdom.
Wisdom is not truth.
Truth is not beauty.
Beauty is not love.
Love is not music.
Music is THE BEST.

— "Packard Goose", Frank Zappa

O mais interessante de fazer isso é o fato de você estar vendo os dados e tendo que encontrar uma explicação para o comportamento deles diretamente, tendo contato com suas próprias experiências. Em vez de deixar um algoritmo te dizer quais foram suas experiências, como é o Wrapped, você lembra delas diretamente.

Talvez seja mais fácil do que se assuma de mexer diretamente com os dados em vez de passivamente esperar algum resultado e interpretação de terceiros. Não é uma questão puramente de colocar no meu portfólio ou algo assim. Eu poderia ter feito mais coisas puramente estatísticas com os dados, mas acredito que esses resultados já são bons em si. Não adianta de muito uma miríade de análises se elas não estão fundamentadas na realidade.

Você já parou para tentar ver seus próprios comportamentos musicais?

Quanto à modelagem matemática, o melhor modelo que encontrei foi um na forma de:

\[ y=\displaystyle{\frac{a}{\sqrt{x}}+b}\]

Claro, isso não quer dizer que todos os anos são assim — apesar de isso ser relativamente fácil de encontrar agora que fiz o código —, mas é a parte de menos interesse para mim, em toda sinceridade.

O mais interessante foi ver o desenvolvimento do ano, especialmente lembrando de períodos definidos, maio e outubro, e tentar explicar o porquê de algumas coisas acontecerem. Por que We're Only in It for the Money? Por que tanto Bob Dylan ouvido em maio?

Assim como o Wrapped do Spotify, essa análise explica coisas individuais e frequentemente pessoais, sendo de certo valor para quem quiser dar uma olhada introspectiva em algum ano específico. As memórias vão voltando conforme você vai olhando os dados, o que era um CSV bagunçado aos poucos vai tomando forma e contando uma história para você.

A citação que abre a conclusão desse texto é de Frank Zappa em uma ópera que ele descreveu como "uma história estúpida sobre como o governo vai acabar com música". Como quase tudo do Zappa, realmente é cheia de piadas e não é para ser levada tão a sério. Mas não consigo não ver um fundo de verdade naquilo. Sim, é estúpido dizer que "música é o melhor", mas talvez exista um ponto nisso — leia a primeira citação do texto, lá no começo.

Dei uma limpada no código e coloquei no Github. Vai também ficar disponível no meu portfólio. Obviamente, como não era o caso de outras pessoas quererem necessariamente fazer uma regressão como eu fiz, omiti essa parte, assim como a geração das tabelas. O resto acredito que pode ser interessante para qualquer um.