Vôlei além das quadras

Clique aqui para voltar para o portfólio

Eu sempre tive vontade de fazer alguma coisa relacionada a vôlei. Sou um grande admirador de esportes e acredito que literalmente todo esporte é grandioso se você enxergar ele da maneira certa e viver o que está acontecendo ali dentro — vide, por exemplo, NASCAR —. Além disso, eu pratiquei esporte seriamente por alguns anos. Dos meus 15 aos 17 anos, até entrar na UnB, eu jogava vôlei como líbero, e enquanto espectador, acompanhei especialmente de 2014 a 2018. Então, de certa forma, esse projeto é também pessoal assim como o anterior.

Data scraping em sites difíceis e primeiras ideias

Agora, de fato ao trabalho de visualização de dados, em primeiro lugar, eu gostaria de reclamar da federação internacional de vôlei, a FIVB, porque os dados que ela fornece não têm padrão quase algum. Não é como o futebol que tem índices que são usados há décadas e não mudam tanto, e mudanças em regras no vôlei provavelmente ajudam bastante nisso, mas simplesmente não tem por que um site disponibilizar todos os dados publicamente, ao mesmo tempo que coloca tanta burocracia, tantas páginas diferentes ao invés de tabelas simples e diretas, com links intuitivos, além de tanto javascript desnecessário no front-end. Várias páginas demoravam coisa de 10 segundos para carregar, especialmente em sites de competições mais recentes como a Liga das Nações de 2022, vejam por si mesmos. Eu sou um ferrenho defensor da internet eficiente, e criar tantas barreiras entre o usuário e a informação definitivamente não é eficiente.

E no mais, quem não gosta de um site bonitinho como esse do campeonato mundial de 2010?

Uma coisa que foi particularmente dolorosa foi conseguir exportar as fichas de cada uma das jogadoras, dado que cada uma tinha um número de 6 casas aparentemente aleatório. Extremamente difícil fazer web scraping assim.

E, falando em web scraping, realizei ele com rvest, um pacote extremamente útil do R para data scraping. Uma vez que eu importei as tabelas analisando os códigos de HTML e CSS que eu precisava, a ideia era basicamente fazer alguns queries no SQL relacionando bancos de dados de jogadoras diferentes e tentar encontrar informações interessantes talvez até entre competições diferentes e, consequentemente, bancos de dados diferentes. O mais importante foi uma função que eu mesmo criei, para poupar repetição de coisa do pacote rvest (e do dplyr para usar o operador pipe):

grab <-
function(x){
stats_html %>% html_nodes(x) %>% html_text()
}

Mas ainda assim, visualizar algumas coisas dentro de uma mesma competição não foi tão simples. Apesar de as dataframes de uma mesma competição terem padrão entre si de, por exemplo, nome, colocando primeiro sobrenome e depois o nome, algumas páginas davam informações que outras não davam, o que faz total sentido. A página individual das jogadoras dizia suas alturas (ainda que isso pudesse ser colocado numa única tabela pelos desenvolvedores web da FIVB, mas tudo bem), suas idades, suas posições em quadra, mas não diziam seus desempenhos em fundamentos. Para isso, foram necessários joins no SQL.

Eu consegui dados de diversas competições de vôlei feminino (porque eu acompanho mais que o masculino), incluindo as Olimpíadas de 2020, o campeonato mundial de 2018 e todas as Ligas das Nações (VNL) desde 2018, mas vou tentar focar aqui somente nas VNLs dos dois últimos anos. Isso acontece porque a FIVB mudou o padrão de estatísticas, como eu disse, então somente nas competições a partir de 2021 que estamos nesse padrão. Importante destacar que as Olimpíadas de 2020 estão dentro dessa lista porque aconteceram, na verdade, em 2021, mas eu preferi não misturar com os dados das Ligas das Nações porque várias seleções foram com times mistos por ser uma competição menos importante, notoriamente a Sérvia sem a Tijana Boskovic em ambos anos, a China sem Ting Zhu em boa parte dos torneios e a Itália sem Paola Egonu.

Uma das coisas que sempre tive curiosidade era de ver um certo padrão nas alturas das jogadoras em relação à posição em que elas jogavam. Por exemplo, qualquer um que conhece vôlei sabe que a posição que mais exige altura é a de central, middle blocker (MB), e eu queria de fato confirmar isso. Também queria saber se existia alguma idade em que as jogadoras tinham melhor desempenho em quadra — sempre suspeitei que era por volta dos 30 anos, ou pouco menos.

Por prática e também por ter muito mais informação nesse tipo de gráfico (nome, seleção, altura, idade, quantidade de pontos, posição, etc.) eu quis testar um pacote diferente do ggplot2 para visualizar esses dados. O plotly serve para isso, criando gráficos interativos que funcionam bem como forma de BI.

Aqueles que já deram uma navegada no site sabem que não sou fã de javascript, mas visualização de dados acredito que seja um uso razoável. Mas como não quero deixar essa página muito pesada, sempre que eu colocar um gráfico, clique na imagem e você vai ter a versão interativa do plotly no seu navegador.

Primeiros resultados

Para ter algumas ideias, trabalhei inicialmente só com os dados da última VNL, de 2022. Depois, uni com os da anterior também.

Para os gráficos, os países foram abreviados em três letras e as posições/funções em quadra para duas ou uma. As posições são:

A primeira ideia que tive foi em separar as jogadoras conforme suas idades, países, posições, idades e alturas. Assim, parte da minha curiosidade quanto à "altura ideal" de cada posição já poderia ser saciada. O resultado final foi o gráfico deste link, onde você pode clicar nas posições no canto superior direito para parar de visualizá-las ou clicar duplamente para isolar uma posição específica.

Algumas coisas visualizadas foram obviedades. Por exemplo, umas jogadoras claramente eram altas demais para serem líberos, e não foi coincidência. Apesar dos dados no geral estarem certos, duas das três mais altas apontadas nos dados da FIVB (e qualquer um pode conferir)... não são líberos. Ou ao menos, não usualmente. A mais alta, Esthefany Rabit, da República Dominicana, é uma oposta (O), usualmente. Talvez a República Dominicana tenha registrado-a como líbero, mas acho isso particularmente difícil, porque a posição de oposta não tem responsabilidade nenhuma em recepção e tem pouca em fundamentos defensivos no geral. A terceira mais alta dentre as líberos, Julia Murmann do Canadá, é ponteira (OH)

Também não é nenhuma surpresa que as jogadoras mais altas eram todas centrais (MB). Dana Rettke, dos Estados Unidos, se destaca pela altura isolada.

Por via de regra, as segundas mais altas deveriam ser as opostas (O/OP), que atacam tanto do fundo quanto da rede, e devem passar por cima do bloqueio. Além disso, em inversões 5-1 são usadas para aumentar o tamanho da rede no bloqueio. E é basicamente isso que conseguimos ver também. Enquanto isso, as ponteiras (OH) apesar de também poderem ser muito altas, podem ser mais baixas, já que sempre estão em recepção no saque do adversário e no momento defensivo então dentre as três defensoras.

Tanto é possível uma ponteira focar exclusivamente em defesa como isso aconteceu certa vez. Em 2016, a seleção da Holanda comandada então pelo Giovanni Guidetti foi com duas líberos titulares para as Olimpíadas, Myrthe Schoot e Debby Stam. Mas Schoot não foi como líbero, e sim como ponteira. Quando uma ponteira com recepção mais fraca (geralmente Anne Buijs, apesar de ela ter ido bem nesse fundamento, acreditem, eu vi) ia para o fundo para preparar a bola para a levantadora, Guidetti poderia substituí-la, uma vez por set, para melhorar o passe. E assim que ela supostamente deveria ir para a rede de novo, saía para a volta da ponteira titular. E, ainda, Debby Stam nem sempre foi líbero. Quem a conhece dos anos 2000 e começo dos 2010 sabe que ela foi uma (grande) ponteira pela maior parte de sua carreira.

Mas, seguindo o que nos dizem os gráficos, temos que as jogadoras mais baixas são levantadoras e líberos, o que faz sentido já que não são jogadoras que atacam.

Se alguém passar o mouse por cima dos pontos mais baixos, vai ver que existe uma tendência clara de jogadoras mais baixas serem ou japonesas ou tailandesas. Ambas as seleções são notórias por priorizarem defesa em detrimento do ataque, e isso pode ser o reflexo natural da estatura média mais baixa desses países.

E eu fiz um gráfico para visualizar isso também.

Para ter ideia, essa é a altura média para cada posição, em centímetros:

Posição Altura
Libero 171.19
Oposta 188.12
Central 189.36
Levantadora 179.95
Ponteira 183.79

Claro, alguns erros como a presença da dominicana Rabit e da canadense Murman dentre as líberos certamente altera esse resultado, mas os dados disponíveis nos sites oficiais da FIVB nos dão esses resultados.

Então, de acordo com o que foi visto, deve-se esperar também valores mais baixos para as seleções da Tailândia e do Japão, correto? É o que diz a tabela a seguir:

País Altura
ARG 178.00
BEL 183.47
BRA 184.85
BUL 183.35
CAN 184.59
CHN 188.11
DOM 183.94
GER 184.87
ITA 183.71
JAP 175.20
KOR 179.80
NED 186.41
POL 184.35
RUS 189.75
SRB 186.43
THA 174.50
TUR 183.90
USA 187.37

Puramente pelos dois gráficos que fiz, não era tão óbvio, mas a seleção da Coréia também é comparativamente baixa, fazendo das três seleções mais baixas asiáticas. (Não conta esse dado da Argentina porque só uma jogadora foi responsável por essa estatística.) Dentre as mais altas, temos EUA, Holanda, China, Rússia (notória por essa característica) e Sérvia, não houve muita surpresa.

Agora, a segunda questão. E quanto a idades?

Para encontrar as idades das jogadoras, eu usei principalmente SQL para encontrar as idades, e eu decidi plotar o gráfico pelas posições, altura e idade. As duas últimas foram as coordenadas cartesianas e a primeira foi dada pelas cores. Também coloquei o número de pontos porque outra questão me veio em mente: tem alguma idade em que as jogadoras mais pontuam?

Mais um gráfico.

Em relação à altura, surpreendentemente não teve tanta correlação aparente com o número de pontos. A maioria das maiores pontuadoras está num grande bolo entre 185 e 195 de altura.

Claro, isso certamente tem a ver com o fato de centrais, as jogadoras mais altas, não pontuarem tanto quanto opostas ou ponteiras porque, essencialmente, jogam meio jogo, porque não fazem recepção. Elas trocam com líberos toda vez que vão para o fundo de quadra e saem do saque. Talvez o ideal a se ver aqui seja o número de pontos convertidos por tentativas de ataque. Importante manter em mente isso.

De qualquer forma, a distribuição de pontos por idade ficou assim

Esse gráfico já é mais interessante. As jogadoras que mais pontuaram (na fase inicial ao menos) são quase todas jovens. A partir dos 30 anos, as que mais pontuaram são centrais, que é uma posição que exige muito menos fisicamente do que, por exemplo, ponteira.

Tirando Eda Erdem, da Turquia, jogadoras que passam muito da faixa de idade de 30 anos não costumam pontuar muito. Outro caso peculiar é o da Ana Carolina (Carol) do Brasil, central de 32 anos que também pontuou bastante.

O caso da Britt Herbots, a maior pontuadora, isolada no canto de cima, é bem peculiar. Apesar de seu desempenho absurdo, ao menos em número de pontos, a Bélgica não só não foi bem como foi a vice-lanterna e por regulamento da FIVB foi rebaixada para a segunda divisão. Isso significa que ela muito provavelmente foi a única jogadora belga a ter bom desempenho.

É mais fácil enxergar isso com um gráfico.

De fato, tirando Herbots, a Bélgica só teve uma jogadora que (mal) passou os 100 pontos em todos os 12 jogos juntos.

Além disso, esse gráfico começa a dar uma ideia de quais foram as seleções que tiveram melhor desempenho. Depois de Herbots, as cinco jogadoras que mais pontuaram foram de cinco equipes diferentes, e todas foram classificadas. Depois delas, volta e meia tem alguma de uma seleção que não se classificou, como Kiera van Ryk pelo Canadá ou Hanna Orthman pela Alemanha, mas vale a pena destacar também que muitas jogadoras titulares em suas seleções não participaram de todos os jogos. Eu falei do caso da Tijana Boskovic pela Sérvia, mas Paola Egonu, pela Itália, não jogou todas as partidas.

Um caso particularmente interessante é o dos Estados Unidos. Apesar das americanas terem se classificado em primeiro lugar na fase inicial, nenhuma jogadora pontuou mais do que 100 vezes e, ironicamente, foram a seleção mais bem colocada na primeira fase. É quase o oposto do caso da Bélgica, que dependeu de uma jogadora na competição inteira e teve o segundo pior desempenho.

Parece que, quanto maior a dependência por uma só jogadora, pior o desempenho da seleção. Os EUA são o melhor exemplo, mas Brasil, Turquia, Itália (com exceção de Egonu) e Sérvia (com exceção de Ana Bjelica, que é da mesma posição de Boskovic, que teria o mesmo efeito) seguem o mesmo padrão, tendo uma boa quantidade de jogadoras que ficaram com algo entre 100 e 150 pontos marcados.

VNL pós-coronavirus

Agora eu queria integrar dados das duas últimas ligas das nações. Claro, algumas jogadoras participaram de duas edições, outras só de uma, então eu devia considerar a quantidade de partidas jogadas por cada uma. Fiz isso com a estatística da pontos por jogo e a de número de jogos disputados, que consegui dividindo os pontos totais pelo número de pontos por jogo.

Além disso, pela quantidade absurda de dados anteriormente, decidi selecionar apenas as 100 jogadoras que mais pontuaram nessas duas edições. Uma estatística também interessante é o aproveitamento, que coloquei como o tamanho dos pontos.

O resultado foi esse.

Novamente Herbots é um outlier absurdo, mas pelo tamanho da bolha dela, fica nítido que seu aproveitamento não é dos melhores. Não quer dizer que Herbots seja má jogadora, muito longe disso, mas que ela pode ser bem marcada e acaba sobrecarregada com a responsabilidade de ser a referência única de seu time, especialmente sendo tão jovem (23 anos).

O que mais me chamou a atenção ao ver isso foi o aproveitamento de cada posição. Opostas têm aproveitamento muito parecido no geral, ponteiras variam muito, mas centrais não só têm aproveitamentos muito bons mas todos são muito parecidos. Isso faz algum sentido, afinal a bola de meio de rede é a mais rápida, e se a levantadora tem oportunidade de deixar uma central desmarcada atacar, ela deve fazer isso, afinal centrais são mais altas e conseguem atacar de maneira mais vertical, dificultando defesas.

E a melhor maneira de visualizar isso é não com o aproveitamento estando numa variável como o tamanho, mas sendo a inclinação do vetor do ponto. O que isso quer dizer? Simples.

Veja esse gráfico.

E agora esta imagem.

Todas as jogadoras que estão acima da linha preta têm aproveitamento superior à de Herbots, e todas abaixo têm aproveitamento inferior. As centrais estão quase todas acima dessa linha. Outra coisa que também faz sentido é que as com menor aproveitamento são as ponteiras. Não só elas são mais baixas, como foi mostrado, mas o fato de serem divididas em tarefas ofensivas e defensivas, como também apontei antes faz existir uma diferença maior na qualidade do ataque. Algumas são melhores defensivamente, outras ofensivamente e, ainda que não sejam tão boas em uma dessas, podem ser compensar caso sejam melhores em sua outra função.

Disso que eu estava falando no começo e pedi para manter em mente.

O gráfico de distribuição de pontos na fase inicial mostrando as seleções de cada jogadora em vez das posições também mostra algo interessante que já foi brevemente comentado antes. Apesar de Herbots, a Bélgica teve apenas quatro jogadoras dentre as 100 maiores pontuadoras em fases iniciais. Isso mostra o quão linear e previsível é o jogo das levantadoras belgas. A Coréia do Sul, que usou a edição de 2022 para testar um time completamente novo e além de tudo foi lanterna isolada dela sem conseguir uma única vitória, teve quatro jogadoras nessa lista, e a Bélgica teve cinco.

A única exceção a essa regra é o Japão, que teve também cinco jogadoras, mas também teve certa variação nas duas edições, o que diminui os números individuais. Até uma seleção como a Holanda, que além de estar em um período de transição, deixando a marcante geração de 2016-2018 de Belien, De Kruijf, Slöetjes para trás, variou bastante as jogadoras que trouxe em ambas edições, teve sete nessa lista. Também vale destacar que Nika Daalderop mal participou da edição de 2022, não acho que chegou sequer a jogar de fato um jogo apesar de ter sido convocada e viajado com o time.

Poder de decisão

Frequentemente se fala em poder de decisão de jogadoras, e tem algum momento melhor para ver isso do que na fase final?

Aqui a distribuição de pontos fases finais.

Na edição de 2021 da VNL, a fase final teve só semi-finais e final, e a de 2022 teve tudo desde as quartas. Isso fez os números serem bem baixos para a quantidade de jogos, tornando o gráfico por quantidade de jogos não muito interessante, mas de fácil compreensão. Escolhi apenas as 30 jogadoras que mais pontuaram, ao invés de 100, dada a menor quantidade de seleções que chegaram a esse ponto.

O quão outlier Paola Egonu é nesse gráfico é impressionante. É de se imaginar que, pela quantidade de jogos, tenha certo comportamento linear de número de pontos. Ora, se você participa de mais jogos, pontua mais. E ok, de fato isso acontece, mas Egonu está completamente fora da expectativa. Tendo duas partidas a menos, ela pontuou apenas 7 vezes a menos que as maiores pontuadoras, a brasileira Gabriela Guimarães (Gabi) e a jovem turca Karakurt.

Falando em ser jovem, a brasileira Júlia Bergmann foi a terceira melhor ponteira em fases finais de VNL mesmo só participando de uma (das duas que aconteceram). Tanto a segunda quanto a terceira maiores pontuadoras brasileiras são bem jovens, tendo 22 e 21 anos.

Apesar da ponteira Sarina Koga ter pontuado bastante, seu aproveitamento foi minúsculo. Isso provavelmente acontece porque ela é, descontadas outras japonesas e a única tailandesa presente nesse gráfico, a segunda mais baixa (na frente apenas da brasileira Fernanda Garay, que se aposentou da seleção em 2021 e não participou da edição de 2022). Isso a torna mais vulnerável a bloqueios.

E novamente falando em aproveitamento, algo que fica nítido é o aproveitamento das centrais.

Visualizando os ataques convertidos em função das tentativas, novamente fica bem claro que centrais são jogadoras que devem sempre pontuar, seja em bloqueio (algo que seria extremamente nítido caso fossem analisados pontos de bloqueio em vez de ataques/spikes) ou em ataques.

Outra coisa também interessante que esse gráfico mostra é que, apesar da maior pontuadora ter sido uma ponteira (empatada com uma oposta), todas as jogadoras com aproveitamento melhor que o dela foram ou opostas ou centrais, novamente indo de acordo com o que foi dito antes: opostas são jogadoras especificamente para atacar, já ponteiras dividem suas tarefas entre funções ofensivas e defensivas.

Como opostas não são substituídas a cada três rotações, como centrais, elas se tornam assim as jogadoras mais decisivas — ou no mínimo que mais desequilibram. Um time que tem uma oposta com baixo rendimento precisa compensar com ponteiras e centrais, o que é difícil porque as primeiras têm dupla função e as segundas não estão em quadra com tanta frequência.

Por fim, a distribuição de pontos em fase final de acordo com nacionalidade. Obviamente, as seleções que mais jogaram têm mais representantes nessa lista (a China não passou para a fase seguinte em 2021, por exemplo, enquanto o Brasil chegou a duas finais). Interessante ver como a única jogadora da Tailândia a entrar na lista das maiores pontuadoras foi uma ponteira. Não ter uma oposta, que já vimos ser a posição que mais causa desequilíbrio, cria muitas dificuldades. O mesmo vale para o Japão, que chegou à fase final em ambas edições, mas não mais longe do que a semi-final em 2021.

Da mesma forma que os EUA tiveram várias jogadoras sendo importantes em fases iniciais, o mesmo aconteceu aqui. A seleção americana só participou de três jogos em fases finais nos últimos dois anos, e ainda assim teve cinco jogadoras nessa lista (duas sendo opostas!), Annie Drews, Jordan Thompson, Kelsey Robinson (notoriamente melhor passadora do que atacante), Haleigh Washington e Alexandra Frantti.

Conclusões

Em primeiro lugar, para fazer o data scraping necessário para uma pesquisa dessas, talvez seja melhor pesquisar somente as principais jogadoras de torneios. Procurar individualmente os dados de cada jogadora pode ser um pouco problemático (apesar de ainda ser automatizável, no meu caso com um loop for no R e os números de cada jogadora em um vetor), porque os sites da FIVB não têm muito padrão nos endereços que usam para a informação de cada uma.

É importante destacar também que só foram tratadas estatísticas de ataque aqui, então conclusões sobre posições primariamente defensivas, como líbero, não puderam ser tiradas. Seria interessante fazer algo defensivo, especialmente consideranduma figura como a Myrthe Schoot, a mais alta das líberos e também a que mais fez defesas, mas não foi o propósito.

Agora, quanto ao jogo em si:

É importante destacar que esses dados talvez valham só para um período específico ou um campeonato específico. A Liga das Nações é notoriamente uma competição não tão importante assim, ela vale menos para o ranking da FIVB, premia menos e as seleções, mesmo as que não estão dentre as mais fortes, não mandam suas melhores jogadoras sempre (algumas bem longe disso). O fato de ser uma competição anual aponta algo nessa direção, por ser um torneio menos escasso. Ideal seria fazer uma análise assim para competições como as Olimpíadas, a Copa do Mundo ou o Campeonato Mundial, que acontecem todos apenas de quatro em quatro anos.

Ainda assim, talvez seja possível imaginar como as coisas serão nos próximos anos.