• Aluno
  • Professor
IDP
  • Conheça o IDP
    • Nosso Campus
    • Corpo Docente
    • Parcerias Internacionais
    • Trabalhe Conosco
  • Cursos
    • Graduação
      • Administração
      • Arquitetura e Urbanismo
      • Ciência da Computação
      • Direito – Brasília
      • Economia
      • Engenharia de Software
      • Publicidade e Propaganda
      • Psicologia
      • Relações Internacionais
    • Especialização
      • Direito Administrativo
      • Direito Constitucional
      • Direito Processual Civil
      • Direito Tributário
      • Jornalismo Investigativo
    • LLMs
      • LLM Direito dos Negócios e Governança Corporativa
      • LLM Direito Penal Econômico
      • LLM Processo e Recursos nos Tribunais
    • Mestrado e Doutorado – Brasília
      • Mestrado em Administração Pública
      • Mestrado em Comunicação Digital
      • Mestrado em Direito Constitucional
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Doutorado em Administração Pública
      • Doutorado em Direito
    • Mestrado e Doutorado – São Paulo
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Mestrado em Políticas Públicas
  • Cursos EAD
    • Especialização
      • Direito Administrativo
      • Direito Constitucional
      • Direito Digital e Proteção de Dados
      • Direito Eleitoral
      • Direito Legislativo
      • Direito Processual Civil
      • Direito Penal e Processual Penal
      • Direito Tributário
    • MBAs
      • MBA em Big Data e Data Science Aplicado ao Setor Público
      • MBA em Big Data, Business Analytics e Gestão de Negócios
      • MBA em Comunicação Governamental e Marketing Político
      • MBA em Data Driven Marketing
      • MBA em Diplomacia Direta de Estados e Municípios
      • MBA em Direito e Regulação do Setor Elétrico
      • MBA em Gestão de Políticas Educacionais
      • MBA em Gestão Pública
      • MBA em Saneamento e Estruturação de Novos Negócios no Setor
      • MBA em Jornalismo de Dados
      • MBA em Políticas Públicas
    • Curso de Extensão
      • Relações Institucionais e Governamentais (RIG) no Contexto Corporativo
    • Cursos Gratuitos
      • Pre-College
  • Pesquisa e Academia
    • Pesquisa
      • Biblioteca
      • Programas de Incentivo
      • Centro de Pesquisa – CEPES
      • Centro de Pesquisas Peter Habërle
      • CEDIS
      • Grupos de Pesquisa
      • Grupos de Estudo
      • LAIPP
    • Publicações
      • Revista de Direito Público
      • Revista Caderno Virtual
      • REGEN – Revista de Gestão, Economia e Negócios
      • Boletim Economia Empírica
      • IDP Law Review
      • Teses e Dissertações
      • Revista Debates em Administração Pública
      • Revista Debates em Economia Aplicada
      • IDP Saraiva
    • Extensão
      • Career Center
      • Job Fair
      • NGDC
      • Laudelina – Núcleo Interdisciplinar de Liderança e Diversidade
    • CPA e CPSA
      • Comissão Própria de Avaliação
      • Comissão Permanente de Supervisão e Acompanhamento
  • A Vida no IDP
    • Notícias
    • Eventos
    • EGEN
    • ECOM
    • Podcasts do IDP
    • Projeto IDP OAB
  • Fale Conosco
IDP
  • CONHEÇA O IDP
    • Nosso Campus
    • Corpo Docente
    • Parcerias Inernacionais
    • Trabalhe Conosco
  • CURSOS
    • GRADUAÇÃO
      • Administração
      • Arquitetura
      • Ciência da Computação
      • Direito - Brasília
      • Direito - São Paulo
      • Economia
      • Engenharia Civil
      • Engenharia de Produção
      • Engenharia de Software
      • Jornalismo
      • Publicidade e Propaganda
      • Relações Internacionais
    • ESPECIALIZAÇÃO
      • Cursos online - IDP online
      • Direito Administrativo
      • Direito Constitucional
      • Direito Processual Civil
      • Direito tributário
      • Jornalismo Investigativo
    • LLMS
      • LLM Direito dos Negócios e Governança Corporativa
      • LLM Direito Penal Econômico
      • LLM Controle da Administração Pública
      • LLM Processo e Recursos nos Tribunais
      • LLM Direito Administrativo
      • LLM Direito Eleitoral
      • LLM Direito Constitucional
    • MESTRADO E DOUTORADO
      • Mestrado e Doutorado - Brasília
      • Mestrado em Administração Pública
      • Mestrado em Comunicação Digital
      • Mestrado em Direito Constitucional
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Doutorado em Administração Pública
      • Doutorado em Direito
      • Mestrado e Doutorado - São Paulo
      • Mestrado em Direito (Profissional)
      • Mestrado em Economia
      • Mestrado em Políticas Públicas
  • CURSOS EAD
    • ESPECIALIZAÇÃO
      • Direito Constitucional
      • Direito Tributário
      • Direito Processual Civil
      • Direito Administrativo
      • Direito Penal e Processual Penal
      • Direito Digital e Proteção de Dados
      • Direito Eleitoral
    • MBAS
      • MBA Executivo Líderes do Setor Público
      • MBA em Big Data, Business Analytics e Gestão de Negócios
      • MBA Big Data e Data Science Aplicado ao Setor Público
      • MBA em Gestão de Negócios, Empreendedorismo e Inovação
      • MBE em Mercados Agrícolas
      • MBA em Gestão de Pessoas e RH 4.0
      • MBA em Comunicação Governamental e Marketing Político
      • MBA em Diplomacia Direta de Estados e Municípios
      • MBA em Data Driven Marketing
      • MBA em Jornalismo de Dados
      • MBA em Saneamento e Estruturação de Novos Negócios no Setor
      • MBA em Direito e Regulação do Setor Elétrico
    • Cursos Gratuitos
      • Open Class - Minicursos
      • Pre-College
      • IDP Experience
  • PESQUISA E ACADEMIA
    • PESQUISA
      • Biblioteca
      • Programas de Incentivo
      • Centro de Pesquisas Peter Habërle
      • Centro de Pesquisa - CEPES
      • CEDIS
      • Grupo de Pesquisa
      • Grupo de Estudo
      • LAIPP
    • PUBLICAÇÕES
      • Revista de Direito Público
      • Revista Caderno Virtual
      • Boletim Economia Empírica
      • IDP Law Review
      • Teses e Dissertações
      • IDP Saraiva
    • EXTENSÃO
      • Career Center
      • Job Fair
    • CPA
      • Comissão Própria de Avaliação
  • A VIDA NO IDP
    • Notícias
    • Eventos
    • EGEN
    • ECOM
    • IDP Experience
    • IDPTalks – Podcasts
  • FALE CONOSCO
ALUNO
PROFESSOR

Ferramentas de acessibilidade

VLibras

Consulte aqui o cadastro da Instituição no Sistema e-MEC


  • Home
  • Colunas
  • Dicas
  • Guia ECOM
  • Oportunidades
  • Tendências
  • Avisa Lá, ECOM
  • Pesquisar...
    Raspando dados do Brasileirão Feminino com Web Scraper
    set 01, 2021

    Nossos alunos do MBA em Jornalismo de Dados produziram uma série de tutoriais como trabalho final na disciplina Low Code: Transformando dados em pautas sem programar, ministrada pelo professor Adriano Belisário. Este mês você poderá conferir alguns dos trabalhos e se aventurar com os tutoriais elaborados por eles. O primeiro da lista é o da aluna Beatriz Pinheiro.

    Apesar da guinada recente no futebol feminino brasileiro, com mudanças no calendário, maior disponibilidade de transmissões de jogos e aumento no interesse da mídia e do público, ainda há certo atraso na profissionalização da modalidade, que foi proibida por decreto durante 40 anos no Brasil. Esse atraso se reflete nos registros históricos do futebol de mulheres, o que traz bastante prejuízo para a cobertura jornalística, já que é difícil encontrar dados sistematizados para embasar a produção de pautas. 

    Pensando nesse cenário, o objetivo deste tutorial é apresentar o Web Scraper como uma ferramenta que pode auxiliar a explorar e criar bases de dados mais amigáveis sobre equipes, jogadoras e competições, de modo a não apenas facilitar o trabalho jornalístico, mas também colaborar com registros históricos para o desenvolvimento do futebol feminino brasileiro. 

    Entendendo a ferramenta 

    O Web Scraper é uma extensão do Google Chrome, que permite extrair dados usando como fonte os códigos HTML dos sites. Esses códigos estruturam as informações dos sites em elementos, que funcionam como “caixas”, nas quais são ordenados os dados. O papel do Web Scraper é extrair os dados dessas caixas e transformá-los em uma planilha estruturada. 

    A fonte dos dados utilizada neste tutorial será o Soccerway Mulheres, um site que reúne estatísticas de jogos do futebol feminino mundial e informações como: equipes, atletas, campeonatos, jogos, resultados, etc. Para esta prática, vamos usar como exemplo a tabela do Campeonato Brasileiro Feminino A1 - 2020, e raspar informações sobre todas as atletas que disputaram a competição. 

    A ideia que trabalharemos aqui será de selecionar os seguintes dados de todas as jogadoras: clube, nome, posição, idade, jogos e gols marcados no campeonato. Se esse processo fosse feito manualmente, teríamos de acessar individualmente a página de cada um dos 16 times, entrar na página de cada jogadora e copiar e colar as informações desejadas em uma planilha. 

    Além de extremamente trabalhoso e cansativo, esse processo também estaria mais sujeito a erros caso feito manualmente, o que colocaria em risco toda a análise dos dados coletados. É aí que entra o Web Scraper, que permite automatizar as etapas mencionadas acima. 

    Mão na massa 

    O primeiro passo para iniciar o processo de raspagem é instalar o Web Scraper, o que pode ser feito através desse link. Depois, basta clicar no ícone de extensões, no canto superior direito do Google Chrome e selecionar o Web Scraper para ativá-lo. 

    Com a extensão instalada e a classificação do Campeonato Brasileiro Feminino aberta, vamos clicar com o botão direito do mouse e selecionar a opção Inspecionar. Perceba que é aberta uma aba na parte de baixo da tela, na qual aparecem informações sobre os

    códigos da página. Vamos nos atentar à aba Web Scraper, a última que aparece no menu, à direita. 

    Com a aba Web Scraper aberta, clique no botão Create new sitemap e selecione a opção create sitemap. Vão aparecer dois campos em branco - o primeiro, Sitemap name, para ser preenchido com o nome do seu robô, que irá raspar as informações. No nosso caso, vamos nomeá-lo de “brasileirao-feminino-2020”. Abaixo, aparecerá o campo Start URL, no qual definiremos a página de partida para a raspagem dos dados. Neste exemplo, a página de classificação do Brasileirão Feminino. 

    Na sequência, vamos definir o primeiro parâmetro a ser raspado pelo robô. Para isso, vamos clicar no botão Add new selector e trabalhar com os campos Id, Type e Select. O campo Id serve para nomear a informação que queremos extrair e, no caso desta prática, queremos informações de cada uma das equipes do Brasileirão Feminino, portanto, vamos chamar o seletor de “times”.

    O campo Type indica qual o tipo de elemento do código HTML será raspado, podendo ser texto, link, imagem, entre outras opções que aparecem ao clicar sobre o campo. Olhando a classificação do Brasileirão Feminino, percebemos que cada time na tabela é um link, que direciona para a página individual da equipe. Portanto, neste passo, vamos selecionar a opção link. 

    O próximo passo é ativar o botão select e clicar sobre o nome de cada time. Note que o link fica destacado em uma caixinha vermelha e, a partir do segundo clique, a própria ferramenta já reconhece a seleção que queremos fazer. Verifique se está tudo certo e confirme no botão verde, done selecting, que aparece acima da barra de inspeção. 

    Não se esqueça de marcar a opção Multiple, para garantir que todos os elementos selecionados, isto é, todos os times, serão reconhecidos pelo seletor. Por fim, basta clicar no botão save selector na parte inferior da página e pronto, temos o primeiro raspador. 

    Nosso objetivo aqui é coletar informações sobre as atletas de cada time, portanto vamos acessar a página do Corinthians, o primeiro na classificação, como exemplo, e rolar até a parte onde estão as informações das atletas. 

    Na barra de controle do Web Scraper, vamos clicar sobre o seletor “times”, já criado, e repetir o processo anterior, desta vez para cada atleta da equipe: criar novo seletor, colocar o nome “jogadoras” no campo Id, selecionar novamente o tipo de elemento como link, para garantir que o robô vá acessar as páginas de cada jogadora, e clicar no botão select. Em seguida, basta selecionar o nome de cada uma das jogadoras e clicar em done selecting, lembrando de marcar a opção multiple. Por fim, salvar o seletor.

    O próximo passo é acessar a página de uma das atletas, clicar sobre o seletor “jogadoras” na barra de controle do Web Scraper, e refazer o processo para as informações que buscamos. Desta vez, queremos selecionar a posição em que cada atleta joga, então vamos nomear o seletor como “posição”. Agora, o tipo de elemento que queremos selecionar é um texto, e não precisaremos marcar a opção Multiple, já que temos apenas um bloco de informações de interesse. Agora é só salvar o seletor. 

    Daqui em diante, o processo segue o mesmo para as outras informações de atletas que estamos buscando: idade, jogos e gols na temporada. 

    Raspando os dados 

    Feito isso, agora é hora da raspagem de dados. Na barra de controle do Web Scraper, vamos clicar no botão sitemap brasileirao-feminino-2020, selecionar a opção scrape, e em seguida, clicar no botão start scraping.

    Agora é hora de descansar, porque o robô já está trabalhando: veja que uma nova janela do navegador é aberta, na qual a ferramenta acessa as páginas de cada time e de cada atleta do Brasileirão Feminino 2020 para raspar os dados que determinamos. 

    Quando terminar o processo, basta clicar no botão refresh, e o Web Scraper mostrará uma prévia da tabela organizada após raspagem dos dados. Agora, basta clicar novamente no botão sitemap brasileirao-feminino-2020 e selecionar a opção export as CSV. 

    Pronto! Agora já temos a tabela completa, com informações de todas as jogadoras que atuaram no Brasileirão Feminino 2020.

    Avisa lá, ECOM

    Comentários

    Nenhum comentário ainda. Seja o primeiro!

    Please Post Your Comments & Reviews
    Cancelar resposta

    Seu email não será publicado. Todos os campos são obrigatórios. Seu comentário será enviado para a moderação e publicado assim que aprovado.

    Chave Evento ID do Evento Check-in Dia/hora
    1
    Adicionar Linha

    ecom/IDP
    Se você quer ficar atualizado sobre o que acontece na área de comunicação, criatividade, inovação e artes acompanhe o blog da ECOM/IDP. Este espaço traz novidades do mercado, artigos de especialistas, posts de estudantes e muita informação relevante da área.
    Open Class - Cursos Gratuitos
    Podcasts
    Eventos
    30/03/2021
    Webinar – Poder Judiciário e Re...
    25/02/2021
    Consequências econômicas das decisões...
    19/02/2021
    O discurso do ódio e a liberdade de e...
    08/02/2021
    Open Day IDP São Paulo
    Redes Sociais
    Facebook
    Curtir
    Twitter
    Follow Us
    LinkedIn
    Follow Us
    Instagram
    Seguir no Instagram

    Assine a newsletter da ECOM


    IDP

    Consulte aqui o cadastro da Instituição no Sistema e-MEC

    Institucional

    • Conheça o IDP
    • Nosso Campus
    • Responsabilidade Social
    • CPA
    • Política de Privacidade

    Cursos

    • Graduação
    • Pós-Graduação
    • Mestrado
    • Doutorado
    • Eventos e Cursos

    Outras Informações

    • Centro de Pesquisa
    • Biblioteca
    • Notícias
    • Eventos
    • Podcasts

    Contato

    SGAS Quadra 607 - Módulo 49 - Via L2 Sul - Brasilia - DF CEP 70.200-670

    SGAN Quadra 609 - Módulo A - Via L2 Norte - Brasília - DF - CEP 70.830-401

    (61) 3535-6565

    61 99867-2414

    centralrelacionamento@idp.edu.br

    © 2023 Todos Direitos Reservados

    DÚVIDAS?

    Pesquise abaixo ou fale conosco

    Controle de uso de dados
    Ao clicar em “Aceitar os cookies”, você concorda com tratamento de dados via cookies utilizados para analisar o uso deste site via analytics, publicidade baseada no seu comportamento em nosso site e também para a definição de estratégias de marketing do IDP. Algumas das finalidades são opcionais. Caso se oponha a elas, basta clicar em "Rejeitar todos".
    Acesse a Política de PrivacidadeRejeitar todosAceitar todos os cookies
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Sempre ativado
    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
    Non-necessary
    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
    SALVAR E ACEITAR
    AdBlock ativado!

    Notamos que você possui um ad-block ativo! Lembramos que formulários de cadastro do nosso site podem não ser exibidos por esse motivo. Sugerimos que você desligue o bloqueador para evitar problemas de cadastros.


    Não temos propaganda em nosso portal.