Le raclage Web consiste à extraire des données, des informations ou des images d’un site Web à l’aide d’une méthode automatisée. Voyez cela comme un copier / coller en mode automatique.
Nous écrivons ou utilisons une application pour accéder aux sites Web souhaités et créer une copie des éléments spécifiques que nous souhaitons à partir de ces sites. C'est beaucoup plus précis que télécharger un site web entier.
Comme n'importe quel outil, le scraping Web peut être utilisé pour le bien ou pour le mal. Certaines des meilleures raisons de gratter les sites Web le classeraient dans le moteur de recherche. en fonction de son contenu, des comparaisons de prix, ou de la surveillance du marché. Vous pourriez même l’utiliser comme un outil de recherche.
Comment puis-je supprimer des sites Web avec Excel?
Croyez-le ou non, Excel peut extraire des données de sites Web depuis longtemps, du moins depuis Excel 2003. C'est tout. le webscraping est quelque chose que la plupart des gens ne pensent pas, encore moins penser à utiliser un programme de tableur pour faire le travail. Mais c’est étonnamment facile et puissant. Apprenons comment procéder en créant une collection de raccourcis clavier Microsoft Office.
Trouvez les sites que vous souhaitez supprimer
La première chose que nous allons faire Il suffit de rechercher les pages Web spécifiques sur lesquelles nous souhaitons obtenir des informations. Passons à la source et recherchez https://support.office.com/. Nous allons utiliser le terme de recherche «raccourcis fréquemment utilisés». Nous pouvons le préciser en utilisant le nom de l'application spécifique, telle que Outlook, Excel, Word, etc. Il peut être judicieux de créer un signet sur la page de résultats afin que nous puissions y revenir facilement.
Cliquez sur le résultat de la recherche, "Raccourcis clavier dans Excel pour Windows". Une fois sur cette page, recherchez la liste des versions d'Excel et cliquez sur Versions plus récentes. Maintenant, nous travaillons avec les plus récents et les meilleurs.
Nous pourrions revenir à notre page de résultats de recherche et ouvrir les résultats de toutes les autres applications Office dans leurs propres onglets et les marquer d'un signet. C’est une bonne idée, même pour cet exercice. C’est ici que la plupart des gens cesseraient de s’abstenir de prendre des raccourcis Office, mais pas nous. Nous allons les mettre dans Excel pour que nous puissions en faire ce que nous voulons, quand nous le voulons.
Ouvrez Excel et Scrape
Ouvrez Excel et démarrez un nouveau classeur. Enregistrez le classeur en tant que Raccourcis Office. Si vous possédez OneDrive, enregistrez-le afin que la fonctionnalité Enregistrement automatiquefonctionne.
Une fois le classeur enregistré, cliquez sur l'onglet Données.
Dans le ruban de l'onglet Données, cliquez sur Depuis le Web.
La fenêtre de l'assistant À partir du Webs'ouvrira. C'est ici que nous mettons l'adresse Web ou l'URL du site Web à partir duquel nous voulons extraire des données. Basculez sur votre navigateur Web et copiezl'URL.
Collez l'URL dans le Champ URLde l'assistant depuis le Web. Nous pourrions choisir de l'utiliser en mode Basiqueou Avancé. Le mode avancé nous donne beaucoup plus d’options sur la façon d’accéder aux données du site Web. Pour cet exercice, nous n'avons besoin que du mode Basic. Cliquez sur OK.
Excel va maintenant tenter de se connecter au site Web. Cela peut prendre quelques secondes. Si cela se produit, nous verrons une fenêtre de progression.
La fenêtre Navigators'ouvrira et une liste des tableaux du site Web apparaîtra sur la gauche. Lorsque nous en sélectionnerons un, un aperçu du tableau apparaîtra à gauche. droite. Sélectionnons le tableau Raccourcis fréquemment utilisés.
Nous pouvons cliquer sur l'onglet WebViewpour afficher le site Web actuel, si nous devons rechercher la table que nous voulons. Lorsque nous le trouvons, nous pouvons cliquer dessus et il sera sélectionné pour l'importation.
Maintenant, nous cliquons sur le bouton Chargerau bas de cette fenêtre. Nous pourrions choisir d’autres options, qui sont plus complexes et vont au-delà de la portée de notre premier travail. Il faut juste savoir qu'ils sont là. Les capacités de nettoyage Web d'Excel sont très puissantes.
La table Web sera chargée dans Excel après quelques secondes.Nous verrons les données à gauche, où le nombre 1est indiqué dans l'image ci-dessous. Le numéro 2met en évidence la requêteutilisée pour extraire les données du site Web. Lorsque nous avons plusieurs requêtes dans un classeur, c'est ici que nous sélectionnons celle que nous devons utiliser.
Notez que les données sont insérées dans la feuille de calcul sous forme de tableau Excel. Il est déjà configuré pour nous permettre de filtrer ou de trier les données.
Nous pouvons répéter cette procédure pour toutes les autres pages Web contenant les raccourcis Office souhaités pour Outlook, Word, Access, PowerPoint, etc. et toute autre application Office.
Conserver au courant les données supprimées dans Excel
En bonus, nous allons apprendre à conserver des données actualisées dans Excel. C'est un excellent moyen d'illustrer à quel point Excel est puissant pour la récupération de données. Même avec cela, nous ne faisons que le raclage de base que peut faire Excel.
Pour cet exemple, utilisons une page Web d'informations boursières telle que https://www.cnbc.com/stocks/.
Passez en revue ce que nous avons fait auparavant et copiez-collez la nouvelle URL de la barre d'adresse.
Vous allez accéder à la fenêtre du navigateur et voir les tables disponibles. Sélectionnons les principaux indices boursiers américains.
Une fois les données supprimées, nous verrons la feuille de calcul suivante.
À droite, nous voyons la requête pour les principaux indices boursiers américains. Sélectionnez cette option pour la mettre en surbrillance. Assurez-vous que vous vous trouvez dans l'onglet Outils de tableet dans la zone Conception. Cliquez ensuite sur la flèche vers le bas sous Actualiser. Cliquez ensuite sur Propriétés de la connexion.
Dans la fenêtre Propriétés de la requête, sous l'onglet Utilisation, vous pouvez contrôler la façon dont ces informations sont actualisées. Nous pouvons définir une période spécifique pour actualiser ou actualiser la prochaine fois que nous ouvrons le classeur, ou pour rafraîchir en arrière-plan, ou toute combinaison de ceux-ci. Une fois que vous avez choisi votre choix, cliquez sur OKpour fermer la fenêtre et continuer.
C'est tout! Vous pouvez désormais suivre les cours des actions, les résultats sportifs ou toute autre donnée fréquemment modifiée à partir d'un tableur Excel. Si vous êtes doué avec Équations et fonctions Excel, vous pouvez faire presque tout ce que vous voulez avec les données.
Peut-être essayez-vous d’identifier les tendances des actions, utilisez-vous une piscine de sports fantaisie au travail ou suivez-vous simplement la météo? Qui sait? Votre imagination et les données disponibles sur Internet sont les seules limites.