Bonsoir tout le monde et bienvenue sur ce forum (ça c’est pour moi ;-))
Je viens de passer 2 jours de mes courtes vacances à essayer de trouver une solution mais rien n’y fait … je jette l’éponge et viens m’enquérir de votre aide …
Mon but serait d’extraire toutes les url’s trouvées dans une série de pages web. Mais pas seulement les url’s déclarées comme hyperliens mais aussi toute « suite de caractères » commençant par http://*
Le problème étant alors de ne pas toujours avoir une belle séparation de fin de lien puisque cela peut être une guillemet, un crochet de balise html, etc.
Je ne cherche pas à avoir un code 100% parfait mais du moins, un code qui laisserait échapper le moins de liens possible.
Le point de départ qui me semble le plus adéquat : mes pages internet sont sauvegardées en csv dans un répertoir spéial (je suis déjà arrivé à automatiser cela).
Un tout grand merci d’avance.
Je viens de passer 2 jours de mes courtes vacances à essayer de trouver une solution mais rien n’y fait … je jette l’éponge et viens m’enquérir de votre aide …
Mon but serait d’extraire toutes les url’s trouvées dans une série de pages web. Mais pas seulement les url’s déclarées comme hyperliens mais aussi toute « suite de caractères » commençant par http://*
Le problème étant alors de ne pas toujours avoir une belle séparation de fin de lien puisque cela peut être une guillemet, un crochet de balise html, etc.
Je ne cherche pas à avoir un code 100% parfait mais du moins, un code qui laisserait échapper le moins de liens possible.
Le point de départ qui me semble le plus adéquat : mes pages internet sont sauvegardées en csv dans un répertoir spéial (je suis déjà arrivé à automatiser cela).
Un tout grand merci d’avance.