Hur man extraherar länkar från en webbsida i Windows

Du kan behöva extrahera länkarna (URL: er) på en webbsida för olika ändamål - t.ex. internetforskning, webbutveckling, säkerhetsanalyser eller testning av webbsidor. Den här artikeln beskriver hur du extraherar länkar från en webbsida eller HTML-dokument i Windows.

Hur man extraherar länkar från en webbsida i Windows

Det finns flera metoder för att extrahera webbadresser på en webbsida. Låt oss börja med ett inhemskt sätt - genom att använda din webbläsares avsnitt för utvecklarverktyg.

Använda din webbläsares utvecklarverktyg

  1. Öppna Chrome för Firefox och besök först webbplatsen eller webbsidan.
  2. Tryck på F12 för att öppna fönstret för utvecklarverktyg.
  3. Klicka på Console-fliken i Developer Tools.
  4. Rensa konsolutgången genom att klicka på Rensa konsol (i Chrome) eller Rensa webkonsolens utgång (i Firefox).
  5. Skriv följande kod i konsolprompt:
     Array.prototype.slice.call (document.querySelectorAll ('a'), 0) .forEach ((a, i) => console.log (`# $ {i + 1} - $ {a.innerText} - $ {a.href} ')); 

Detta matar ut den ordnade listan över länkar på den webbsidan tillsammans med titeln i konsolfönstret.

Om du bara vill ta tag i URL: erna utan serienumret eller titeltexten, använd detta kommando:

 urls = $$ ('a'); för (url i urls) konsol.log (webbadresser [url] .href); 

Kopiera utdata till Notepad och spara den.


Använda PowerShell

Starta PowerShell och använd följande kommandoradssyntax:

 (Invoke-WebRequest -Uri "//www.winhelponline.com/blog").Links.Href | Sortera-objekt | Get-Unique | out-Grid 

Detta får listan med länkar på den angivna webbsidan och matar ut listan till gridvykontroll.

En annan fördel med detta PowerShell-kommando är att det sorterar posten och tar bort duplicerade URL: er från samlingen.

Med gridvisskontrollen kan du filtrera URL: s nyckelordssökning, samt kopiera listorna till urklippet med Ctrl + C

Ta titel och URL

För att visa innerText utöver motsvarande länkar eller webbadresser, kör:

 (Invoke-WebRequest -Uri "//www.winhelponline.com").Links | sort-object href -Unique | Format-lista innerText, href 

Du får en utskrift som denna:

De duplicerade URL: erna tas bort automatiskt i utgången.

Du kan till och med kopiera utgången till urklippet automatiskt med hjälp av | clip | clip :

 (Invoke-WebRequest -Uri "//www.winhelponline.com").Links | sort-object href -Unique | Format-lista innerText, href | klämma 

Ta bara URL-adresser

För att extrahera listan med bild-URL: er använder du denna syntax:

 (Invoke-WebRequest -Uri "//www.winhelponline.com").Bilder | Select-Object src 


Använda AddrView från Nirsoft

Nirsofts AddrView-verktyg extraherar länkarna (inklusive bildlänkar) från en viss webbsida eller en lokal HTML-fil automatiskt och listar dem i en rastervy.

Du kan till och med sortera resultaten efter Typ och kopiera endast bild-URL: erna till urklippet eller spara till fil.

Om du bara vill ta tag i bildlänkar kan du använda Firefoxs inbyggda alternativ för View Page Info . I Firefox högerklickar du på den aktuella webbsidan, klickar på Visa sidinformation → Media. Fliken Media visar alla bild-URL: er, inklusive data:image bildlänkar. Du kan kopiera valda objekt eller alla objekt till urklippet eller spara posten i en fil.

Andra än ovanstående metoder, för webbläsare som Chrome eller Firefox, finns det många tillägg eller tillägg som tar tag i URL- eller bildlänkar från den nuvarande aktiva webbsidan i din webbläsare.

Relaterade Artiklar