Suure saidi roomamine ja andmete eraldamine Screaming Frogi SEO Spideri abil
Aitame praegu mitut klienti Marketo migratsiooniga. Kuna suurettevõtted kasutavad selliseid ettevõttelahendusi, on see nagu ämblikuvõrk, mis koob end aastate jooksul protsessideks ja platvormideks, kuni ettevõtted pole igast kontaktpunktist teadlikudki.
Ettevõtte turunduse automatiseerimise platvormi (nt Marketo) puhul on vormid saidi ja sihtlehtede andmete sisestuspunktiks. Ettevõtete saitidel on sageli tuhandeid lehti ja sadu vorme, mis tuleb värskendamiseks tuvastada.
Suurepärane tööriist selleks on Karjuv Konn SEO ämblik... võib-olla SEO turu populaarseim platvorm saidilt roomamiseks, auditeerimiseks ja andmete hankimiseks. Funktsioonirohke platvorm pakub sadu valikuid peaaegu igaks vajalikuks ülesandeks. Funktsioonid ulatuvad aga palju kaugemale otsingu jaoks optimeerimisest, kuid on üks uskumatult kasulik funktsioon, mis võimaldab teil roomamise ajal andmeid hankida.
Karjuv konn SEO Spider: indekseerimine ja väljavõte
Screaming Frog SEO Spideri peamine omadus on see, et saate selle põhjal teha kohandatud ekstraktsioone Regulaarne, XPathvõi CSSPath spetsiifikat. See on äärmiselt kasulik, kuna soovime kliendi saitidel roomata ning lehtedelt MunchkinID ja FormId väärtusi auditeerida ja jäädvustada.
Tööriistaga avage Konfiguratsioon> Kohandatud> Ekstraktimine elementide tuvastamiseks, mida soovite välja tõmmata.
Ekstraktimisekraan võimaldab andmete kogumist praktiliselt piiramatult:
Regex, XPath ja CSSPath Extraction
MunchkinID puhul asub identifikaator lehel olevas vormiskriptis:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Seejärel rakendame a Regexi reegel lehele sisestatud skriptimärgendist ID hõivamiseks:
Regex: ["']id["']: *["'](.*?)["']
Vormi ID jaoks on andmed Marketo vormi sisendsildis:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Rakendame XPath reegel ID jäädvustamiseks lehele sisestatud vormi seest. XPathi päring otsib vormi, mille sisend on nimega tohutu, siis ekstraheerimine salvestab väärtus:
XPath: //form/input[@name="formid"]/@value
Ekstraktige tekstisisesed stiilisildid
Aitame kliendil puhastada saiti, kus ta kasutas Elementori pistikprogrammi sisemisi stiile, et kohandada peaaegu iga lehe elementi. Et tuvastada, kus tekstisiseseid stiile kasutati, kaapisime saidi kohandatud ekstraheerimiseks mitme RegExi reegliga:
- Sisenemise stiil:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Ankrumärgendi tekstisisene stiil:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div sildi tekstisisene stiil:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Pealkirja tekstisisene stiil:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Välistused
At Martech Zone, teenindame saiti mitmes keeles erinevatel alamdomeenidel. Nende tõlgete roomamine pole vajalik, kuna kõik varad ja teave põhinevad põhisaidil. Seetõttu lubasime välistamisloendi konfiguratsiooni ja lisasime järgmise reegli:
.*\.martech.zone
Saate seda kasutada ka mittevajalike teede (nt siltide) roomamise vahelejätmiseks, lisades:
martech.zone/tag/.*
Samuti ei taha me roomata oma AMP-lehtedel, mis lõpevad ?amp=1
, nii et
https?://[^\s]+?\?amp=1
Platvormil on isegi hea meetod mõne testimiseks Aadressid reeglitega vastuolus, et tagada nende nõuetekohane toimimine enne saidil roomamist.
Screaming Frog SEO Spider JavaScripti renderdamine
Teine Screaming Frog suurepärane võimalus on see, et te ei piirdu ainult HTML lehel saate renderdada mis tahes JavaScripti, mis teie saidile vorme sisestab. Sees Konfiguratsioon> Ämblik, võite minna vahekaardile Renderdamine ja lubada see.
Muidugi võtab saidi roomamine veidi kauem aega, kuid saate nii vormid, mis on JavaScripti abil kliendipoolseks renderdatud, kui ka vormid, mis on sisestatud serveri poolele.
Kuigi see on väga spetsiifiline rakendus, on see tohutult kasulik, kuna töötate suurte saitidega. Kindlasti soovite auditeerida kohti, kuhu teie vormid on kogu saidil manustatud.
Laadige alla Screaming Frog SEO Spider
Avalikustamine: Martech Zone kasutab selles artiklis oma sidusettevõtte linke.