Suure saidi roomamine ja andmete eraldamine Screaming Frogi SEO Spideri abil

Screaming konn SEO Spider

Aitame praegu mitut klienti Marketo migratsioonid. Kuna suured ettevõtted kasutavad selliseid ettevõttelahendusi, on see nagu ämblikuvõrk, mis põimib end aastate jooksul protsessideks ja platvormideks ... kuni hetkeni, et ettevõtted pole isegi kõigist puutepunktidest teadlikud.

Sellise ettevõtte turunduse automatiseerimise platvormi abil nagu Marketo on vormid saitide ja sihtlehtede andmete sisestuspunktiks. Ettevõtetel on oma saitidel sageli tuhandeid lehti ja sadu vorme, mis tuleb ajakohastamiseks tuvastada.

Suurepärane tööriist selleks on Karjuv Konn SEO ämblik... võib-olla turu populaarseim platvorm saidilt andmete roomamiseks, auditeerimiseks ja andmete väljavõtmiseks. Platvorm on funktsiooniderikas ja pakub sadu võimalusi praktiliselt iga vajaliku ülesande jaoks.

Karjuv konn SEO Spider: indekseerimine ja väljavõte

Screaming Frog SEO Spideri peamine omadus on see, et saate selle põhjal teha kohandatud ekstraktsioone Regulaarne, XPathvõi CSSPath eripära. See on ülimalt kasulik, kuna soovime kliendi saite roomata ning MunchkinID ja FormId väärtusi lehtedelt auditeerida ja hõivata.

Tööriistaga avage Konfiguratsioon> Kohandatud> Ekstraktimine elementide tuvastamiseks, mida soovite välja tõmmata.

screamingfrog kohandatud ekstraheerimine

Ekstraktimisekraan võimaldab andmete kogumist praktiliselt piiramatult:

Karjuva konna SEO ämbliku väljavõtmise reeglid

Regex, XPath ja CSSPath Extraction

MunchkinID-i puhul asub identifikaator lehel asuvas vormiskriptis:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Seejärel rakendame a Regexi reegel lehele sisestatud skriptimärgendist ID hõivamiseks:

Regex: ["']id["']: *["'](.*?)["']

Vormi ID jaoks on andmed Marketo vormi sisendsildis:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Rakendame XPath reegel lehele sisestatud vormi kaudu ID hõivamiseks. XPathi päring otsib vormi, mille sisend on nimi tohutu, siis ekstraheerimine salvestab väärtus:

XPath: //form/input[@name="formid"]/@value

Karjuv konn SEO Spider Javascripti renderdamine

Veel üks suurepärane võimalus Screaming Frog on see, et te ei piirdu lehe HTML-iga, vaid saate renderdada mis tahes JavaScripti, mis sisestab teie saidile vormid. Jooksul Konfiguratsioon> Ämblik, võite minna vahekaardile Renderdamine ja lubada see.

Karjuv konn SEO Spider Javascripti renderdamine

Muidugi võtab saidi roomamine veidi kauem aega, kuid saate nii vormid, mis on JavaScripti abil kliendipoolseks renderdatud, kui ka vormid, mis on sisestatud serveri poolele.

Kuigi see on väga spetsiifiline rakendus, on see tohutult kasulik, kuna töötate suurte saitidega. Kindlasti soovite auditeerida kohti, kuhu teie vormid on kogu saidil manustatud.

Laadige alla Screaming Frog SEO Spider

Mis sa arvad?

Sellel saidil kasutatakse rämpsposti vähendamiseks Akismetit. Vaadake, kuidas teie andmeid töödeldakse.