Andmete standardimine: määrake, testige ja teisendage

Andmete standardimine

Kuigi organisatsioonid liiguvad kogu ettevõttes andmekultuuri loomise suunas, on paljudel endiselt raskusi andmete õigeks muutmisega. Andmete hankimine erinevatest allikatest ning väidetavalt sama teabe erineva vormingu ja esituse hankimine põhjustab teie andmereisil tõsiseid takistusi.

Meeskonnad kogevad viivitusi ja vigu rutiinsete toimingute tegemisel või andmekogumitest ülevaate hankimisel. Sellised probleemid sunnivad ettevõtteid kasutusele võtma andmete standardimise mehhanismi, mis tagab andmete järjepideva ja ühtse ülevaate kogu organisatsioonis. 

Vaatame põhjalikumalt andmete standardimise protsessi: mida see tähendab, milliseid samme see hõlmab ja kuidas saate oma ettevõttes standardse andmevaate saavutada.

Mis on andmete standardimine?

Lihtsamalt öeldes on andmete standardimine protsess, mille käigus muudetakse andmeväärtused valest vormingust õigeks. Et võimaldada standardiseeritud, ühtset ja järjepidevat andmevaadet kogu organisatsioonis, peavad andmeväärtused vastama nõutavale standardile – andmeväljade kontekstis, kuhu need kuuluvad.

Näide andmete standardimise vigadest

Näiteks ei tohi kahes erinevas asukohas elava sama kliendi andmed sisaldada lahknevusi ees- ja perekonnanimes, e-posti aadressis, telefoninumbris ja elukoha aadressis.

Nimi E-posti aadress Telefoninumber Sünnikuupäev Sugu Elukoha aadress
John Oneel john.neal@gmail.com 5164659494 14 / 2 / 1987 M 11400 W Olimpic BL # 200
Allikas 1

Eesnimi Perekonnanimi E-posti aadress Telefoninumber Sünnikuupäev Sugu Elukoha aadress
John O'neal john.neal_gmail.com + 1 516-465-9494 2 / 14 / 1987 Mees 11400 W Olimpic 200
Allikas 2

Ülaltoodud näites näete järgmist tüüpi ebakõlasid.

  1. Struktuurne: Esimene allikas katab kliendi nime ühe väljana, teine ​​aga kahe väljana – ees- ja perekonnanimi.
  2. Muster: Esimeses allikas on a kehtiv e-posti muster jõustatakse e-posti aadressi väljal, samal ajal kui teisel puudub nähtavalt @ sümbol. 
  3. Andmetüüp: Esimene allikas lubab väljal Telefoninumber ainult numbreid, samas kui teisel on stringi tüüpi väli, mis sisaldab ka sümboleid ja tühikuid.
  4. Formaat: Esimese allika sünnikuupäev on vormingus KK/PP/AAAA, teises aga vormingus PP/KK/AAAA. 
  5. Domeeni väärtus: Esimene allikas võimaldab salvestada soo väärtuse M või F, samas kui teine ​​allikas salvestab täieliku vormi – mees või naine.

Sellised andmete vastuolud põhjustavad tõsiseid vigu, mis võivad põhjustada teie ettevõtte aja, kulude ja jõupingutuste kaotust. Sel põhjusel rakendatakse täielikku mehhanismi andmete standardimine on teie andmehügieeni säilitamiseks ülioluline.

Kuidas andmeid standardida?

Andmete standardimine on lihtne neljaetapiline protsess. Kuid olenevalt teie andmetes esinevate ebakõlade olemusest ja sellest, mida proovite saavutada, võivad standardiseerimiseks kasutatavad meetodid ja tehnikad erineda. Siin esitame üldise rusikareegli, mida iga organisatsioon saab kasutada oma standardimisvigade ületamiseks. 

  1. Määratlege, mis on standard

Mis tahes seisundi saavutamiseks peate esmalt määratlema, mis seisund see tegelikult on. Andmete standardimise protsessi esimeses etapis tuleb kindlaks teha, mida on vaja saavutada. Parim viis teada saada, mida vajate, on mõista ettevõtte nõudeid. Peate skannima oma äriprotsesse, et näha, milliseid andmeid ja millises vormingus on vaja. See aitab teil määrata oma andmenõuete lähtetaseme.

Andmestandardi määratlus aitab tuvastada:

  • Andmevarad, mis on teie äriprotsessi jaoks üliolulised, 
  • nende varade vajalikud andmeväljad,
  • Andmetüüp, vorming ja muster, millele nende väärtused peavad vastama,
  • Nende väljade vastuvõetavate väärtuste vahemik jne.

  1. Testige andmekogumeid määratletud standardiga

Kui olete standarddefinitsiooni saanud, on järgmine samm testida, kui hästi teie andmestikud nende suhtes toimivad. Üks viis selle hindamiseks on kasutada andmete profileerimine tööriistad, mis loovad põhjalikke aruandeid ja leiavad sellist teavet nagu andmevälja nõuetele vastavate väärtuste protsent, näiteks:

  • Kas väärtused järgivad nõutavat andmetüüpi ja -vormingut?
  • Kas väärtused on väljaspool vastuvõetavat vahemikku?
  • Kas väärtuste puhul kasutatakse lühendatud vorme, näiteks lühendeid ja hüüdnimesid?
  • Kas aadressid standardiseeritud vastavalt vajadusele – näiteks USPS standardimine USA aadresside jaoks?

  1. Mittevastavate väärtuste teisendamine

Nüüd on lõpuks aeg teisendada väärtusi, mis ei vasta määratletud standardile. Heitkem pilk levinud andmete teisendamise tehnikatele.

  • Andmete sõelumine – Vajalike andmekomponentide saamiseks tuleb mõned andmeväljad esmalt sõeluda. Näiteks nimevälja sõelumine, et eraldada ees-, keskmine ja perekonnanimi, samuti kõik väärtuses esinevad eesliited või järelliited.
  • Andmetüübi ja vormingu teisendamine – Võimalik, et peate teisendamise ajal eemaldama mittevastavad märgid, näiteks eemaldama sümbolid ja tähestikud ainult numbritest koosnevast telefoninumbrist.
  • Mustri sobitamine ja kinnitamine – Mustri teisendamine toimub mustri regulaaravaldise konfigureerimisega. Regulaaravaldisele vastavate meiliaadressi väärtuste puhul tuleb need sõeluda ja määratletud mustriks teisendada. e-posti aadressi saab kinnitada regexi abil:

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$

  • Lühendi laiendamine – Ettevõtete nimed, aadressid ja isikute nimed sisaldavad sageli lühendatud vorme, mille tõttu teie andmekogum võib sisaldada sama teabe erinevat esitust. Näiteks peate võib-olla laiendama osariike, näiteks muutma NY New Yorgiks.
  • Müra eemaldamine ja õigekirja parandamine – Teatud sõnad ei anna väärtusele tegelikult mingit tähendust ja tekitavad andmekogus palju müra. Selliseid väärtusi saab andmekogus tuvastada, käivitades selle neid sõnu sisaldavas sõnastikus, märgistades need ja otsustades, millised neist jäädavalt eemaldada. Sama protsessi saab läbi viia õigekirja- ja trükivigade leidmiseks.

  1. Testige andmestikku uuesti määratletud standardi suhtes

Viimases etapis testitakse teisendatud andmekogumit uuesti määratletud standardi suhtes, et selgitada välja parandatud andmete standardimisvigade protsent. Andmekogus endiselt olevate vigade korral saate oma meetodeid häälestada või ümber konfigureerida ja andmeid protsessi uuesti käivitada. 

Pakkima

Tänapäeval genereeritav andmemaht – ning nende andmete kogumiseks kasutatavate tööriistade ja tehnoloogiate mitmekesisus – sunnib ettevõtteid silmitsi seisma kohutava andmesegadiga. Neil on kõik vajalik olemas, kuid nad pole päris kindlad, miks andmed ei ole vastuvõetaval ja kasutataval kujul ja kujul. Andmete standardimise tööriistade kasutuselevõtt võib aidata selliseid ebakõlasid parandada ja võimaldada teie organisatsioonis väga vajalikku andmekultuuri.

Mis sa arvad?

Sellel saidil kasutatakse rämpsposti vähendamiseks Akismetit. Vaadake, kuidas teie andmeid töödeldakse.