Hur man väljer en dataanalysplattform

Oavsett om du har ansvarsområden inom mjukvaruutveckling, devops, system, moln, testautomatisering, webbplatsens tillförlitlighet, ledande scrumteam, infosec eller andra områden inom informationsteknik, har du ökande möjligheter och krav att arbeta med data, analys och maskininlärning .

Tech Spotlight: Analytics

  • Hur man väljer en dataanalysplattform ()
  • 6 bästa metoder för visualisering av affärsdata (Computerworld)
  • Healthcare analytics: 4 success stories (CIO)
  • SD-WAN och analys: Ett äktenskap skapat för det nya normala (Network World)
  • Hur man skyddar algoritmer som immateriell egendom (CSO)

Din exponering för analys kan komma genom IT-data, som att utveckla mått och insikter från agila, devops eller webbplatsmätvärden. Det finns inget bättre sätt att lära sig de grundläggande färdigheterna och verktygen kring data, analys och maskininlärning än att tillämpa dem på data som du känner till och som du kan hämta för insikter för att driva åtgärder.

Saker och ting blir lite mer komplexa när du förgrenar dig från IT-världens värld och tillhandahåller tjänster till datavetenskapsteam, medborgardataforskare och andra affärsanalytiker som utför datavisualisering, analys och maskininlärning.

Först måste data laddas och rensas. Beroende på datamängden, variationen och hastigheten kommer du troligen att stöta på flera back-end-databaser och molndatateknik. Slutligen har det som brukade vara ett val mellan verktyg för affärsinformation och datavisualisering under de senaste åren gått ihop till en komplex matris av analyser av plattformar och maskininlärningsplattformar för hela livet.

Vikten av analys och maskininlärning ökar IT: s ansvarsområden inom flera områden. Till exempel:

  • IT tillhandahåller ofta tjänster kring alla dataintegrationer, backend-databaser och analysplattformar.
  • Devops-team distribuerar och skalar ofta datainfrastrukturen för att göra det möjligt att experimentera med maskininlärningsmodeller och sedan stödja bearbetning av produktionsdata.
  • Nätverksdriftsteam skapar säkra anslutningar mellan SaaS-analysverktyg, multiclouds och datacenter.
  • IT-tjänstehanteringsgrupper svarar på data- och analystjänstförfrågningar och incident.
  • Infosec övervakar datasäkerhetsstyrning och implementeringar.
  • Utvecklare integrerar analys- och maskininlärningsmodeller i applikationer.

Med tanke på explosionen av analyser, molndataplattformar och maskininlärningsfunktioner, här är en grundfärg för att bättre förstå analyslivscykeln, från dataintegration och rengöring, till dataops och modellops, till databaser, dataplattformar och själva analyserbjudandena.

Analytics börjar med dataintegration och datarengöring

Innan analytiker, medborgardataforskare eller datavetenskapsteam kan utföra analyser måste de nödvändiga datakällorna vara tillgängliga för dem i deras datavisualiserings- och analysplattformar.

Till att börja med kan det finnas affärskrav för att integrera data från flera företagssystem, extrahera data från SaaS-applikationer eller strömma data från IoT-sensorer och andra datakällor i realtid.

Det här är alla steg för att samla in, ladda och integrera data för analys och maskininlärning. Beroende på komplexiteten i data- och datakvalitetsproblemen finns det möjligheter att engagera sig i dataops, datakatalogisering, masterdatahantering och andra initiativ för datastyrning.

Vi känner alla till frasen "skräp in, skräp ut." Analytiker måste vara oroade över kvaliteten på deras data, och dataforskare måste vara oroade över fördomar i sina maskininlärningsmodeller. Aktualiteten att integrera ny data är också avgörande för företag som vill bli mer datadrivna i realtid. Av dessa skäl är rörledningarna som laddar och bearbetar data kritiskt viktiga för analys och maskininlärning.

Databaser och dataplattformar för alla typer av datahanteringsutmaningar

Att ladda och bearbeta data är ett nödvändigt första steg, men sedan blir saker och ting mer komplicerade när man väljer optimala databaser. Dagens val inkluderar datalager för företag, datasjöar, stora databehandlingsplattformar och specialiserade NoSQL-, graf-, nyckel-värde-, dokument- och kolumnardatabaser. För att stödja storskalig datalagring och analys finns det plattformar som Snowflake, Redshift, BigQuery, Vertica och Greenplum. Slutligen finns det stora dataplattformar, inklusive Spark och Hadoop.

Stora företag kommer sannolikt att ha flera datalagrar och använda molndataplattformar som Cloudera Data Platform eller MapR Data Platform, eller dataarkestreringsplattformar som InfoWorks DataFoundy, för att göra alla dessa arkiv tillgängliga för analys.

De stora offentliga molnen, inklusive AWS, GCP och Azure, har alla datahanteringsplattformar och tjänster att sikta igenom. Azure Synapse Analytics är till exempel Microsofts SQL-datalager i molnet, medan Azure Cosmos DB tillhandahåller gränssnitt till många NoSQL-datalagrar, inklusive Cassandra (kolonndata), MongoDB (nyckelvärde och dokumentdata) och Gremlin (grafdata) .

Datasjöar är populära laddningsdockor för att centralisera ostrukturerad data för snabb analys, och man kan välja från Azure Data Lake, Amazon S3 eller Google Cloud Storage för att tjäna detta syfte. För bearbetning av stora data har AWS-, GCP- och Azure-molnen alla Spark- och Hadoop-erbjudanden.

Analytics-plattformar riktar sig mot maskininlärning och samarbete

Med data laddad, rensad och lagrad kan dataforskare och analytiker börja utföra analys och maskininlärning. Organisationer har många alternativ beroende på vilken typ av analys, färdigheterna hos analysteamet som utför arbetet och strukturen för underliggande data.

Analytics kan utföras i självbetjäningsverktyg för visualisering av data som Tableau och Microsoft Power BI. Båda dessa verktyg riktar sig till medborgardataforskare och exponerar visualiseringar, beräkningar och grundläggande analyser. Dessa verktyg stöder grundläggande dataintegration och omstrukturering av data, men mer komplex datavridning händer ofta innan analysstegen. Tableau Data Prep och Azure Data Factory är de kompletterande verktygen för att integrera och transformera data.

Analytics-team som vill automatisera mer än bara dataintegration och prep kan titta på plattformar som Alteryx Analytics Process Automation. Denna end-to-end, samarbetsplattform förbinder utvecklare, analytiker, medborgardataforskare och dataforskare med arbetsflödesautomatisering och bearbetningsfunktioner för databehandling, analys och maskininlärning med självbetjäning.

Alan Jacobson, chefsanalys och dataansvarig på Alteryx, förklarar: ”Framväxten av analytisk processautomation (APA) som en kategori understryker en ny förväntan för varje arbetstagare i en organisation att vara dataarbetare. IT-utvecklare är inget undantag och Alteryx APA-plattformens töjbarhet är särskilt användbar för dessa kunskapsarbetare. ”

Det finns flera verktyg och plattformar som riktar sig till dataforskare som syftar till att göra dem mer produktiva med teknik som Python och R samtidigt som många av de operativa och infrastrukturstegen förenklas. Till exempel är Databricks en datavetenskaplig operativ plattform som gör det möjligt att distribuera algoritmer till Apache Spark och TensorFlow, samtidigt som hanteringen av datorkluster i AWS- eller Azure-molnet. 

Nu kombinerar vissa plattformar som SAS Viya dataförberedelse, analys, prognoser, maskininlärning, textanalys och maskininlärningsmodellhantering till en enda modellops-plattform. SAS arbetar med analys och riktar sig till datavetare, affärsanalytiker, utvecklare och chefer med en samarbetsplattform från början till slut.

David Duling, chef för forskning och utveckling av beslutsstyrning på SAS, säger: ”Vi ser modellops som praxis för att skapa en upprepbar, granskbar pipeline av operationer för att distribuera all analys, inklusive AI- och ML-modeller, i operativa system. Som en del av modelops kan vi använda moderna devops-metoder för kodhantering, testning och övervakning. Detta hjälper till att förbättra frekvensen och tillförlitligheten av modelldistribution, vilket i sin tur förbättrar smidigheten i affärsprocesser som bygger på dessa modeller. ”

Dataiku är en annan plattform som strävar efter att föra dataförberedelse, analys och maskininlärning till växande datavetenskapsteam och deras medarbetare. Dataiku har en visuell programmeringsmodell för att möjliggöra samarbets- och kodanteckningsböcker för mer avancerade SQL- och Python-utvecklare.

Andra analys- och maskininlärningsplattformar från ledande leverantörer av företagsprogramvara syftar till att föra analysfunktioner till datacenter och molndatakällor. Till exempel syftar både Oracle Analytics Cloud och SAP Analytics Cloud till att centralisera intelligens och automatisera insikter för att möjliggöra slutbeslut.

Välja en dataanalysplattform

Att välja dataintegrations-, lager- och analysverktyg brukade vara enklare innan stora data, maskininlärning och datastyrning ökade. Idag finns det en blandning av terminologi, plattformskapacitet, operativa krav, styrningsbehov och riktade användarpersoner som gör val av plattformar mer komplexa, särskilt eftersom många leverantörer stöder flera användningsparadigmer. 

Företagen skiljer sig åt vad gäller analyskrav och behov men bör söka nya plattformar från utsiktspunkten för vad som redan finns. Till exempel:

  • Företag som har haft framgång med medievetenskapliga program och som redan har datavisualiseringsverktyg på plats kanske vill utvidga programmet med analysprocessautomatisering eller dataprepareringsteknologi.
  • Företag som vill ha en verktygskedja som gör det möjligt för dataforskare som arbetar i olika delar av verksamheten kan överväga analysplattformar från helhet till slut med modellops-funktioner.
  • Organisationer med flera, olika back-end-dataplattformar kan dra nytta av molndataplattformar för att katalogisera och centralt hantera dem.
  • Företag som standardiserar alla eller de flesta datafunktioner på en enda offentlig molnleverantör borde undersöka de dataintegration, datahantering och dataanalysplattformar som erbjuds.

Med analys och maskininlärning som en viktig kärnkompetens bör teknologer överväga att fördjupa sin förståelse för de tillgängliga plattformarna och deras kapacitet. Kraften och värdet hos analysplattformar kommer bara att öka, liksom deras inflytande i hela företaget.