Uno dei temi principali di re:Invent 2022 sono stati gli sforzi di Amazon per facilitare la gestione dei dati, poiché AWS ha annunciato nuove funzionalità ETL per la collaborazione, la ricerca e la catalogazione.
Semplificare la gestione e l’analisi dei dati per le aziende è un tema importante della conferenza AWS re:Invent di quest’anno, poiché Amazon annuncia nuovi servizi e funzionalità mirati a facilitare i processi di estrazione, trasformazione, caricamento (ETL) e a fornire supporto per la catalogazione e la ricerca di dati tra le organizzazioni.
AWS ha rilasciato due nuove funzionalità, l’integrazione zero-ETL di Amazon Aurora con Amazon Redshift e l’integrazione di Amazon Redshift per Apache Spark, che secondo lui renderanno obsoleto il processo ETL.
Le aziende, in genere, utilizzano ETL per integrare la data da più fonti in un unico archivio dati coerente da caricare in un data warehouse per l’analisi.
Tuttavia, la maggior parte dei data engineer afferma che la trasformazione dei dati da fonti disparate potrebbe essere un’attività difficile e dispendiosa in termini di tempo poiché il processo prevede passaggi come la pulizia, il filtraggio, il rimodellamento e il riepilogo dei dati grezzi.
Un altro problema è il costo aggiuntivo del mantenimento dei team che preparano le pipeline di dati per l’esecuzione dell’analisi, ha affermato AWS.
Le nuove funzionalità mirano a eliminare ETL
Al contrario, l’integrazione zero-ETL di Amazon Aurora, secondo l’azienda, elimina la necessità di eseguire ETL tra Aurora e RedShift poiché i dati transazionali scritti in Aurora vengono replicati in RedShift quasi immediatamente e sono pronti per l’esecuzione dell’analisi.
“I clienti possono replicare i dati da più cluster di database Amazon Aurora nella stessa istanza Amazon Redshift per ricavare approfondimenti su diverse applicazioni”, ha affermato la società in una nota, aggiungendo che l’integrazione era attualmente in anteprima.
Apache Spark, uno strumento comune utilizzato dagli sviluppatori, è un motore di analisi unificato open source per l’elaborazione di big data .
“Gli sviluppatori possono iniziare a eseguire query sui dati di Amazon Redshift da applicazioni basate su Apache Spark in pochi secondi utilizzando framework di linguaggi popolari (ad esempio, Java, Python , R e Scala )”, ha affermato la società, aggiungendo che l’integrazione è stata resa generalmente disponibile.
Amazon DataZone per aiutare a catalogare e cercare i dati
Il fornitore di servizi cloud ha anche presentato in anteprima un nuovo servizio di gestione dei dati, denominato Amazon DataZone. Il nuovo servizio di gestione dei dati, che deve ancora essere reso disponibile, dovrebbe aiutare le aziende a catalogare, scoprire, condividere e governare i dati archiviati su AWS, on-premise e fonti di terze parti, ha affermato la società.
I produttori di dati in un’azienda possono impostare il catalogo dei dati definendo origini dati, tassonomia dei dati e politiche di governance tramite il portale Web del servizio, ha affermato AWS.
“Amazon DataZone rimuove il lavoro pesante della manutenzione di un catalogo utilizzando l’apprendimento automatico per raccogliere e suggerire metadati (ad esempio, origine e tipo di dati) per ogni set di dati e addestrando la tassonomia e le preferenze di un cliente per migliorare nel tempo”, ha affermato la società in un comunicato stampa.
Dopo aver configurato il catalogo, i consumatori di dati possono utilizzare il portale web di Amazon DataZone per cercare e scoprire risorse di dati, esaminare i metadati per il contesto e richiedere l’accesso ai set di dati, ha aggiunto.
Per eseguire analisi sui dati, gli utenti aziendali devono creare un progetto dati Amazon DataZone, uno spazio condiviso nel portale Web che consente agli utenti di inserire diversi set di dati, condividere l’accesso con i colleghi e collaborare all’analisi, ha affermato AWS.
“Amazon DataZone è integrato con i servizi di analisi AWS, come Amazon Redshift, Amazon Athena e Amazon QuickSight, che consente ai consumatori di dati di accedere a questi servizi nel contesto del loro progetto di dati”, ha affermato la società.
Il servizio fornisce anche API da integrare con soluzioni o partner personalizzati come DataBricks, Snowflake e Tableau.
AWS Clean Rooms facilita la collaborazione sui dati
Per aiutare le aziende a collaborare sui dati con i propri partner, AWS ha lanciato un nuovo servizio, denominato AWS Clean Rooms.
È possibile accedere al servizio, attualmente limitato ai soli clienti AWS, tramite la Console di gestione AWS, dove un’azienda può scegliere il partner con cui desidera collaborare, ha affermato la società, aggiungendo che la console fornisce opzioni per scegliere i set di dati a cui essere condivisi e configurare le autorizzazioni per i partecipanti.
I set di dati che vengono condivisi nella camera bianca sono crittografati e non devono essere spostati dall’ambiente AWS o essere caricati su un’altra piattaforma, ha affermato AWS, aggiungendo che le query possono essere eseguite anche su questi set di dati.
Inoltre, AWS Clean Rooms offre un’ampia gamma di controlli di accesso ai dati configurabili, inclusi i controlli delle query, le restrizioni sull’output delle query e la registrazione delle query, che consentono alle aziende di personalizzare le restrizioni sulle query eseguite da ciascun partecipante alla camera bianca.
AWS Clean Rooms, disponibile come offerta autonoma e come parte di AWS per la pubblicità e il marketing, sarà disponibile all’inizio del 2023 negli Stati Uniti orientali (Ohio), Stati Uniti orientali (North Virginia), Stati Uniti occidentali (Oregon), Asia Pacifico (Seoul), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Europa (Francoforte), Europa (Irlanda), Europa (Londra) ed Europa (Stoccolma).
AWS aggiunge nuove funzionalità ad Amazon QuickSight
Oltre ad aggiornare altri servizi, AWS ha aggiunto nuove funzionalità al suo servizio di business intelligence unificato, Amazon QuickSight.
Il fornitore di servizi cloud ha aggiunto la possibilità di porre domande in linguaggio naturale all’interno di QuickSight tramite una nuova funzionalità denominata QuickSight Q.
QuickSight Q utilizza l’apprendimento automatico per consentire agli utenti aziendali di porre domande sui dati aziendali in linguaggio naturale e ricevere risposte accurate con visualizzazioni pertinenti in pochi secondi, ha affermato la società, aggiungendo che la funzione consentirà agli utenti di porre domande sul “perché” e cercare previsioni sui dati.
Il supporto per le domande di previsione e “perché” è disponibile senza costi aggiuntivi per tutti i clienti QuickSight Q, secondo l’azienda.
QuickSight Q è inoltre dotato di un’altra funzionalità che deduce e aggiunge automaticamente informazioni semantiche ai set di dati, riducendo da giorni a minuti il tempo che i team di business intelligence dedicano alla preparazione dei dati per l’interrogazione in linguaggio naturale, ha affermato AWS.
Ciò è reso possibile da modelli di machine learning preaddestrati e apprendimenti da risorse di business intelligence come dashboard e report.
La capacità di preparare automaticamente i dati all’interno di QuickSight Q è disponibile anche per i clienti QuickSight Q esistenti senza costi aggiuntivi.
Altre funzionalità aggiunte includono la possibilità di generare report impaginati e analisi rapide per set di dati di grandi dimensioni.
Il servizio di report impaginati viene reso disponibile come servizio aggiuntivo per i clienti dell’edizione QuickSight Enterprise, ha affermato la società.