Extraction Transformation and Loading (ETL)

 

 

CoSORT, produit de haute performance, s'intégre avec les ETL du marché, tels , Ascential Software, Embarcadero, Kalido, Informatica par exemple.. 

En outres, CoSORT propose aux utilisateurs de bases de données Oracle une intégration pour faciliter le traitement de volume de données stocké dans des tables volumineuses.
Cette intégration consiste en les composants suivants :

Fact   pour extraire à grande vitesse les données et les mettre dans des fichiers à plat.(7 X plus rapide)

CoSORT et son module SortCl pour trier, fusionner, dédoublonner, transformer, filtrer etc (jusqu'à 20X)

SQL*Loader pour recharger les données transformées.(10X)

Un benchmark de l'intégration de cette solution a été réalisé et donne les résultats suivants :

Benchmark

Example Basic d'un exemple d'Extract-transform-load (ETL)qui compare 2 possibilités

CoSORT fact | sortcl | sqlldr

et 

 Oracle SQL*Plus
insert into
(select * ... order by).

Fichier Source : ~ 50,000,000
50-byte rows (2.32 GB) trié sur 1 clef.

CoSORT ETL: 00h:18m:00s
Oracle SQL*Plus: 01h:38m:58s

Configuration: ia64 hp server rx5670
4X1GHz Itanium2 CPU, 32GB RAM
HP-UX B.11.23, Oracle 9i

CoSORT et Le Chargement des Bases de Données

 

Pour Oracle

D'après le guide des utilitaires d'Oracle Serveur, le pré triage améliore les performances des chargements et des requêtes et minimisz les exigences de stockage temporaire pendant le chargement.

1) Utiliser SQL pour extraire le(s) table(s) en fichier plat;

2) Trier le fichier d'entrée sur le champ qui a l'index le plus long en utilisant n'importe lequel des utilitaires de  CoSORT ou les APIs;

3) Utiliser SQL*LOADER pour charger le fichier de sortie qui a été trié avec l'argument en ligne de commande  DIRECT=TRUE; et,

4) Pour créer les indexes pendant le chargement, vous pouvez utiliser la clause SORTED INDEXES dans le fichier de contrôle du chargement. Pour créer les indexes après le chargement, utiliser la commande  SQL CREATE INDEX avec l'option NOSORT.

 

Pour DB2

Utiliser l'accélérateur de chargement de CoSORT (CLA) pour DB2 en établissant la variable d'environnement :

DB2SORT=cosort_la.so
export DB2SORT

et le chargeur de DB2 utilisera le moteur de tri de CoSORT (SMP, coroutine) au lieu du sien. L'accélérateur de chargement de CoSORT est complétement transparent, réduit les temps de chargement d'environ 50%, et fonctionne sur les versions UDB 5.1, 5.2, 6.1 et 7.1 de toutes plateformes  Unix.

 

Pour Sybase et SQL Server

1) Vous aller créer un index cluster mais à ce stade, les indexes ont besoin d'être éliminés. Ceci est fait en créant des tables sans indexes ou déclencheurs ou en les jetant à partir de la table à être chargé.

2) Utiliser n'importe quel interface utilisateur de CoSORT pour trier les données sur la clef index primaire.

3) bcp charge la table triée en utilisant le chemin fast bcp (parce qu'il n'y a pas d'indexes sur la table).

4) Utiliser la commande SQL CREATE INDEX, en utilisant l'option  sorted_data  pour créer l'index cluster.

 

Pour Software AG Natural

1) Mettre libnat2cs.a dans $COSORT_HOME/lib

2) Mettre Makefile.nat2cs dans $NATDIR/$NATVERS/bin/build

3) Executer:

cd $NATDIR/$NATVERS/bin/build
mv Makefile Makefile.orig
ln -s Makefile.nat2cs Makefile
setenv LD_LIBRARY_PATH $LD_LIBRARY_PATH:$COSORT_HOME/lib

4) Utiliser la procédure de linkage :

make natural cosort=yes

 

Pour Cincom Supra SQL
Cincom Systems intégre directement l'API CoSORT dans la fonctionnalité de chargement de la base SQL Supra pour Unix , v2.8. Aucune intervention utilisateur n'est requise, mais la fonctionnalité "High Speed Index Populate " est un module de licence separé.

 

Comment pourrais je utiliser autrement CoSORT pour accélérer le chargement des SGBD?

Ecrivez votre propre application dans votre propre langage pour appeller CoSORT en tant que coroutine ou  subroutine, en passant les données et les paramétres de travail à sa bibliothéque. L'architecture unique de corountine de CoSORT's unique permet un transfert direct, en mémoire entre l'appellant et le trieur pour réduire et eliminer l'I/O lors du transfert des fichiers.  L'avantage additionale d'un appel par l'API et que vous pouvez définir toute input spécifique, comparer et des spécifications en sortie dans vous langue préférrée.

De n'importe quelle façon (autonome ou intégrée) vous pouvez sourcer les données d'entrées de la base de données et reloader les données de sorties dans de nouvelles tables ou des tables existantes.

 

Quoi d'autre peut faire CoSORT?

Beaucoup d'autres choses. Cela dépend du traitement des données que vous avez besoin de faire. Principalement, le package CoSORT fournit un tri à but général pour le chargement de la base de données et le reporting du système d'information pour ceux qui downsize du mainframe vers les systèmes ouverts.CoSORT est aussi largement utilisé par les architectes de base de données et intégrateurs pour le peuplement de l'entrepot de données, et les extractions, cumuls et transformations .

Les développeurs innovatifs d'applications horizontales et verticales intégre le moteur unique de coroutine de CoSORT dans leurs applicatifs pour réaliser des tris sans transfert d'I/O. Finalement, de nombreuses personnes familières avec SAS, COBOL, Unix ou la syntaxe de tri de Windows/DOS utilise les routines d'appel internes pour accélérer et étendre les fonctionnalités de ces outils.

 

Pourquoi encore plus d'utilisateurs de SGBD choississent CoSORT?

CoSORT apporte plus de versatilité et d'expérience à Unix ou NT/2000 qu'à tout produit de tri. Son interopérabilité multi-platformes garantie l'indépendance de machine que ce soit des serveurs windows ou unix. CoSORT est aussi le tri le plus rapide des systèmes ouverts. Il peut trier (reorg) 1Gb en une minute sur un serveur Compaq AlphaServer avec Tru64 (Digital) Unix, and jusqu'à 2.4Gb par minute sur 4 des 64 CPUs sur le serveur web IBM (Sequent) Numa-Q 2000. Sur une machine plus ancinne, NCR 4100, 500Mb ont été triés en 110 secondes, et sur un Sun UE 3000 avec 4 CPUs, 8Gb en moins d'une demi heure et 49.5 Gb en 3 heures.

CoSORT utilises une variété de controles d'optimisation conviviaux pour améliorer la performance tout en permettant des travaux en simultané consistant avec un bon voisinage avec la philosophie d'Unix. CoSORT a aussi le plus d'interfaces utilisateurs et de fonctionnalités multi usage de toute suite logicielle commerciale.



Bottom page