Informatica ETL: Panduan Pemula Untuk Memahami ETL Menggunakan Informatica PowerCenter



Memahami konsep Informatica ETL dan pelbagai peringkat proses ETL dan mempraktikkan kes penggunaan yang melibatkan pangkalan data Pekerja.

Tujuan Informatica ETL adalah untuk menyediakan pengguna, bukan hanya proses mengekstrak data dari sistem sumber dan membawanya ke gudang data, tetapi juga menyediakan pengguna dengan platform umum untuk mengintegrasikan data mereka dari berbagai platform dan aplikasi.Ini telah menyebabkan peningkatan permintaan untuk .Sebelum kita bercakap mengenai Informatica ETL, mari kita fahami terlebih dahulu mengapa kita memerlukan ETL.

Mengapa Kita Perlu ETL?

Setiap syarikathari-hari ini mesti memproses kumpulan data yang besar dari pelbagai sumber. Data ini perlu diproses untuk memberikan maklumat yang mendalam untuk membuat keputusan perniagaan. Tetapi, data seperti ini mempunyai cabaran berikut:





  • Syarikat besar menghasilkan banyak data dan sebilangan besar data boleh dalam format apa pun. Mereka akan tersedia dalam pelbagai pangkalan data dan banyak fail tidak berstruktur.
  • Data ini mesti disusun, digabungkan, dibandingkan, dan dibuat agar berfungsi secara menyeluruh. Tetapi pangkalan data yang berbeza tidak berkomunikasi dengan baik!
  • Banyak organisasi telah melaksanakan antara muka antara pangkalan data ini, tetapi mereka menghadapi cabaran berikut:
    • Setiap sepasang pangkalan data memerlukan antara muka yang unik.
    • Sekiranya anda menukar satu pangkalan data, banyak antara muka mungkin perlu ditingkatkan.

Di bawah ini anda dapat melihat pelbagai pangkalan data organisasi dan interaksinya:

Pelbagai Set Data Organisasi - Informatica - ETL - Edureka

Pelbagai Pangkalan Data yang digunakan oleh pelbagai jabatan organisasi



Interaksi Pangkalan Data yang berbeza dalam Organisasi

Seperti yang dilihat di atas, organisasi mungkin mempunyai pelbagai pangkalan data di pelbagai jabatannya dan interaksi di antara mereka menjadi sukar dilaksanakan kerana pelbagai antara muka interaksi harus dibuat untuk mereka. Untuk mengatasi cabaran ini, penyelesaian terbaik adalah dengan menggunakan konsep Integrasi Data yang membolehkan data dari pangkalan data dan format yang berbeza berkomunikasi antara satu sama lain. Gambar di bawah ini membantu kita memahami, bagaimana alat Integrasi Data menjadi antara muka umum untuk komunikasi antara pelbagai pangkalan data.

Pelbagai Pangkalan Data dihubungkan melalui Integrasi Data



Tetapi ada proses yang berbeza yang tersedia untuk melakukan Integrasi Data. Di antara proses ini, ETL adalah proses yang paling optimum, cekap dan boleh dipercayai. Melalui ETL, pengguna tidak hanya dapat memasukkan data dari berbagai sumber, tetapi mereka dapat melakukan berbagai operasi pada data sebelum menyimpan data ini hingga ke sasaran akhir.

Di antara pelbagai alat ETL yang tersedia di pasaran, Informatica PowerCenter adalah platform penyatuan data terkemuka di pasaran. Setelah diuji pada hampir 500,000 kombinasi platform dan aplikasi, Informatica PowerCenter beroperasi dengan pelbagai jenis, sistem, dan aplikasi yang seluas mungkin. Sekarang mari kita fahami langkah-langkah yang terlibat dalam proses Informatica ETL.

Maklumat ETL | Senibina Informatik | Tutorial PowerCenter Informatica | Edureka

Tutorial Edureka Informatica ini membantu anda memahami asas ETL menggunakan Informatica Powercenter secara terperinci.

Langkah dalam Proses ETL Informatik:

Sebelum kita beralih ke pelbagai langkah yang terlibat dalam Informatica ETL, Mari kita tinjau keseluruhan ETL. Di ETL, Pengekstrakan adalah di mana data diekstrak dari sumber data homogen atau heterogen, Transformasi di mana data diubah untuk disimpan dalam format atau struktur yang tepat untuk tujuan pertanyaan dan analisis dan Memuat di mana data dimuat ke dalam pangkalan data sasaran akhir, penyimpanan data operasi, data mart, atau gudang data. Gambar di bawah akan membantu anda memahami bagaimana proses Informatica ETL berlaku.

Gambaran Keseluruhan Proses ETL

Seperti yang dilihat di atas, Informatica PowerCenter dapat memuat data dari pelbagai sumber dan menyimpannya ke dalam satu gudang data. Sekarang, mari kita lihat langkah-langkah yang terlibat dalam proses Informatica ETL.

Terdapat terutamanya 4 langkah dalam proses Informatica ETL, mari sekarang kita memahaminya secara mendalam:

  1. Ekstrak atau Tangkap
  2. Gosok atau Bersihkan
  3. Transformasi
  4. Beban dan Indeks

1. Ekstrak atau Tangkap: Seperti yang dilihat pada gambar di bawah, Tangkap atau Ekstrak adalah langkah pertama proses ETL Informatica.Ini adalah proses mendapatkan gambaran dari subset data yang dipilih dari sumbernya, yang harus dimuat ke gudang data. Cuplikan gambar adalah pandangan statik hanya baca dari data dalam pangkalan data. Proses Ekstrak boleh terdiri daripada dua jenis:

  • Ekstrak penuh: Data diekstrak sepenuhnya dari sistem sumber dan tidak perlu melacak perubahan pada sumber data sejak pengekstrakan terakhir yang berhasil.
  • Ekstrak tambahan: Ini hanya akan menangkap perubahan yang telah berlaku sejak ekstrak penuh terakhir.

Fasa 1: Ekstrak atau Tangkap

2. Gosok atau Bersihkan: Ini adalah proses membersihkan data yang berasal dari sumber dengan menggunakan pelbagai pengecaman corak dan teknik AI untuk meningkatkan kualiti data yang diambil ke hadapan. Biasanya, kesalahan seperti kesalahan ejaan, tarikh yang salah, penggunaan medan yang salah, alamat yang tidak sesuai, data yang hilang, data pendua, tidak konsisten adalahdiketengahkan dan kemudian diperbetulkan atau dikeluarkandalam langkah ini. Juga, operasi seperti penyahkodan, pemformatan semula, pengecatan masa, penukaran, penjanaan kunci, penggabungan, pengesanan / pembalakan ralat, mencari data yang hilang dilakukan dalam langkah ini. Seperti yang dilihat dalam gambar di bawah, ini adalah langkah kedua proses ETL Informatica.

Fasa 2: Gosok atau Pembersihan data

3. Transformasi: Seperti yang dilihat pada gambar di bawah, ini adalah langkah ketiga dan paling penting dari proses Informatica ETL. Transformasi adalah operasi menukar data dari format sistem sumber ke kerangka Data Warehouse. Transformasi pada dasarnya digunakan untuk mewakili sekumpulan peraturan, yang menentukan aliran data dan bagaimana data dimuat ke dalam sasaran. Untuk mengetahui lebih lanjut mengenai Transformasi, lihat Transformasi dalam Informatik Blog.

Fasa 3: Transformasi

4. Beban dan Indeks: Ini adalah langkah terakhir proses ETL Informatica seperti yang dilihat pada gambar di bawah. Pada peringkat ini, kami meletakkan data yang diubah ke gudang dan membuat indeks untuk data tersebut. Terdapat dua jenis utama memuatkan data berdasarkan proses pemuatan:

  • Beban Penuh atau Pukal :Proses memuatkan data ketika kita melakukannya pada kali pertama. Tugas itu mengekstrak keseluruhan data dari jadual sumber dan memuat ke gudang data sasaran setelah menerapkan transformasi yang diperlukan. Ia akan dijalankan sekali sahaja, kemudian perubahan sahaja akan diambil sebagai sebahagian daripada ekstrak tambahan.
  • Beban tambahan atau Muat semula : Data yang diubahsuai sahaja akan dikemas kini mengikut sasaran diikuti dengan muatan penuh. Perubahan akan diambil dengan membandingkan tarikh yang dibuat atau diubah dengan tarikh larian terakhir pekerjaan.Data yang diubahsuai sahaja yang diekstrak dari sumber dan akan dikemas kini dalam sasaran tanpa mempengaruhi data yang ada.

Fasa 4: Beban dan Indeks

Sekiranya anda memahami proses ETL Informatica, kami sekarang berada dalam posisi yang lebih baik untuk menghargai mengapa Informatica adalah penyelesaian terbaik dalam kes seperti ini.

apa __init__ maksud dalam ular sawa

Ciri-ciri Informatica ETL:

Untuk semua integrasi Data dan operasi ETL, Informatica telah memberikan kami Informatica PowerCenter . Mari kita lihat beberapa ciri utama Informatica ETL:

  • Menyediakan kemudahan untuk menentukan sebilangan besar peraturan transformasi dengan GUI.
  • Hasilkan program untuk mengubah data.
  • Mengendalikan pelbagai sumber data.
  • Menyokong pengekstrakan data, pembersihan, pengumpulan, penyusunan semula, transformasi, dan operasi beban.
  • Secara automatik menghasilkan program untuk pengekstrakan data.
  • Pemuatan gudang data sasaran dengan kelajuan tinggi.

Berikut adalah beberapa senario biasa di mana Informatica PowerCenter digunakan:

  1. Penghijrahan Data:

Sebuah syarikat telah membeli Aplikasi Bayar Akaun baru untuk bahagian akaunnya. PowerCenter dapat memindahkan data akaun yang ada ke aplikasi baru. Gambar di bawah akan membantu anda memahami bagaimana anda boleh menggunakan Informatica PowerCenter untuk migrasi Data. Informatica PowerCenter dapat mengekalkan keturunan data dengan mudah untuk cukai, perakaunan, dan tujuan lain yang dimandatkan secara sah semasa proses migrasi data.

Penghijrahan Data dari aplikasi Perakaunan Lama ke Aplikasi baru

  1. Integrasi Aplikasi:

Katakan Syarikat-A membeli Syarikat-B. Oleh itu, untuk mencapai faedah penyatuan, sistem penagihan Syarikat-B mesti disatukan ke dalam sistem penagihan Syarikat-A yang dapat dilakukan dengan mudah menggunakan Informatica PowerCenter. Gambar di bawah akan membantu anda memahami bagaimana anda boleh menggunakan Informatica PowerCenter untuk penyatuan aplikasi antara syarikat.

Mengintegrasikan Aplikasi antara Syarikat

  1. Pergudangan data

Tindakan biasa yang diperlukan di gudang data adalah:

  • Menggabungkan maklumat dari banyak sumber untuk analisis.
  • Memindahkan data dari banyak pangkalan data ke gudang Data.

Semua kes khas di atas dapat dilakukan dengan mudah menggunakan Informatica PowerCenter. Di bawah ini, anda dapat melihat Informatica PowerCenter digunakan untuk menggabungkan data dari pelbagai jenis pangkalan data seperti Oracle, SalesForce, dll. Dan membawanya ke gudang data umum yang dibuat oleh Informatica PowerCenter.

Data Dari pelbagai pangkalan data yang disatukan ke gudang Data biasa

  1. Alat tengah

Katakan organisasi runcit menggunakan SAP R3 untuk aplikasi Runcitnya dan SAP BW sebagai gudang datanya. Komunikasi langsung antara kedua-dua aplikasi ini tidak mungkin dilakukan kerana kekurangan antara muka komunikasi. Walau bagaimanapun, Informatica PowerCenter dapat digunakan sebagai Middleware antara kedua-dua aplikasi ini. Pada gambar di bawah ini anda dapat melihat seni bina bagaimana Informatica PowerCenter digunakan sebagai alat tengah antara SAP R / 3 dan SAP BW. Aplikasi dari SAP R / 3 memindahkan data mereka ke kerangka ABAP yang kemudian memindahkannya keTitik Jualan SAP (POS) dan SAPBil Perkhidmatan (BOS). Informatica PowerCenter membantu pemindahan data dari perkhidmatan ini ke SAP Business Warehouse (BW).

Informatica PowerCenter sebagai Middleware dalam SAP Retail Architecture

Walaupun anda telah melihat beberapa ciri utama dan senario tipikal Informatica ETL, saya harap anda memahami mengapa Informatica PowerCenter adalah alat terbaik untuk proses ETL. Mari kita lihat kes penggunaan Informatica ETL.

Gunakan Kes: Bergabung dengan Dua jadual untuk mendapatkan Jadual terperinci Tunggal

Katakan anda ingin memberikan pengangkutan yang bijak kepada pekerja kerana jabatannya terletak di pelbagai lokasi. Untuk melakukan ini, pertama anda perlu mengetahui Jabatan mana yang dimiliki oleh setiap pekerja dan lokasi jabatan tersebut. Walau bagaimanapun, butiran pekerja disimpan dalam jadual yang berbeza dan anda perlu memasukkan butiran Jabatan ke pangkalan data yang ada dengan perincian semua Kakitangan. Untuk melakukan ini, kami akan memuatkan kedua-dua jadual terlebih dahulu ke Informatica PowerCenter, melakukan Transformasi Sumber Qualifier pada data dan akhirnya memuatkan detail ke Pangkalan Data Sasaran.Mari kita mulakan:

Langkah 1 : Buka Pereka PowerCenter.

Di bawah ini adalah halaman utama Pereka Maklumat Informatik.

Mari kita sambung ke repositori. Sekiranya anda belum mengkonfigurasi repositori anda atau menghadapi masalah, anda boleh menyemak kami Blog.

Langkah 2: Klik kanan pada repositori anda dan pilih pilihan sambung.

Apabila mengklik pilihan sambung, anda akan diminta dengan layar di bawah, meminta nama pengguna dan kata laluan repositori anda.

Setelah anda menyambung ke repositori anda, anda perlu membuka folder kerja anda seperti yang dilihat di bawah:

Anda akan diminta menanyakan nama pemetaan anda. Tentukan nama pemetaan anda dan klik OK (saya telah menamakannya sebagai m-PEKERJA ).

Langkah 3: Mari kita memuatkan Jadual dari Pangkalan Data, Mulakan dengan menyambung ke Pangkalan Data. Untuk melakukan ini, pilih tab Sumber dan pilihan Import dari Pangkalan Data seperti yang dilihat di bawah:

Pada mengklik Import dari Pangkalan Data, anda akan diminta layar seperti di bawah ini menanyakan perincian Pangkalan Data anda dan Nama Pengguna dan Kata Laluan untuk sambungan (saya menggunakan pangkalan data oracle dan pengguna SDM).

Klik pada Connect untuk menyambung ke pangkalan data anda.

Langkah 4: Oleh kerana saya ingin menyertai PEKERJA dan JABATAN jadual, saya akan memilihnya dan klik OK.
Sumbernya akan dapat dilihat di ruang kerja pereka pemetaan anda seperti di bawah.

Langkah 5: Begitu juga Muatkan Jadual Sasaran ke Pemetaan.

Langkah 6: Sekarang mari kita pautkan kelayakan Sumber dan jadual sasaran. Klik kanan pada mana-mana tempat kerja yang kosong dan pilih Autolink seperti yang dilihat di bawah:

Berikut adalah pemetaan yang dihubungkan oleh Autolink.

Langkah 7: Oleh kerana kita perlu menghubungkan kedua-dua tabel ke Qualifier Sumber, pilih lajur dari tabel Department dan letakkan di Source Qualifier seperti yang terlihat di bawah:

Jatuhkan nilai lajur ke Qualifier Sumber SQ_EMPLOYEES .

Berikut adalah Kelayakan Sumber yang dikemas kini.

Langkah 8: Klik dua kali pada Source Qualifier untuk mengedit transformasi.

Anda akan muncul Edit Transformasi seperti yang dilihat di bawah. Klik pada tab Properties.

Langkah 9: Di bawah tab Properties, Klik pada medan Nilai pada baris Gabung UserDefined.

Anda akan mendapat Editor SQL berikut:

Langkah 10: Masukkan PEKERJA.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID sebagai syarat untuk menggabungkan kedua-dua jadual di medan SQL dan klik OK.

Langkah 11: Sekarang klik pada baris SQL Query untuk menghasilkan SQL untuk bergabung seperti yang dilihat di bawah:

Anda akan mendapat Editor SQL berikut, Klik pada pilihan Hasilkan SQL.

SQL berikut akan dihasilkan untuk keadaan yang telah kami tentukan pada langkah sebelumnya. Klik OK.

Langkah 12: Klik pada Memohon dan OK.

Berikut adalah pemetaan yang telah selesai.

Kami telah menyelesaikan perancangan bagaimana data harus dipindahkan dari sumber ke sasaran. Namun, pemindahan data sebenarnya masih belum berlaku dan untuk itu kita perlu menggunakan Reka Bentuk Aliran Kerja PowerCenter. Pelaksanaan aliran kerja akan menyebabkan pemindahan data dari sumber ke sasaran. Untuk mengetahui lebih lanjut mengenai aliran kerja, periksa kami Tutorial Informatik: Aliran Kerja Blog

Langkah 13: Let sekarang kami melancarkan Workflow Manager dengan Mengklik ikon W seperti yang dilihat di bawah:

Berikut adalah laman utama pereka aliran kerja.

Langkah 14: Mari kita buat Alur Kerja baru untuk pemetaan kita. Klik pada tab Alur Kerja dan pilih Buat Pilihan.

Anda akan mendapat pop timbul di bawah. Tentukan nama aliran kerja anda dan klik OK.

Langkah 15 : Setelah alur kerja dibuat, kami mendapat Ikon Mula di ruang kerja Pengurus Alur Kerja.

Mari kita tambahkan Sesi baru ke ruang kerja seperti yang dilihat di bawah dengan mengklik ikon sesi dan mengklik pada ruang kerja:

Klik di ruang kerja untuk meletakkan ikon Sesi.

Langkah 16: Semasa menambah sesi, anda harus memilih Pemetaan yang telah anda buat dan simpan dalam langkah-langkah di atas. (Saya telah menyimpannya sebagai m-EMPLOYEE).

Di bawah ini adalah ruang kerja setelah menambahkan ikon sesi.

Langkah 17 : Sekarang setelah anda membuat Sesi baru, kami perlu menghubungkannya ke tugas permulaan. Kita dapat melakukannya dengan mengklik ikon Link Task seperti yang terlihat di bawah:

Klik pada ikon Mula terlebih dahulu dan kemudian pada ikon Sesi untuk membuat pautan.

Di bawah ini adalah aliran kerja yang bersambung.

Langkah 18: Sekarang setelah kita menyelesaikan reka bentuk, mari kita mulakan aliran kerja. Klik tab Workflow dan pilih pilihan Start Workflow.

Pengurus aliran kerja memulakan Workflow Monitor.

Langkah 19 : Setelah kita memulakan aliran kerja, Pengurus Alur Kerja dilancarkan secara automatikdanmembolehkan anda memantau pelaksanaan aliran kerja anda. Di bawah ini anda dapat melihat Monitor Aliran Kerja menunjukkan status aliran kerja anda.

Langkah 20: Untuk memeriksa status aliran kerja, klik kanan pada aliran kerja dan pilih Get Run Properties seperti yang dilihat di bawah:

Pilih tab Statistik Sumber / Sasaran.

Di bawah ini anda dapat melihat bilangan baris yang telah dipindahkan antara sumber dan sasaran setelah transformasi.

Anda juga dapat mengesahkan hasil anda memeriksa jadual sasaran anda seperti di bawah.

Saya harap blog ETL Informatica ini dapat membantu membina pemahaman anda mengenai konsep ETL menggunakan Informatica dan telah menimbulkan minat yang cukup untuk anda mempelajari lebih lanjut mengenai Informatica.

Sekiranya anda mendapati blog ini bermanfaat, anda juga boleh melihat siri blog Tutorial Informatik kami , Tutorial Informatica: Memahami Informatica 'Inside Out' dan Transformasi Informatica: Jantung dan Jiwa Informatica PowerCenter . Sekiranya anda mencari perincian mengenai Pensijilan Informatik, anda boleh menyemak blog kami Pensijilan Informatica: Yang perlu diketahui .

Sekiranya anda telah memutuskan untuk mengambil kerjaya Informatica, saya akan mengesyorkan anda untuk melihat kami halaman kursus. Latihan Pensijilan Informatica di Edureka akan menjadikan anda pakar dalam Informatica melalui sesi langsung yang dipimpin oleh instruktur dan latihan langsung menggunakan kes penggunaan kehidupan sebenar.