Sabtu, 19 Juni 2010

Data Warehouse

Data Warehouse

Sebuah gudang data adalah gudang data organisasi disimpan secara elektronik, dirancang untuk memfasilitasi pelaporan dan [analisis 1].

Definisi dari data warehouse berfokus pada penyimpanan data. Namun, cara untuk mengambil dan menganalisis data, ekstrak, transformasi dan data beban, dan untuk mengelola data kamus juga dianggap komponen penting dari sistem penyimpanan data. Banyak referensi ke data pergudangan menggunakan konteks yang lebih luas. Jadi, definisi yang diperluas untuk data pergudangan meliputi alat intelijen bisnis, alat untuk ekstrak, transform dan load data ke dalam repositori, dan alat untuk mengelola dan mengambil metadata.

Data pergudangan muncul membutuhkan sebuah organisasi untuk dapat diandalkan, laporan konsolidasi, unik dan terpadu dan analisis data tersebut, pada tingkat agregasi yang berbeda.

Realitas praktis organisasi yang paling adalah bahwa data infrastruktur mereka dibuat oleh sistem koleksi heterogen. Sebagai contoh, sebuah organisasi mungkin memiliki satu sistem yang menangani hubungan pelanggan, sistem yang menangani karyawan, sistem yang menangani data penjualan atau data produksi, belum lagi sistem keuangan dan data anggaran, dll Dalam prakteknya, sistem ini sering buruk atau tidak semua pertanyaan yang terintegrasi dan sederhana seperti: "Berapa banyak waktu melakukan penjualan Seseorang keluarkan untuk pelanggan C, berapa banyak kami menjual kepada Nasabah C, C adalah pelanggan puas dengan layanan yang disediakan, Apakah Pelanggan C membayar tagihan" bisa sangat sulit untuk menjawab, meskipun informasi tersedia "suatu tempat" pada sistem data yang berbeda.

Masalah lainnya adalah bahwa sistem ERP dirancang untuk mendukung operasi yang relevan. Sebagai contoh, sistem keuangan mungkin melacak setiap cap tunggal membelinya; Ketika diperintahkan, ketika disampaikan, ketika dibayar dan sistem akan menawarkan prinsip-prinsip akuntansi (seperti pembukuan ganda) yang semakin merumitkan model data. Informasi tersebut sangat bagus untuk orang yang bertanggung jawab untuk membeli "perangko" atau akuntan berusaha menyelesaikan ketidakteraturan, tapi CEO pasti tidak tertarik pada informasi rinci, misalnya, CEO ingin tahu hal-hal seperti "Apa biaya?", "Apa pendapatan?", "melakukan inisiatif terbaru kami mengurangi biaya?" dan ingin memiliki informasi ini pada tingkat agregat.

Namun masalah lain mungkin saja organisasi ini, secara internal, dalam perselisihan tentang data yang benar. Sebagai contoh, departemen penjualan mungkin memiliki satu pandangan biaya, sementara departemen keuangan memiliki pandangan lain biaya yang. Dalam kasus-kasus seperti organisasi dapat menghabiskan waktu tak terbatas membahas yang punya pandangan yang benar dari data.

Ini adalah sebagian tujuan data pergudangan untuk menjembatani masalah tersebut. Penting untuk dicatat bahwa di data pergudangan sistem data sumber dianggap sebagai diberikan: Meskipun sistem sumber data mungkin telah dibuat sedemikian rupa sehingga sulit untuk mengekstrak informasi yang terintegrasi, bagian "data pergudangan jawaban" tidak untuk mendesain ulang sistem sumber data tetapi untuk membuat data muncul konsisten, terpadu dan konsolidasi meskipun masalah dalam sistem sumber yang mendasarinya. Data pergudangan mencapai ini dengan menggunakan teknik pergudangan data yang berbeda, membuat satu atau beberapa repositori data baru (yaitu gudang data) yang model data (s) mendukung pelaporan yang diperlukan dan analisis.

Arsitektur

Arsitektur, dalam konteks data organisasi usaha pergudangan, adalah konseptualisasi tentang bagaimana data warehouse dibangun. Tidak ada arsitektur yang benar atau salah, melainkan ada beberapa arsitektur yang ada untuk mendukung berbagai lingkungan dan situasi. Kelayakan arsitektur dapat dinilai dari bagaimana bantuan konseptualisasi di gedung, pemeliharaan, dan penggunaan data warehouse.

Satu konsep sederhana yang mungkin dari sebuah arsitektur data warehouse terdiri dari lapisan-lapisan saling berikut:

Operasional lapisan database
Sumber data untuk data warehouse - Sebuah organisasi sistem Enterprise Resource Planning jatuh ke dalam lapisan ini.
Lapisan akses data
Antarmuka antara lapisan akses operasional dan informasi - Tools untuk mengekstrak, mengubah, data beban ke gudang jatuh ke dalam lapisan ini.
Metadata lapisan
Direktori data - Ini biasanya lebih rinci dari suatu direktori data sistem operasional. Ada kamus untuk seluruh gudang dan kadang-kadang kamus untuk data yang dapat diakses oleh sebuah laporan tertentu dan alat analisis.
Lapisan akses informasi
Data diakses untuk melaporkan dan menganalisis dan alat untuk pelaporan dan analisa data - Bisnis intelijen alat jatuh ke dalam lapisan ini. Dan perbedaan Inmon-Kimball tentang metodologi desain, dibahas kemudian dalam artikel ini, ada hubungannya dengan lapisan ini

Normal versus pendekatan dimensi untuk penyimpanan data

Ada dua pendekatan utama untuk menyimpan data dalam data warehouse - pendekatan dimensi dan pendekatan normal.

Dalam pendekatan dimensi, data transaksi yang dibagi menjadi baik "fakta", yang biasanya data transaksi numerik, atau "dimensi", yang merupakan informasi referensi yang memberikan konteks untuk fakta-fakta. Sebagai contoh, transaksi penjualan dapat dipecah menjadi fakta seperti jumlah produk yang dipesan dan harga yang dibayarkan untuk produk, dan masuk ke dimensi seperti tanggal order, nama pelanggan, nomor produk, agar kapal-dan tagihan-untuk lokasi , dan bertanggung jawab untuk menerima perintah penjual.
Keuntungan utama dari pendekatan dimensi adalah bahwa data warehouse lebih mudah bagi pengguna untuk memahami dan menggunakan. Selain itu, pengambilan data dari data warehouse cenderung untuk beroperasi sangat cepat. Kelemahan utama dari pendekatan dimensi adalah:

1. Untuk menjaga integritas fakta dan dimensi, memuat data warehouse dengan data dari sistem operasional yang berbeda adalah rumit, dan
2. Sulit untuk memodifikasi struktur data warehouse jika organisasi mengadopsi pendekatan dimensi perubahan cara di mana ia melakukan bisnis.

Dalam pendekatan normal, data di gudang data yang disimpan berikut, untuk gelar aturan database, normalisasi. Tabel dikelompokkan bersama-sama dengan bidang studi yang mencerminkan data kategori umum (misalnya, data tentang pelanggan, produk, keuangan, dll). Keuntungan utama dari pendekatan ini adalah bahwa hal itu mudah untuk menambahkan informasi ke dalam database. Kerugian dari pendekatan ini adalah bahwa, karena jumlah meja yang terlibat, akan sulit bagi pengguna baik untuk:

1. bergabung dengan data dari sumber yang berbeda menjadi informasi yang bermakna dan kemudian
2. mengakses informasi tanpa pemahaman yang tepat dari sumber data dan struktur data dari data warehouse.

Pendekatan ini tidak saling eksklusif, dan ada pendekatan-pendekatan lain.
Dimensi pendekatan dapat melibatkan normalisasi data untuk gelar.

Sesuai informasi

Fakta lain yang penting dalam merancang sebuah gudang data adalah data yang sesuai dan bagaimana agar sesuai data. Misalnya, satu sistem operasional makan data ke dalam data warehouse dapat menggunakan "M" dan "F" untuk menunjukkan jenis kelamin seorang karyawan sementara yang lain sistem operasional dapat menggunakan "Pria" dan "Wanita". Meskipun ini adalah contoh sederhana, banyak pekerjaan dalam menerapkan data warehouse dikhususkan untuk membuat data konsisten makna yang sama ketika mereka disimpan di gudang data. Biasanya, ekstrak, mengubah, alat beban yang digunakan dalam karya ini.

Master Data Management memiliki tujuan sesuai data yang dapat dianggap "dimensi".

Top-down versus bottom-up design methodologies

Bottom-up desain

Ralph Kimball, seorang penulis terkenal pada data pergudangan, [4] adalah pendukung pendekatan desain data warehouse sering dianggap sebagai bottom-up [5.].

Dalam mart yang disebut pendekatan bottom-up data yang pertama diciptakan untuk menyediakan laporan dan kemampuan analisis untuk proses bisnis yang spesifik. Meskipun penting untuk dicatat bahwa dalam metodologi Kimball, proses bottom-up adalah hasil dari bisnis awal analisis top-down yang berorientasi kepada bisnis proses yang relevan akan dibuat modelnya.

Data mart mengandung, terutama, dimensi dan fakta. Fakta dapat berisi data baik atom dan, jika perlu, diringkas data. The data mart tunggal sering model area bisnis yang spesifik seperti "Penjualan" atau "Produksi." Data mart ini akhirnya dapat diintegrasikan untuk membuat sebuah gudang data yang komprehensif. Integrasi data mart dikelola melalui penerapan apa yang Kimball panggilan "data warehouse arsitektur bus". [6]. Data gudang arsitektur bus terutama merupakan implementasi dari "bus" koleksi dimensi conforme, yang dimensi yang berbagi (dengan cara tertentu) antara fakta di mart dua atau lebih data.

Integrasi data mart di gudang data terpusat pada dimensi conforme (yang berada di "bus") yang mendefinisikan integrasi mungkin "titik" di antara pasar data. Integrasi aktual mart dua atau lebih data ini kemudian dilakukan dengan proses yang dikenal sebagai "Drill di". A drill-seluruh karya pengelompokan (meringkas) data sepanjang kunci-kunci (shared) dimensi conforme setiap fakta berpartisipasi dalam latihan "di" diikuti dengan bergabung pada tombol ini dikelompokkan (diringkas) fakta.

Mempertahankan manajemen yang ketat terhadap arsitektur data warehouse bus merupakan dasar untuk menjaga integritas data warehouse. Tugas manajemen yang paling penting adalah membuat dimensi yakin di antara pasar data konsisten. Dengan kata Kimball, ini berarti bahwa dimensi "sesuai".

Beberapa menganggapnya sebagai keuntungan dari metode Kimball, bahwa data warehouse akhirnya menjadi "tersegmentasi" ke sejumlah pasar data secara logis mandiri (sampai dengan dan termasuk Bis) dan konsisten daripada model terpusat besar dan sering kali kompleks. Bisnis nilai dapat dikembalikan secepat itu pasar data pertama dapat dibuat, dan metode memberi diri dengan baik untuk pendekatan eksplorasi dan iteratif untuk bangunan gudang data. Sebagai contoh, usaha pergudangan data mungkin akan mulai di "Penjualan" departemen, dengan membangun mart Penjualan-data. Setelah selesai data mart Penjualan, bisnis ini kemudian dapat memutuskan untuk memperluas kegiatan pergudangan ke dalam, mengatakan, "Produksi departemen" yang menghasilkan data mart Produksi. Persyaratan untuk data mart Penjualan dan Produksi mart data yang akan integrable, adalah bahwa mereka berbagi Bus "sama", yang akan, bahwa data pergudangan tim telah membuat upaya untuk mengidentifikasi dan menerapkan dimensi conforme di bus, dan bahwa data mart link yang informasi dari bus individu. Catatan bahwa ini tidak memerlukan kesadaran 100% dari awal data usaha pergudangan, tidak ada rencana induk diperlukan dimuka. The mart Penjualan-data yang baik karena (diasumsikan bahwa bus selesai) dan produksi data mart bisa dibangun hampir independen dari penjualan data mart (tapi tidak terlepas dari Bus itu).

Jika integrasi melalui bus tercapai, gudang data, melalui dua data mart, tidak hanya dapat memberikan informasi spesifik bahwa pasar data individu yang dirancang untuk melakukan, dalam contoh ini baik "Penjualan" atau "Produksi" informasi , tetapi dapat memberikan informasi terpadu Penjualan Produksi, yang, seringkali, adalah nilai bisnis yang kritis. Sebuah integrasi (mungkin) dicapai dengan cara yang fleksibel dan iteratif.
[Sunting desain top-down]

Bill Inmon, salah satu penulis pertama pada subyek data pergudangan, telah didefinisikan sebuah gudang data sebagai tempat penyimpanan terpusat untuk seluruh perusahaan [6] Inmon. Adalah salah satu pendukung utama pendekatan top-down untuk perancangan data warehouse, di mana data warehouse dirancang menggunakan model data perusahaan normal. "Atomic" data, yaitu, data pada tingkat terendah detail, disimpan di gudang data. Dimensi data mart yang berisi data yang dibutuhkan untuk proses bisnis yang spesifik atau departemen spesifik diciptakan dari gudang data. Dalam visi Inmon gudang data adalah pusat dari Pabrik Informasi "Perusahaan" (CIF), yang menyediakan kerangka logis untuk memberikan business intelligence (BI) dan kemampuan manajemen bisnis.

Inmon menyatakan bahwa data warehouse adalah:

Perihal berorientasi
Data dalam data warehouse diorganisir sehingga semua elemen data yang berhubungan dengan acara yang sama di dunia nyata atau objek yang dihubungkan bersama.
Non-volatile
Data dalam data warehouse tidak pernah over-tertulis atau dihapus - sekali berkomitmen, data statis, read-only, dan saldo untuk pelaporan masa depan.
Terpadu
Gudang data berisi data dari sebagian besar atau seluruh sistem operasional organisasi dan data ini dibuat konsisten.
Sisa-varian

Metodologi desain top-down dilihat dimensi menghasilkan data yang sangat konsisten di seluruh pasar data karena semua pasar data diambil dari repositori terpusat. desain top-down juga terbukti tahan terhadap perubahan bisnis. Membangkitkan data mart dimensi baru terhadap data yang tersimpan di gudang data adalah tugas yang relatif sederhana. Kerugian utama ke metodologi atas ke bawah adalah bahwa itu merupakan proyek yang sangat besar dengan cakupan yang sangat luas. Biaya di muka untuk menerapkan data warehouse dengan menggunakan metodologi atas ke bawah adalah signifikan, dan durasi waktu dari awal proyek sampai pada titik bahwa pengalaman pengguna akhir awal dapat manfaat besar. Selain itu, metodologi top-down dapat fleksibel dan tidak responsif terhadap perubahan kebutuhan departemen selama tahap pelaksanaan. [6]
Hybrid desain

Seiring waktu itu telah menjadi jelas bagi para pendukung bottom-up dan top-down data desain gudang yang kedua metodologi memiliki manfaat dan risiko. metodologi Hybrid telah berevolusi untuk memanfaatkan waktu putar-sekitar cepat desain bottom-up dan konsistensi data perusahaan-macam desain top-down.

Data warehouses versus operational systems

Sistem operasional yang dioptimalkan untuk melestarikan integritas data dan kecepatan pencatatan transaksi bisnis melalui penggunaan normalisasi database dan model entitas-hubungan. perancang sistem operasional umumnya mengikuti aturan normalisasi database Codd untuk memastikan integritas data. Codd mendefinisikan lima aturan semakin ketat normalisasi. desain database Sepenuhnya dinormalisasi (yaitu orang memuaskan semua lima aturan Codd) sering mengakibatkan informasi dari suatu transaksi bisnis yang disimpan dalam puluhan hingga ratusan tabel. database relasional yang efisien dalam mengelola hubungan antara tabel ini. Database sangat cepat telah memasukkan / update kinerja karena hanya sejumlah kecil data pada tabel tersebut dipengaruhi setiap kali transaksi diproses. Akhirnya, dalam rangka meningkatkan kinerja, data yang lebih tua biasanya secara periodik dibersihkan dari sistem operasional.

gudang data yang dioptimalkan untuk kecepatan analisis data.
Sering data dalam gudang data denormalised melalui model dimensi berbasis. Juga, untuk mempercepat pengambilan data, data warehouse sering disimpan beberapa kali-dalam bentuk yang paling rinci dan dalam bentuk diringkas disebut agregat. data warehouse Data dikumpulkan dari sistem operasional dan diadakan di gudang data bahkan setelah data telah dibersihkan dari sistem operasional.

Evolusi dalam organisasi menggunakan

Organisasi umumnya memulai dengan menggunakan data yang relatif sederhana pergudangan. Seiring waktu digunakan, lebih canggih berevolusi data pergudangan. Tahapan umum berikut penggunaan gudang data dapat dibedakan:

Off line Operasional Database
gudang data dalam tahap awal dikembangkan dengan hanya menyalin data dari sistem operasional ke server lain dimana beban pengolahan pelaporan terhadap data yang disalin ini tidak akan mempengaruhi kinerja sistem operasional itu.
Off line Data Warehouse
gudang data pada tahap ini diperbarui dari data dalam sistem operasional secara teratur dan data gudang data disimpan dalam struktur data yang dirancang untuk memfasilitasi pelaporan.
Real Time Data Warehouse
gudang data pada tahap ini akan diperbarui setiap kali sistem operasional melakukan transaksi (misalnya pembelian atau pengiriman atau pemesanan.)
Gudang Data Terpadu
gudang data pada tahap ini akan diperbarui setiap kali sistem operasional melakukan transaksi.

Beberapa manfaat yang menyediakan data warehouse

adalah sebagai berikut: [7] [8]



* Gudang data menyediakan model data yang umum untuk semua data tanpa bunga sumber data itu. Hal ini membuat lebih mudah untuk melaporkan dan menganalisa informasi daripada kalau beberapa model data yang digunakan untuk mengambil informasi seperti faktur penjualan, penerimaan pesanan, biaya buku besar, dll
* Sebelum memasukkan data ke dalam data warehouse, ketidakkonsistenan diidentifikasi dan diselesaikan. Hal ini sangat menyederhanakan pelaporan dan analisa.
* Informasi dalam data warehouse adalah di bawah kontrol pengguna gudang data sehingga, bahkan jika sumber data sistem ini dihapus dari waktu ke waktu, informasi di gudang dapat disimpan dengan aman untuk waktu yang lama.
* Karena mereka terpisah dari sistem operasional, data warehouse menyediakan pengambilan data tanpa memperlambat sistem operasional.
* Data gudang dapat bekerja dalam kaitannya dengan dan, karenanya, meningkatkan nilai aplikasi bisnis operasional, terutama customer relationship management (CRM) sistem.
* Data gudang memfasilitasi aplikasi sistem pendukung keputusan seperti laporan tren (misalnya, barang-barang dengan penjualan paling di daerah tertentu dalam dua tahun terakhir), laporan pengecualian, dan laporan yang menunjukkan kinerja aktual versus tujuan.

Kekurangan

Ada juga kerugian untuk menggunakan data warehouse. Beberapa di antaranya adalah:

* Data gudang tidak lingkungan optimal untuk data tidak terstruktur.
* Karena data harus diekstrak, diubah dan dimasukkan ke dalam gudang, ada unsur latency dalam data data warehouse.
* Selama hidup mereka, gudang data dapat memiliki biaya tinggi.
* Data gudang bisa mendapatkan usang relatif cepat. Ada biaya penyampaian informasi suboptimal bagi organisasi.
* Ada sering garis tipis antara gudang data dan sistem operasional. Gandakan, fungsionalitas mahal dapat dikembangkan. Atau, fungsi dapat dikembangkan di gudang data yang, dalam retrospeksi, seharusnya dikembangkan dalam sistem operasional

Contoh Aplikasi

Beberapa aplikasi pergudangan data dapat digunakan untuk adalah:

* Kartu kredit churn analisis
* Asuransi analisis penipuan
* Call catatan analisis
* Logistik manajemen.

Masa depan

Data pergudangan, seperti teknologi apapun, memiliki sejarah inovasi yang tidak menerima penerimaan pasar. [9]

A 2009 Gartner Group kertas diprediksi perkembangan dalam intelijen bisnis / data pergudangan pasar. [10]

* Karena kurangnya informasi, proses, dan alat-alat, hingga 2012, lebih dari 35 persen dari 5.000 perusahaan top dunia secara teratur akan gagal membuat keputusan wawasan tentang perubahan signifikan dalam bisnis mereka dan pasar.
* Pada 2012, unit usaha akan mengendalikan paling tidak 40 persen dari total anggaran untuk intelijen bisnis.
* Pada 2010, 20 persen dari organisasi-organisasi akan memiliki aplikasi analitik industri-spesifik yang disampaikan melalui software sebagai layanan sebagai komponen standar intelijen portofolio bisnis mereka.
* Pada tahun 2009, pengambilan keputusan kolaboratif akan muncul sebagai kategori produk baru yang menggabungkan kemampuan perangkat lunak sosial dengan platform bisnis intelijen.
* Pada tahun 2012, sepertiga dari aplikasi analitik diterapkan pada proses bisnis akan disampaikan melalui aplikasi mashup kasar.

Sumber :

http://en.wikipedia.org/wiki/Data_warehouse

1 komentar:

  1. Apabila rekan-rekan mencari referensi, berita, info buku, regulasi, artikel, dll, mengenai logistik dan supply chain, silakan kunjungi website Supply Chain Indonesia di www.SupplyChainIndonesia.com. Dijamin update terus setiap harinya

    BalasHapus