Basis Data Relasional
Pada pembuatan sistem informasi yang dinamis, diperlukan sebuah media penyimpanan yang terstruktur untuk menyimpan data dari setiap aktifitas bisnis yang ada, yang bernama database. Untuk membuat database yang baik, diperlukan pula suatu cara untuk memanajemen database tersebut agar dapat digunakan secara efisien.
Basis Data Relasional merupakan suatu cara untuk mengelola data secara fisik kedalam memori. Basis Data Relasional ditemukan oleh E.F.Codd. Basis Data Relasional merupakan tael dua dimensi, dimana terdiri lajur mendatar, disebut dgbaris data (row/record) dan lajur vertikal yang disebut dg kolom (column/field).
Untuk menerapkan sebuah basis data (yg terdiri atas sejumlah tabel yangsaling berhubungan), dibutuhkan perangkat lunak (software) khusus. Perangkat lunak ini disebut Sistem Pengelola Basis Data (DBMS). seperti;dBaseIII+, MS-Acces, Borland-Paradox, Oracle. Prinsip pemakaian semua perangkatlunak tsb hampir sama, hanya pada teknis pemakaian dan kelengkapan fungsi (feature) yang dimiliki masing-masing perangkat lunak yang berbeda.
Berikut adalah karakteristik Basis Data yang baik:
· Struktur basis data (tabel-tabel & relasi antar tabel) lebih kompak
· Struktur masing-masing tabel lebih efisien & sistematis.
· Kebutuhan ruang penyimpanan data lebih efisien.
· Semakin kecil ukuran tabel, maka akan semakin cepat operasi basis data yang kita lakukan. Karena data yang diambil tidak terlalu besar ukurannya.
· Salah satu cara untuk mengukur efisiensi database yaitu dengan sedikitnya redundansi data (data rangkap).
· Tidak ada ambiguitas data di semua tabel dalam basis data, sehingga penggunaan memori dapat dimanfaatkan secara efisien.
OLAP dan Terminologi Multi-Dimensional Database
Multi-dimensional database merupakan suatu cara yang digunakan untuk melakukan analisa data guna mendukung keputusan. Teknologinya di dukung dengan menggunakan metoda OLAP yang dapat dirancang dengan cara khusus. Multi-dimensi data mempunyai konsep Dimensi, Hirarki, Level, dan anggota yang merupakan suatu cube atau kubus yang mempunyai hubungan struktur diantaranya. Konsep ini cukup baik dipergunakan pada data yang dapat dibuat suatu agregat yang menghasilkan bentuk keluaran berupa kalkulasi untuk sebuah aplikasi bisnis.
OLAP (On-Line Analytical Processing) adalah suatu pernyataan yang bertolak belakang atau kontras dengan OLTP (On-Line Transaction Processing). OLAP menggambarkan sebuah klas teknologi yang dirancang untuk analisa dan akses data secara khusus. Apalabila pada proses transaksi pada umumnya semata-mata adalah pada relational database, OLAP muncul dengan sebuah cara pandang multidimensi data.Cara pandang multimensi ini didukung oleh tehnologi multidimensi database. Cara ini memberikan tehnik dasar untuk kalkulasi dan analisa oleh sebuah aplikasi bisnis.
OLTP mempunyai karakteristik beberapa user dapat creating,updating,retrieving untuk setiap record data, lagi pula OLTP sangat optimal untuk updating data. OLAP aplikasi digunakan untuk analisa dan mengatur frekuensi level dari agregat/jumlah data. OLAP database biasanya di update pada kumpulan data, jarang sekali dari multiple source dan menempatkan kekuatan analisa pada pada back-end pada operasi aplikasi. Sebab itulah maka OLAP sangat optimal digunakan untuk analisis.
Relational database merupakan suatu bentuk yang baik untuk mendapatkan suatu record dalam kapasitas jumlah record yang kecil, namun tidak cukup baik dalam mendapatkan suatu record dalam kapasitas jumlah record yang sangat besar serta membuat suatu summaries data untuk di analisa, ini memerlukan respone time yang lambat dan membutuhkan cukup waktu.
Aplikasi menggunakan OLPT cendrung atomized untuk “record-at-a-time�? data. Dengan OLAP aplikasi lebih cendrung padasummarized data. Sedangkan OLTP aplikasi lebih cendrung tidak mempunyai historical data.. hampir setiap aplikasi OLAP dikaitkan dengan kebutuhan historical data. Jadi OLAP database membutuhkan kemampuan untuk menangani “time series data�?.Aplikasi dan database menggunakan OLTP lebih cendrung pada proses pengelompokan data (data entry). Sedangkan OLAP lebih cendrung pada “subject oriented�?
Data Mining
Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka. Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambila keputusan penting. Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data untuk
menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang
mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.
Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text, dan multimedia (citra).
Data mining dapat juga didefinisikan sebagai “pemodelan dan penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume yang besar”
Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritma- algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan.
Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya.
Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologidata mining memiliki kemampuan-kemampuan sebagai berikut:
1. Mengotomatisasi prediksi tren dan sifat-sifat bisnis. Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaan-pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia.
Contoh dari masalah prediksi ini Misalnya target pemasaran, peramalan kebangkrutan dan bentuk- bentuk kerugian lainnya.
2.Mengotomatisasi penemuan pola-pola yang tidak diketahui sebelumnya. Kakas data mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjulan ritel untuk mengidentifikasi produk- produk, yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh kustomer. Contoh lain adalah pendeteksian transaksi palsu dengan kartu kredit dan identifikasi adanya data anomali yang dapat diartikan sebagai data salah ketik (karena kesalahan operator).
Data warehouse
Data warehouse merupakan metode dalam perancangan database, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik.
Istilah-istilah yang berkaitan dengan data warehouse :
1. Data Mart
Adalah suatu bagian pada data warehouse yang mendukung pembuatan laporan dan analisa data pada suatu unit, bagian atau operasi pada suatu perusahaan.
2. On-Line Analytical Processing (OLAP)
Merupakan suatu pemrosesan database yang menggunakan tabel fakta dan dimensi untuk dapat menampilkan berbagai macam bentuk laporan, analisis, query dari data yang berukuran besar.
3. On-Line Transaction Processing(OLTP)
Merupakan suatu pemrosesan yang menyimpan data mengenai kegiatan operasional transaksi sehari-hari.
4. Dimension Table
Tabel yang berisikan kategori dengan ringkasan data detail yang dapat dilaporkan. Seperti laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu(yang berupa perbulan, perkwartal dan pertahun).
5. Fact Table
Merupakan tabel yang umumnya mengandung angka dan data history dimana key (kunci) yang dihasilkan sangat unik, karena key tersebut terdiri dari foreign key(kunci asing) yang merupakan primary key (kunci utama) dari beberapa dimension table yang berhubungan.
6. DSS
Merupkan sistem yang menyediakan informasi kepada pengguna yang menjelaskan bagaimana sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang baik.
Karakteristik data warehouse menurut Inmon, yaitu :
1.Subject Oriented (Berorientasi subject)
Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu.
2. Integrated (Terintegrasi)
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.
3.Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
- Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
- Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut
- Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only
4. Non-Volatile
Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.
Berbeda dengan database operasional yang dapat mela4kukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).
OLTP (OnLine Transaction Processing)
Merupakan sistem transaksi yang mengacu pada kelas sistem yang memfasilitasi dan mengelola aplikasi berorientasi transaksi, biasanya digunakan untuk Entri Data dan Pengambilan Proses Transaksi.
Transaksi dalam konteks komputer atau Transaksi Database, contohnya Transaksi Komersil yang merupakan definisi dalam hal Bisnis (Transaction Processing Performance Council).
Contoh Transaksi komersial yaitu pada mesin ATM (Anjungan Tunai Mandiri) "Automatic Teller Machine", merupakan OLTP yang merujuk kepada proses di mana sistem segera merespon permintaan pengguna (User). ATM ini bagi Bank merupakan salah satu contoh aplikasi pemrosesan Transaksi Komersial.Teknologi OLTP banyak digunakan pada sejumlah industri, termasuk perbankan, penerbangan, mailorder, supermarket, dan manufaktur. Aplikasi termasuk Perbankan Elektronik, Pemrosesan Order, Sistem Jam Waktu bagi karyawan, E-commerce, dan eTrading. IBM Cics merupakan salah satu sistem pada OLTP yang banyak digunakan secara meluas. Manfaat dari OLTP adalah memiliki dua manfaat utama yaitu Kesederhanaan dan efisiensi untuk bisnis, dan Mengurangi jejak makalah, sehingga lebih cepat lebih akurat perkiraan untuk pendapatan dan beban.
Kekurangan dari OLTP, diantaranya :
1. Seperti halnya sistem pengolahan informasi, keamanan dan keandalan adalah suatu pertimbangan., bila organisasi memilih untuk mengandalkan OLTP, operasi dapat sangat mempengaruhi jika sistem transaksi atau database karena tidak tersedia.
2. Data yang rusak, kegagalan sistem, atau masalah ketersediaan jaringan.
3. Selain itu, seperti banyak solusi modern teknologi informasi online, beberapa sistem membutuhkan pemeliharaan offline yang selanjutnya mempengaruhi pada analisa biaya dan manfaat.
ETL
Extract, transform, dan load ( ETL ) merupakan sebuah sistem yang dapat membaca data dari suatu data store, merubah bentuk data, dan menyimpan ke data store yang lain. Data store yang dibaca ETL disebut data source, sedangkan data store yang disimpan ETL disebut target. Proses pengubahan data digunakan agar data sesuai dengan format dan kriteria, atau sebagai validasi data dari source system. Proses ETL tidak hanya menyimpan data ke data warehouse, tetapi juga digunakan untuk berbagai proses pemindahan data.
Kebanyakan ETL mempunya mekanisme untuk membersihkan data dari source system sebelum disimpan ke warehouse. Pembersihan data merupakan proses identifikasi dan koreksi data yang kotor. Proses pembersihan ini menerapkan aturan-aturan tertentu yang mendefinisikan data bersih.
Berdasarkan siapa yang memindahkan data, ETL dapat dibedakan menjadi empat seperti yang dapat dilihat pada gambar 2.1, yaitu :
1. Proses ETL menarik data keluar dengan query tertentu di source system database secara periodik.
2. Triggers pada source system mendorong data keluar. Triggers adalah Suatu SQL statement yang dijalankan setiap ada perintah insert, update, atau delete dalam tabel.
3. Penjadwalan proses dalam source system untuk mengekspor data secara periodik. Hal ini mirip dengan proses yang pertama namun query disimpan dalam data source.
4. Sebuah log reader yang bertugas membaca log dalam source system untuk mengidentifikasi perubahan data. Log reader merupakan program yang membaca log file. Setelah dibaca, kemudian data dipindahkan keluar ke tempat penyimpanan yang lain.