CLUSTERING
PENGERTIAN CLUSTERING :
Clustering berarti penyatuan sekelompok data yang mempunyai korelasi atau karakteristik sejenisatau dengan kata lain mempunyai kemiripan. Hal ini berbeda dengan group, jika pada group pengelompokannya memang harus sama jadi sudah dapat di pastikan yang termasuk dalam grouptersebut mempunyai karakteryang sama.
Salah satu cara yang dapat digunakan untuk pengelompokan data ini adalah dengan menggunakan rumus jarak ecluiden, yang telah dipelajari pada mata kuliah aljaber linier. Dengan menggunakan rumus ini maka data akan dibandingkan dengan data -data yang sudah menjadi referensi atau patokan dalam pengelompokannya.
Karena mengunakan metode sistem pengelompokan berdasarkan kemiripan atu kedekatan karakter maka metode ini dipilih untuk mengidentivikasi ataupun dalam pengambilan keputuasan.
Prinsip kerja Ecluiden sebagai berikut :
- menentukan ukuran yang dijadikan patokan pendekatan, misal berupa matrik vektor referensi
- menghitung nilai panjang dari vektor referensi dan pajang vektor yang akan di kelompokkan.
- menghitung nilai selisih panjang vektor yang akan di kelompokan dengan panjang vektor referensi.
- Bandingkan nilai selisih dengan masing – masing vektor, tentukan nilai terkecilnya.
- dengan demikian akan terdeteksi data tersebut termasuk ke dalam kelompok mana.
BEBERAPA APLIKASI CLUSTERING MULAI DARI YANG SEDERHANA SAMPAI RUMIT
Di bawah ini contoh capture output program yang saya buat untuk mendeteksi kematangan buah yang di gambarkan melalui perhiyungan vektor – vektor.
Program ini mengunakan perhitungan ecluiden.
Di bawah ini adalah aplikasi clustering yang saya peroleh melalui internet
Algoritma clustering adaptif pada klasifikasi citra inderaja multispektral
Citra penginderaaan jauh multispektral terdiri dari sejumlah citra yang diperoleh melalui panjang gelombang yang bervariasi. Masing-masing spektrum saling menunjang dalam proses klasifikasi kelas suatu objek. Algoritma clustering untuk klasifikasi citra multispektral ini, telah banyak dikembangkan, termasuk dengan cara mengoptimasidanmengintegrasikan berbgi algoritma. Tesis ini mengusulkan sebuah algoritma, yakni algoritma clustering adaptif (CA) yang berusaha mengatasi sejumlah kelemahan yang terdapat pada algoritma sebelumnya dengan mengintegrasikan metode hierarchical dan partitional clustering. Metode hierarchical ini terdiri dari split dan merger, dimana split berusaha membagi dataset menjadi sejumlah cluster sesuai karakteristik citra. Proses split yang berdasarkan distribusi pixel dalam feature space ini menggunakan histogram dari komponen utama citra multispektral tersebut. Sedangkan proses merger berusaha menggabungkan secara ketat cluster yang telah dihasilkan, agar cluster yang memang sangat berdekatan saja, yang digabung. Hal ini mengantisipasi berperannya noise yang sangat mungkin mengakibatkan chain effect. Adapun partitional clustering berusaha mendeteksi prototype yang sebenarnya dari tiap cluster, dengan memanfaatkan FCM (Fuzzy C-Mean). Sebab FCM sangat baik dalam mengatasi uncertainty yang mungkin terjadi akibat adanya noise atau outlier. Algoritma CA ini diuji coba terhdp sejuml. citra penginderaan jauh dari satelit Landsat TM dan GOES-8. untuk bahan pembandingan, sampel juga diuji coba dengan algoritma ISMC, yang berdsrk. penelitian sebelumnya telah terbukti lebih baik dari pada ISODATA dan SMC.
Analisis Semantic Web Mining pada Topic Map dengan Pendekatan Galois Lattice
Novieana Dewi Sugianto, 201114443 (2005)
Navigasi dan pengambilan informasi pada web bukanlah hal yang mudah. Kebanyakan data yang ada bersifat tidak terstruktur, sehingga teknik aplikasi data mining pada web menjadi sulit. Namun dengan adanya struktur semantic web yang baru, akan meningkatkan hasil mining yang dikembangkan pada web. Salah satu aplikasinya adalah semantic web mining pada XML Topic Map. Topic map didesain untuk menyelesaikan masalah informasi yang tidak terorganisasi dalam jumlah besar. Tujuan mining pada topic map ini adalah membantu user dalam menemukan informasi yang relevan yang dilakukan dengan tiga cara sebagai berikut: 1. Dengan mengevaluasi web site yang relevan dengan kebutuhan user berdasarkan kriteria semantic. 2. Dengan memfilter topic map untuk menemukan subjek utama yang ingin dicari dan membuang topic yang kurang relevan. 3. Dengan meningkatkan navigasi pada web melalui konsep yang berhubungan dengan topic dan melalui visualisasi detail level yang berbeda. Tujuan mining topic map yang pertama dapat dicapai dengan mendefinisikan profile topic map. Profile tersebut menunjukkan sifat/karakter topic map atau web site. Sedangkan tujuan mining kedua dicapai dengan membersihkan singular topic (topic yang tidak berarti secara semantic atau tidak terhubung dengan yang lain) melalui tahap filtering. Tujuan mining yang ketiga dicapai dengan memanfaatkan hubungan antara objek. Gambar 1 menunjukkan karakterisasi topic map atau web site, filtering dan clustering yang disimpulkan dari hasil algoritma klasifikasi konseptual berdasarkan Formal Concept Analysis dan Galois Connection.
Gambar 1. Tahap-tahap Analisa Topic Map
Langkah pertama dari analisa web ini adalah algoritma klasifikasi konseptual berdasarkan Formal Concept Analysis (FCA) dan Galois Connection. FCA adalah pendekatan matematika pada analisa data yang menyediakan struktur informasi. FCA akan digunakan untuk conceptual clustering. Ada dua istilah yang perlu diperhatikan, yaitu: 1. Sebuah objek adalah topic atau association dari topic map. 2. Objek tersebut memiliki karakteristik yang disebut properti. Tahap pertama adalah membentuk objek baru dan propertinya. Setiap kali terdapat sebuah elemen yang memiliki identifier (atribut id), maka objek yang baru terbentuk. Nama objek adalah nilai dari identifier. Sedangkan properti objek berhubungan dengan nilai atribut objek (termasuk nilai atribut id), sebanyak nilai atribut anak. Properti tersebut akan diberi bobot berdasarkan tingkat kepentingannya. Tahap kedua adalah menambahkan properti non intrinsik dengan menyilangkan data yang ada. Untuk sebuah objek O dengan kumpulan properti P, masing-masing properti P akan menjadi objek dengan O sebagai propertinya. Properti objek tersebut adalah properti intrinsik, demikian pula dengan semua properti yang ditambahkan secara recursive.
Pembentukan objek dan properti adalah seperti gambar 2.
Gambar 2. Tahap Pembentukan Objek dan Properti
Kemudian objek yang ada dikelompokkan berdasarkan hubungan Galois. Dalam matematika, khususnya teori Galois, sebuah hubungan Galois/Galois connection adalah hubungan khusus antara dua kumpulan terurut (“posets”). Galois connection membentuk hubungan antara subgroup dan subfield yang dijelaskan dalam teori Galois. Galois connection menemukan aplikasi-aplikasi dalam teori matematika seperti dalam teori pemrograman. Diberikan kumpulan instance E dan kumpulan ciri-ciri E’, dan binary relation R antara dua kumpulan tersebut (RĂ• ExE’). Terdapat hubungan yang unik antara Galois lattice dengan binary relation. Masing-masing elemen dalam lattice adalah sebuah pasangan yang dinotasikan dengan (X,X’) yang diperoleh dari kumpulan X (E P(E)) dan kumpulan X’ (E P(E’)). P(A) menunjukkan sebuah powerset dari A. Diberikan C1=(X1,X’1) dan C2= (X2,X’2), C1
Gambar 3. Contoh Hasse Diagram
Karakterisasi topic map meliputi perhitungan statistik dari setiap objek dan menyimpulkan profil untuk objek. Perhitungan statistik objek topic map adalah dengan menghitung bobot masing-masing objek. Sebuah objek O dikarakterisasi dengan vector dengan 6 komponen (A1..A6). Setelah statistik dihitung, maka profile objek dapat disimpulkan.Profile merupakan sebuah vector dimana masing-masing komponennya adalah rata-rata komponen dari semua objek dengan bobot A6 dalam topic map. Objek yang paling relevan (regular object), yang memiliki banyak properti dari banyak objek yang lain akan dipertahankan. Objek regular akan lebih berarti secara semantic dibandingkan dengan objek-objek yang lain. Tahap karakterisasi akan menghasilkan daftar regular objek yang stabil, dimana topic map telah difilter dengan mengeliminasi objek non regular (objek yang kurang bersifat semantic). Setelah tahap ini, akan dimiliki daftar objek yang baru yang digunakan sebagai input algoritma klasifikasi Galois. Kemudian Lattice yang baru dibentuk dan statistik dihitung pada objek yang baru untuk menghasilkan profil yang baru, demikian seterusnya hingga semua objek menjadi regular.
Gambar 4. Contoh Hasil Clustering
Clustering yang dilakukan berdasarkan konsep klasifikasi konseptual Galois, yang dikembangkan dengan membentuk pohon cluster (tree of cluster). Cluster yang terbentuk bersifat relevan secara konseptual dan semantic. Algoritma cluster ini juga memungkinkan untuk menggunakan hubungan generalisasi/spesialisasi yang menjadi sifat Galois lattice. Untuk membentuk tree of cluster, dimulai dari perwakilan yang mempunyai level detail terbesar. Dari sebuah pohon cluster akan dapat dihitung beberapa ukuran lain yang dibutuhkan, seperti bagian concept dari lattice awal yang tidak dipilih untuk dicluster/dikelompokkan. Selain itu dapat dianalisa level navigasi, jarak dan kemiripan antara objek. Keadalaman tree menunjukkan jumlah level navigasi yang disediakan untuk user. Distribusi cluster pada masing-masing pemisahan level juga dapat memberikan informasi yang penting bagi user. Jika sebuah cluster tidak memiliki father, berarti tidak dapat digeneralisasi. Sebaliknya sebuah cluster yang tidak memiliki children berarti merupakan level yang paing spesifik. Hasil cluster dapat digunakan untuk menemukan informasi yang relevan, dan letak informasi dapat ditampilkan dalam bentuk graph. Gambar 4 menunjukkan contoh hasil cluster berupa hirarki informasi/topic yang relevan. Bagian terluar dari graph menunjukkan informasi yang bersifat umum, dan semakin ke dalam menunjukkan informasi yang lebih spesifik.
0 komentar:
Posting Komentar