Blog Renancy Lyana Saraswaty

Friday, November 4, 2022

TUGAS AUDIT

(SOFTWAERE GAS )

1. 1 ACL (Audit Command Language)

ACL adalah sebuah software yang dirancang secara khusus untuk menganalisa data dan menghasilkan laporan audit baik untuk pengguna biasa (common/ nontechnical users) maupun

pengguna ahli (expert users). secara mudah dan interaktif (saling terkait). ACL dapat membaca data dari berbagai macam sistem yang terbentang mulai dari model sistem mainframe lama hingga ke relational database modern. ACL adalah aplikasi yang hanya ‘read-only’, ACL tidak pernah mengubah data sumber asli sehingga aman untuk menganalisis jenis live-data.

KEMAMPUAN ACL

1. Mudah dalam penggunaan (user friendly).

2. Built-in audit dan analisis data secara fungsional.

3. Kemampuan untuk mengeksport hasil audit ke berbagai macam format data.

1. 2. IDEA (Interactive Data Analysis Software)

Merupakan software audit yang dapat digunakan untuk membuat rekonsiliasi, investigasi kecurangan, internal/operational audit, pemindahan file, mempersiapkan laporan manajemen dan analisis-analisis lainnya, termasuk menelusuri security log. IDEA adalah software yang powerful dan mudah dioperasikan untuk membantu akunting dan professional keuangan meningkatkan keahlian auditing, mendeteksi kecurangan, dan memenuhi dokumen-dokumen standar. IDEA adalah sebuah software audit yang dapat membaca data asli yang telah diimpor. Field baru dapat dibuat, walaupun data asli tidak pernah diubah. Tidak seperti Microsoft Access dan Microsoft Excel, yang memungkinkan pengguna untuk melakukan manipulasi data yang telah diimpor yang dapat mengakibatkan kerusakan data akibat pengeditan ataupun penghapusan data.

IDEA juga bekerja secara otomatis memberikan satu macam dari masukan file control keseluruhan dan statistic, yang dapat diperiksa setiap kali file tersebut digunakan. Banyaknya fitur control memberikan jaminan penggunaan sebagai kesatuan dari data yang dianalisis.

2. 3. APG (Audit Program Generator)

Waktu, biaya, tenaga, tanggal penyelesaian, adalah semua elemen yang harus diperhitungkan ketika sebuah tim audit membuat perencanaan audit. Langkah pertama dalam perencanaan audit tersebut akan dipersiapkan dalam sebuah daftar perencanaan audit. APG memungkinkan tim audit mempersiapkan daftar perencanaan audit mereka. APG dapat membantu dalam memenuhi standar auditing, mempertimbangkan struktur pengendalian internal dalam sebuah laporan keuangan auditan. Standar auditing mengharuskan auditor mendapatkan pemahaman terhadap tiga elemen dari struktur pengendalian dan apakah kebijakan-kebijakan yang relevan, prosedur-prosedur dan catatan-catatan yang mendasar telah diterapkan pada perusahaan yang diaudit.

4. Arbutus Analyzer

Arbutus Analyzer adalah salah satu software yang termasuk dalam Generalized Audit Software. Arbutus menjadi solusi yang digunakan auditor untuk mengakses dan menganalisa data dengan cepat dan simple. Software ini dapat melakukan analisis, akses data yang andal, dan mendeteksi penipuan dengan performa yang kuat dan fitur yang mudah digunakan. Artubus dibuat oleh Grant Brodie, salah satu pendiri dari ACL Services, sebagai syarat audit yang beragam dan menantang juga profesional bisnis lainnya.

Arbutus memiliki manfaat yaitu dapat membaca data dan menyediakan akses data ke semua sumber data yang mana data yang dianalisa dapat berasal dari sumber yang berbeda, dapat melakukan analisa dalam jumlah besar terhadap keseluruhan data dalam waktu yang relatif cepat, dapat membaca dan melakukan proses terhadap berbagai tipe data, dan Arbutus tidak membutuhkan dongle atau alat di luar dari sistem software.

Wednesday, October 19, 2022

Audit Teknologi Sistem Informasi - Tugas kelompok jurnal

KELOMPOK : 4

- - Novi Puji Lestari (14119838)

- - Reistika Pravitasari (15119415)

- - Renancy Lyana Saraswaty (15119430)

Audit Tata Kelola Teknologi Informasi menggunakan Cobit 5
(Studi Kasus : Universitas Pembangunan Panca Budi Medan)

Audit tata kelola teknologi informasi pada universitas dibutuhkan untuk mendukung jalannya
kegiatan akademik dan non akademik. Penelitian dipusatkan pada bagaimana mengelola operasional kegiatan akademik dan non akademik pada tingkat universitas. Sehingga seluruh kegiatan dapat dilakukan melalui Sistem Informasi Akademik dan E-Office secara menyeluruh dan maksimal. Untuk mengetahui apakah kegiatan yang dilakukan pada Sistem Informasi sudah
maksimal, maka dibutuhkan sebuah audit tata kelola teknologi informasi pada tingkat universitas. Tujuan dari penelitian adalah untuk mengetahui capability level yang dimiliki oleh universitas. Dengan metode untuk mengukur kinerja tata kelola IT menggunakan framework COBIT 5 pada domain Deliver, Service and Support (DSS) 01. Dari hasil penelitian diketahui bahwa capability level yang dimiliki saat ini berada pada Level 2 (Managed Process) dengan status Fully Achieved, yaitu tercapai sepenuhnya pada Level 2. Target yang harus dicapai untuk capability level adalah pada Level 3. Sehingga dibutuhkan strategi perbaikan untuk mencapai Level 3 pada tata kelola teknologi informasi di Universitas Pembangunan Panca Budi.

(Link jurnal )

https://journal.pancabudi.ac.id/index.php/Juti/article/view/476/450

Saturday, April 16, 2022

Jawaban nomer 2 Vclas Sains Data M7 :

Friday, April 8, 2022

POHON KEPUTUSAN

RENANCY LYANA SARASWATY

3KA24

15119430

SOAL

Perhatikan data yang ada pada tabel keputusan "Play Tennis"

Buatlah pohon keputusan untuk data tersebut

JAWABAN

Menentukan information gain untuk atribut outlook sebagai root. Dimana dari keseluruhan data terdata 9 instans untuk play = yes dan 5 instans untuk play = no .

Menghitung entropy pada masing-masing nilai atribut outlook.

outlook =sunny

ada 2 play = yes dan 3 play = no ,menghitung infonya.

outlook = cloudy

ada 4 play = yes dan tidak ada instans untuk play = no,menghitung infonya.

Info([4,0])=entropy(4/4,0/4)

=-4/4log(4/4)-0/4log(0/4)

outlook = rainy

ada 3 play = yes dan ada 2 play = no,menghitung infonya.

Selanjutnya menghitung information gain untuk atribut outlook sebagai

POHON KEPUTUSANYA :

Koefisien Jaccard

RENANCY LYANA SARASWATY

15119430

3KA24

SOAL

1. Jika diketahui A={1,2,3,4}, B={1,2,4}, dan C={1,2,4,5}, berapakah Jaccard (A,B), Jaccard(B,C), dan Jaccard(A,C) ?

2. Berikutnya untuk kasus query dan document. Misalnya kita punya:

query: ideas of march

doc1: caesar died in march

doc2: the long march

Cari Koefisien Jaccard antara query dengan doc1 dan doc2.

3. Diketahui 3 dokumen :

d1: “Jack London traveled to Oakland”

d2: “Jack London traveled to the city of Oakland”

d3: “Jack traveled from Oakland to London”

Nilai dari Koefisian Jaccard J(d1,d2) dan J(d1,d3) jika dilakukan dengan n-gram analisis dengan n=2 (bigram) adalah:

JAWABAN

2. Dik : Query ideas of march

doc1 : caesar diead in march

doc2 : the lon march

Dit : Koefisien Jaccard antara query dengan doc1 dan doc2.

3. Jaccard(D1,D2)

D1 = 4 (Jack London, London traveled, traveled to, to Oakland)

D2 = 7 (Jack London, London traveled, traveled to, to the, the city, city of, of Oakland)

| D1 ∩ D2 | = 3

| D1 U D2 | = 8

| D1 ∩ D2 | / | D1 U D2 | = 3/8 = 0.375

Jaccard(D1,D3)

D1 = 4 (Jack London, London traveled, traveled to, to Oakland)

D2 = 5 (Jack traveled, traveled from, from Oakland, Oakland to, to London

| D1 ∩ D3 | = 0

| D1 U D2 | = 9

| D1 ∩ D2 | / | D1 U D2 | = 0/9 = 0

Sunday, March 13, 2022

5 ARTIKEL (JURNAL ATAU PROCCEDING) YANG MEMBAHAS

HASIL DATA MINING

Nama Kelompok 4 :

1. Husna Aprillia Damayanti : 12119852

2. Novi Puji Lestari : 14119838

3. Reistika Pravitasari : 15119415

4. Renancy Lyana Saraswaty : 15119430

PREDIKSI POTENSI PENJUALAN PRODUK DELIFRANCE DENGAN METODE NAIVE BAYES DI PT. PANGAN LESTARI

Abstrak

PT. Pangan Lestari adalah perusahaan pemasok, dalam kesehariannya memiliki permasalahan yaitu dalam memprediksi barang yang laku berdasarkan hasil penjuala. Penggunaan data mining, dalam hal ini adalah berupa Metode Naïve Bayes sangat membantu dalam prediksi berapa stok yang disiapkan dan produk apa saja yang tidak laku. Dengan adanya bantuan alat aplikasi ini diharapkan penjualan akan meningkat karena konsumen senang belanja di sini karena barang yang akan di beli selalu tersedia, jenis variannya, dan selalu baru, belum kadaluarsa.

Kata kunci:Penjualan, Metode Naive Bayes, data mining

Data yang digunakan

Ø Type data

Metode Algoritma Naive Bayes

Naive Bayes merupakan teknik prediksi berbasis probabilitas sederhana yang berdasarkan pada penerapan teorema bayes dengan asumsi independensi yang kuat. Dengan kata lain, dalam Naive Bayes menggunakan model fitur independen, maksud independen yang kuat pada fitur adalah bahwa data tidak berkaitan dengan data yang lain dalam kasusyang sama ataupun atribut yang lain.

Persamaan dari Teorema Bayes adalah :

P(H\X) =

Keterangan :

X : Data sampel dengan calass ( label ) yang tidak di ketahui.

H : Hipotesa bahwa X adalah data dengan class (label).

P ( H | X ) : Pobalitas H berdasarkan kondisi

X.P (H) = Peluang dari hipotesa H.

P(X|H) : Peluang data sampel X, bila diasumsikan bahwa hipotesa benar.P (X) = Peluang data sampel yang diamati.

Ø Atribut

Dataset yang digunakan pada penelitian ini mengunakan data penjualan dari PT.Pangan Lestari sebanyak 3 atribut dan 300 data. atribut tersebut terdiri darinama customer, wilayah, nama barang. Data dan atribut tersebut digunakan untuk memprediksi material yang sering di order dan mencari seberapa besar nilai akurasi algoritma naïve bayes. Data dan atribut tersebut digunakan untuk memprediksi material yang sering di order dan mencari seberapa besar nilai akurasi algoritma naïve bayes

Ø Type atribut

Tahap Pertama, penentuan data yang akan diolah pada penelitian ini Berikut pada tabel 2 merupakan tabel atribut data penelitian dari dataset.

Tabel 2. Atribut Dataset

No.	Atribut	Type	Proses
1	Nama Customer	Char	Digunakan
2	Penjual / Wilayah	Char	Digunakan
3	Kode Barang	Char	Digunakan
4	Status	Char	Digunakan

Tahap Kedua, melakukan konversi data. Data dengan atribut yang telah dipilih kemudian dikonversikan untuk memudahkan proses Data Mining pada sebagian atribut, karena data akan diproses dengan tools bantu Data Mining.

Ø Dimensi

Preprocessing yang digunakan

Knowledge Discovery in Databases (KDD) merupakan sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing. Data propecessing merupakan langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap analisis berikutnya. Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan data segmen yang relevan dengan task data mining. Istilah Data mining dan Knowledge Discovery in Databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar.

Gambar 1. Proses Knowledge Discovery in Databases (KDD)

1. Data Selection

Pemilihan atau seleksi data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam knowledge data discovery dimulai. Data hasil seleksi yang akan digunakan untuk proses Data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional Sebelum proses Data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkosisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan KDD, seperti data atau informasi eksternal.

2. Transformation

Coding adalah proses tranformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

3. Data mining

Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam Data mining sangatbervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

4. Interpretation / Evaluation

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDDyang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

Task Mining yang dilakukan

Hasil yang diperoleh

Hasil Penelitian,sebagai berikut :

- Perhitungan Naive Bayes

Perhitungan Naïve Bayes dilakukan dengan menghitung menggunakan data yang diambil dari data penjualan PT.Pangan Lestari sebanyak 3 atribut dan 300 data. Kriteria yang digunakan adalah sebagai berikut :

- Pengujian Naive Bayes

Pengujian pertama ini akan menggunakan satu algoritma yakni naïve baye tanpa menggunakan metode optimasi dalam melakukan klasifikasi data sebanyak 1 dataset. Berikut ini model pengujian yang digunakan dapat dilihat pada tabel …. di bawah ini :

Tabel 3. Data Customer, dan wilayah perdagangan

Nama Customer	GRAN MELIA JAKARTA, HOTEL, THE MARGO, HOTEL, SWISS BELINN KEMAYORAN, ART HOTEL, ASTON HOTEL - ANYER BEACH, ASTON HOTEL - PLUIT – DM, ASTON HOTEL - RASUNA SAID, ASTON IMPERIAL HOTEL – BEKASI, ASTON SENTUL LAKE RESORT & CONFERENCE, BEST SINAR NUSANTARA, PT, BEST WESTERN HOTELKUNINGAN, FAVE CILILITAN, HOTEL, GRAND MERCURE KEMAYORAN, HOTEL, GRANDHIKA, HOTEL, HARISTON HOTEL & SUITES, HORISON CILEDUG, IBIS STYLE GAJAH MADA, KERATON HOTEL, NOVOTEL GOLF RESORT & CONVENTION CENTRE HOTEL, ROYAL KUNINGAN HOTEL, POP HOTEL, OLYMPIC PREMIER, HOTEL, THE ALANA HOTEL & CONFERENCE SENTUL CITY, THE GROVE SUITE HOTEL, THE RITZ CARLTON HOTEL-KUNINGAN
Penjual / Wilayah	JKT FS1H, JKT FS2H, JKT FS3H
Kode Barang	IDT76543, IDT78126, IDT78192, IDT78463, IDT78566, IDT78622, IDT78628, IDT78630, IDT78632, IDT78644, IDT78651, IDT78654, IDT78655, IDT78662, IDT78688
Status	LAKU, SEDANG, TIDAK LAKU

- Menghitung Probabilitas akhir setiap kelas

Menghitung probabiitas akhir pada setiap kelas, perlu menggunakan data training yang terdapat pada tabel 6 dan mengubahnya menjadi nilai yang sudah ditentukan pada perhitungan probabilitas masing- masing atribut, dari masing masing atribut dan nilai probabilitas kelas dikalikan. dari hasil yang sudah ditentukan pada tiap kelas, bandingkan nilai yang paling tinggi.jika kelas “LAKU” bernilai lebih besar maka hasilnya “LAKU”. Begitu pula dengan “SEDANG” dan “TIDAK LAKU”.

- Implementasi Klasifikasi NaïveBayes pada RapidMiner

Perhitungan yang telah dilakukan diatas sesuai untuk menentukan kelulusan dengan metode Naïve Bayes. Setelah melakukan perhitungan manual terhadap data training dan data testing, langkah selanjutnya pembuktian dengan menggunakan RapidMiner. Pembuktian perhitungan manual Naïve Bayes terhadap data training dan data testing, akan dilakukan perhitungan menggunakan RapidMiner. RapidMiner yang digunakan adalah versi 7.6

Gambar 4. Proses RapidMiner pengujian data traning terhadap data testing dalam menentukan prediksi.

Gambar 5. Hasil Prediksi dimana data testing menggunakan sample acak awal dan akhir data yang digunakan dalam penelitian ini.

Pengujian dengan metode Naïve Bayes menggunakan dataset Penjualan. Hasil yang didapatkan pengujian ini mendapatkan hasil akurasi sebesar 72,00% dengan nilai presisi serta recall masing-masing kelas dapat dilihat pada gambar 8 berikut ini :

Gambar 6. Hasil Accuracy RapidMiner

Tools / Aplikasi yang digunakan

RapidMiner merupakan suatu perangkat lunak yang bertujuan untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi yang bersifat terbuka (open source) dan menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik.RapidMiner ditulis munggunakan bahasa java sehingga dapat bekerja di semua sistem operasi. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri sendiri untuk analisis data sebagai mesin data mining yang dapat diintegrasikan pada produknyasendiri.

RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan SimonFischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3.Hingga saat ini telah ribuan aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40negara.RapidMiner sebagai softwareopen source untuk data mining tidak perlu diragukan lagi karena software ini sudah terkemuka didunia.

RapidMiner menempati peringkat pertama sebagai softwaredata mining pada polling oleh KDnuggets, sebuah portal data mining pada tahun 2010-2011. RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis. GUI ini akan menghasilkan fileXML(Extensible Markup Language) yang mendefenisikan proses analitis keinginan pengguna untuk diterapkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.

RapidMiner memiliki beberapa sifat sebagai berikut.

· Ditulis dengan bahasa pemegroman java sehingga dapatdijalankan di berbagai sistem operasi.

· Representasi XML internal untuk memastikan formatstandar pertukaran data.

· Bahasa scripting memungkinkan untuk eksperiman skalabesar dan otomatisasi eksperimen.

· Konsep multi-layer untuk menjamin tampilan data yangefisien dan menjamin penangan data

Kesimpulan

Berdasarkan pada hasil penelitian yang telah dilakukan maka dapat disimpulkan :

1. Penerapan Algoritma Naïve Bayes untuk memprediksi potensi penjualan berdasarkan data set penjualan deliverance pada PT.Pangan Lestari dapat membantu perusahaan dalam memprediksi potensi penjualan.

2. Berdasarkan data yang diperoleh, proses Data Mining membantu dalam penerapan metode 78 Volume 9 Nomor 1 September 2018 ISSN : 2407-3903 SIGMA – Jurnal Teknologi Pelita Bangsa Naïve Bayes dalam mendapatkan informasi dari hasil prediksi pada data penjualan delifrance di PT.Pangan Lestari dijadikan Data Mining. Sehingga dengan demikian metode Naïve Bayes ini berhasil memprediksi dengan presentase keakuratan sebesar 72,00 % dengan menggunakan data sebanyak 300. 3. Dari hasil yang diperoleh data penjualan delifrance dapat mengetahui tingkat dan volume penjualan barang PT. Pangan Lestari kepada para konsumen

PENERAPAN DATA MINING PADA PENJUALAN MAKANAN DAN MINUMAN MENGGUNAKAN METODE ALGORITMA NAIVE BAYES

1. 1. Type Data

Bulan	Makanan	Minuman
Februari	11373000	3791000
Maret	12750000	4250000
April	2550000	850000
Mei	3060000	1020000
Juni	15300000	5100000
Juli	17850000	5950000
Agustus	25500000	8500000
September	38250000	12750000
Oktober	22950000	7650000
November	22950000	7650000
Desember	22236xxx	7412xxx

Mendeskripsikan data tersebut bertujuan untuk memahami informasi lebih lanjut mengenai atribut dari data yang akan diolah dalam pengklasifikasian penjualan pada restoran Makan Barbeque Sepuasnya.

1. 2. Atribut

Tahapan ini bertujuan memilih atribut yang dianggap sebagai atribut yang berpengaruh terhadap klasifikasi penjualan makanan dan minuman.

Atribut

Makanan

Minuman

1. 3. Type Atribut

Selanjutnya mendeskripsikan data tersebut yang bertujuan untuk memahami informasi lebih lanjut mengenai atribut dari data yang akan diolah dalam pengklasifikasian penjualan pada restoran Makan Barbeque Sepuasnya.

Atribut	Jenis	Keterangan
Makanan	Numeric	Nominal Penjualan Makanan
Minuman	Numeric	Nominal Penjualan Minuman

1. 4. Preprocessing

Pada tabel dibawah ini terdapat data yang berbeda tipe data dan data tersebut tidak valid atau salah dalam penulisan.

Tabel Data Yang Tidak Relevan Tabel Hasil Cleansing Data

Data yang berjenis numerik seperti makanan dan minuman harus dilakukan inisialisasi data terlebih dahulu ke dalam bentuk nominal makanan dan nominal minuman. Untuk melakukan inisialisasi dapat dilakukan dengan sebagai berikut :

- Makanan yang terjual dengan nominal lebih dari 15.000.000 diberi inisial pada atribut Keterangan Makanan “Untung”,

- Makanan yang terjual dengan nominal kurang dari atau sama dengan 15.000.000 diberi inisial pada atribut Keterangan Makanan “Rugi”.

- Minuman yang terjual dengan nominal lebih dari 5.000.000 diberi inisial pada atribut Keterangan Minuman “Untung”,

- Minuman yang terjual dengan nominal kurang dari atau sama dengan 5.000.000 diberi inisial pada atribut keterangan Minuman “Rugi”,

Berikut adalah dataset penjualan makanan dan minuman yang telah dilakukan inisialisasi yang terdapat pada gambar dibawah ini.

Bulan	Makanan	Keterangan Makanan	Minuman	Keterangan Minuman
Februari	11373000	Rugi	3791000	Rugi
Maret	12750000	Rugi	4250000	Rugi
April	2550000	Rugi	850000	Rugi
Mei	3060000	Rugi	1020000	Rugi
Juni	15300000	Untung	5100000	Untung
Juli	17850000	Untung	5950000	Untung
Agustus	25500000	Untung	8500000	Untung
September	38250000	Untung	12750000	Untung
Oktober	22950000	Untung	7650000	Untung
November	22950000	Untung	7650000	Untung
Desember	22236000	Untung	7412000	Untung

1. 5. Task mining

· Menghitung Jumlah Kelas

Dari jumlah cell (data) dari masing masing kelas dibagi dengan keseluruhan cell (data) maka akan mendapatkan probabilitas prior. Berikut perhitungan probabilitas prior berdasarkan persamaan :

P (Keterangan Makanan, Untung) = 7/22 = 0,318

P (Keterangan Makanan, Rugi) = 4/22 = 0,182

P (Keterangan Minuman, Untung) = 7 22 = 0,318

P (Keterangan Minuman, Rugi) = 4/22 = 0,182

Kelas	Sub Kelas	Jumlah	Probabilitas Kelas P (C)
Keterangan	Untung	7	0,318
Makanan	Rugi	4	0,182
Keuntungan	Untung	7	0,318
Minuman	Rugi	4	0,182
Total 22 1,000

· Menghitung Jumlah Kasus Dari Setiap Kelas

Untuk mencari nilai probabilitas posterior/jumlah kasus kejadian dari setiap kelas yaitu jumlah atribut dengan kelas “Keuntungan Makanan” dan kelas “Keuntungan Minuman” kemudian dibagi dengan jumlah kelas yang ada.

Jumlah Kejadian


Bulan	Keterangan Makanan		Keterangan Minuman
Bulan	Untung	Rugi	Untung	Rugi
Februari	0	1	0	1
Maret	0	1	0	1
April	0	1	0	1
Mei	0	1	0	1
Juni	1	0	1	0
Juli	1	0	1	0
Agustus	1	0	1	0
September	1	0	1	0
Oktober	1	0	1	0
November	1	0	1	0
Desember	1	0	1	0
Total	11		11

Probabilitias P (F\|C)
Bulan	Keterangan Makanan		Keterangan Minuman
Bulan	Untung	Rugi	Untung	Rugi
Februari	0	0,09	0	0,09
Maret	0	0,09	0	0,09
April	0	0,09	0	0,09
Mei	0	0,09	0	0,09
Juni	0,09	0	0,09	0
Juli	0,09	0	0,09	0
Agustus	0,09	0	0,09	0
September	0,09	0	0,09	0
Oktober	0,09	0	0,09	0
November	0,09	0	0,09	0
Desember	0,09	0	0,09	0
Total	1,000		1,000

· Mengalikan Semua Variabel Kelas

Perhitungan nilai probabilitas prior dan probabilitas posterior yang telah dilakukan akan digunakan sebagai model yang akan digunakan sebagai acuan untuk menentukan data testing. Di bawah ini merupakan contoh data testing yang akan di hitung probabilitasnya.

1) Untuk semua atribut kelas Keterangan Makanan = “Untung”

P (X | Keterangan Makanan = “Untung”) = 7/11 = 0.636

2) Untuk semua atribut kelas Keterangan Makanan = “Rugi”

P (X | Keterangan Makanan = “Rugi”) = 7/11 = 0,363

3) Untuk semua atribut kelas Keterangan Minuman = “Untung”

P (X | Keterangan Minuman = “Untung”) = 7/11 = 0.636

4) Untuk semua atribut kelas Keterangan Minuman = “Rugi”

P (X | Keterangan Minuman = “Rugi”) = 4/11 = 0,363

5) Perkalian probabilitas prior dengan semua atribut Keterangan Makanan = “Untung”

P (Ci | Keterangan Makanan = “Untung”) × P (X | Keterangan Makanan = “Untung”) = 0,318 × 0,636 = 0,202

6) Perkalian probabilitas prior dengan semua atribut Keterangan Makanan = “Rugi”

P (Ci | Keterangan Makanan = “Rugi”) × P (X | Keterangan Makanan = “Rugi”) = 0,182 × 0,363 = 0,066

7) Perkalian probabilitas prior dengan semua atribut Keterangan Minuman = “Untung”

P (Ci | Keterangan Minuman = “Untung”) × P (X | Keterangan Minuman = “Untung”) = 0,318 × 0,636 = 0,202

8) Perkalian probabilitas prior dengan semua atribut Keterangan Minuman = “Rugi”

P (Ci | Keterangan Minuman = “Rugi”) × P (X | Keterangan Minuman = “Rugi”) = 0,182 × 0,363 = 0,066

· Membandingkan Hasil dari Setiap Kelas

Kelas	Probabilitas
P (Keterangan Makanan \| Untung)	0,202
P (Keterangan Makanan \| Rugi)	0,066
P (Keterangan Minuman \| Untung)	0,202
P (Keterangan Minuman \| Rugi)	0,066

Dari data testing yang sudah diuji menghasilkan kelas P (Keterangan Makanan | Untung) dan P (Keterangan Minuman | Untung) memiliki nilai probabilitas tertinggi diantara kelas lainnya, sehingga dapat diambil kesimpulan bahwa makanan dan minuman memiliki probabilitas lebih tinggi.

1. 6. Hasil yang Diperoleh

Hasil pengujian berdasarkan Accurancy

Skenario	2	3	4	5	6	7	8	9	10
Skenario	Fold	fold	fold	fold	fold	fold	fold	fold	fold
Accurancy	85,92	88,73	88,03	87,32	88,38	87,68	86,9	88,03	88,3

Hasil pengujian berdasarkan Precision

Skenario	2	3	4	5	6	7	8	9	10
Skenario	fold	fold	fold	fold	fold	fold	fold	fold	fold
Precision	45,56	64,62	56,37	54,43	58,38	47,78	56,8	58,03	66,37

Hasil pengujian berdasarkan Recall

Skenario	2	3	4	5	6	7	8	9	10
Skenario	Fold	fold	fold	fold	fold	fold	fold	fold	fold
Recall	45,12	45,72	43,13	43,52	41,36	42,78	44,9	44,83	48,7

Hasil pengujian berdasarkan Nilai Kappa

Skenario	2	3	4	5	6	7	8	9	10
Skenario	fold	fold	fold	fold	fold	fold	fold	fold	fold
Kappa	0,392	0,425	0,453	0,21	0,34	0,444	0,42	0,411	0,431

1. 7. Tools yang digunakan

· Algoritma Naive Bayes

Dalam teorema Bayes, probabilitas dapat dinyatakan sebagai berikut :

Diketahui :

X = bukti, H = hipotesis, P(H|X) adalah probabilitas bahwa hipotesis H benar untuk bukti X atau dengan kata lain P(H|X) merupakan probabilitas posterior H dengan syarat X. P(X|H) adalah probabilitas bahwa hipotesis X benar untuk bukti H atau dengan kata lain P(X|H) merupakan probabilitas posterior X dengan syarat H. P(H) adalah probabilitas prior hipotesis H, dan P(X) adalah probabilitas prior bukti X.

· Knowledge Discovery in Database (KDD)

Adalah metode dan cara mendapatkan sebuah informasi melalui basis data yang telah tersedia.

Kesimpulan

1. Penelitian ini dilakukan untuk mengklasifikasikan penjualan makanan dan minum pada restoran Makan Barbeque Sepuasnya menggunakan algoritma Naïve Bayes dengan metodologi KDD (Knowledge Discovery in Database). Dari hasil perhitungan klasifikasi menggunakan algoritma Naïve Bayes adalah keterangan makanan untung dan keterangan minuman untung yang lebih besar probabilitasnya.

2. Hasil pengujian klasifikasi algoritma Naïve Bayes dari sembilan skenario pengujian yang telah dibuat dengan cross validation, menghasilkan performa terbaik pada skenario pengujian dengan menggunakan 3 fold yang menghasilkan performa terbaik dengan nilai accuracy sebesar 88,73%, precision sebesar 64,42%, recall sebesar 45,41% dan dengan nilai kappa yang diperoleh sebesar 0,451 yang termasuk kedalam kategori cukup. Berdasarkan hasil tersebut maka, model yang dihasilkan oleh algortima Naïve Bayes ini konsisten.

Penggunaan Data Mining dalam Kegiatan Sistem Pembelajaran Berbantuan Komputer

Data mining merupakan suatu langkah dalam Knowledge Discovery in Databases (KDD). Knowledge discovery sebagai suatu proses terdiri atas pembersihan data (data cleaning), integrasi data (data integration), pemilihan data (data selection), transformasi data (data transformation), data mining, evaluasi pola (pattern evaluation) dan penyajian pengetahuan (knowledge presentation). Data mining mengacu pada proses untuk menambang (mining) pengetahuan dari sekumpulan data yang sangat besar. Kerangka proses data mining tersusun atas tiga tahapan, yaitu pengumpulan data (data collection), transformasi data (data transformation), dan analisis data (data analysis).

Proses tersebut diawali dengan preprocessing yang terdiri atas pengumpulan data untuk menghasilkan data mentah (raw data) yang dibutuhkan oleh data mining, yang kemudian dilanjutkan dengan transformasi data untuk mengubah data mentah menjadi format yang dapat diproses oleh data mining, misalnya melalui filtrasi atau agregasi. Hasil transformasi data akan digunakan oleh analisis data untuk membangkitkan pengetahuan dengan menggunakan teknik seperti analisis statistik, machine learning, dan visualisasi informasi.

Sistem pembelajaran berbantuan komputer (computer aided learning system) dapat diimplementasikan sebagai sistem tutorial berbasis web (web-based tutoring tool) atau sistem tutorial cerdas (intelligent tutoring system). Dalam sistem tutorial berbasis web maupun sistem tutorial cerdas, setiap interaksi siswa dengan sistem akan dicatat dalam suatu basis data dalam bentuk web log atau model siswa (student model). Setelah sistem tersebut digunakan dalam proses pembelajaran selama jangka waktu tertentu, maka akan terkumpul sejumlah besar data. Kumpulan data tersebut dapat diproses lebih lanjut dengan data mining untuk memperoleh pola baru yang dapat digunakan untuk meningkatkan efektifitas dalam proses pembelajaran.

Gambar 1 memperlihatkan diagram yang menggambarkan aliran informasi dalam proses data mining. Proses data mining pada gambar 1 ditunjukkan sebagai proses yang iteratif. Hasil evaluasi pengetahuan yang dihasilkan data mining dapat menimbulkan kebutuhan pengetahuan yang lebih lengkap, perbaikan kumpulan data (dataset) atau perubahan pada sistem.

- Data yang digunakan:

1. 1. Type Data

Metode Algoritma association rule (AR)

Algoritma association rule (AR) digunakan untuk menemukan hubungan antar nilai tertentu dari atribut nominal dalam suatu dataset. Aturan yang dihasilkan dapat ditulis dalam bentuk “if-then” dengan mempertimbangkan besaran support dan confidence untuk menilai reliabilitas aturan.

Classification

Teknik classification bekerja dengan mengelompokkan data berdasarkan data training dan nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk klasifikasi data baru ke dalam kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN outcome.

Clustering

Teknik clustering bekerja dengan mencari kemiripan di antara objek dengan memperhatikan karakteristik objek, sekelompok objek yang mirip akan termasuk ke dalam satu cluster. Teknik yang dapat digunakan untuk melakukan clustering antara lain algoritma k-means atau algoritma kmedoids

1. 2. Atribut

Dataset dapat dikelompokkan secara vertikal sebagai kumpulan atribut dan secara horisontal sebagai kumpulan instans. Setiap atribut mempunyai tipe data, yang dapat berupa numerik, teks, atau bentuk lainnya. Jika domain nilai suatu atribut berhingga, maka disebut atribut nominal. Suatu instans adalah data yang dihasilkan dari suatu kejadian di dunia nyata, yang dicatat dalam beberapa atribut.

1. Type Atribut

- - Preprocessing

- - Task mining

Klasifikasi, regresi, clustering, peringkasan, pemodelan kebergantungan, atau deteksi perubahan dan deviasi

- - Hasil

Hasil transformasi data akan digunakan oleh analisis data untuk membangkitkan pengetahuan dengan menggunakan teknik seperti analisis statistik, machine learning, dan visualisasi informasi. Analisis data hasil pembelajaran dapat dilakukan dengan menerapkan teknik algoritma association rules, classification, dan clustering untuk menghasilkan pengetahuan yang dapat membantu guru dalam mengelola kelasnya dengan memahami cara belajar siswa, dan memberikan umpan balik proaktif kepada siswanya.

- - Tools

Menggunakan Knowledge Discovery in Databases (KDD)

Kesimpulan

Penerapan data mining dalam sistem pembelajaran berbantuan komputer diawali dengan pengumpulan data, yang dilanjutkan dengan transformasi data, dan diakhiri dengan analisis data. Pada pengumpulan data, harus didefinisikan suatu model interaksi antara siswa dengan sistem untuk menetapkan data yang harus dicatat dari suatu proses pembelajaran. Model interaksi siswa pada sistem tersebut dapat tersusun atas beberapa lapisan untuk memungkinkan pemerolehan data pada tingkat granularitas yang berbeda.

Proses transformasi data mengubah data mentah menjadi dataset yang siap dianalisis. Transformasi dapat dilakukan pada instans dataset melalui proses filtrasi, maupun pada atribut dari dataset melalui filtrasi ataupun konversi. Analisis data hasil pembelajaran dapat dilakukan dengan menerapkan teknik algoritma association rules, classification, dan clustering untuk menghasilkan pengetahuan yang dapat membantu guru dalam mengelola kelasnya dengan memahami cara belajar siswa, dan memberikan umpan balik proaktif kepada siswanya.

Implementasi Data Mining dengan Algoritma Naïve Bayes pada Penjualan

Obat

Hasil yang di peroleh dari data mining : Data mining merupakan suatu langkah dalan melakukan Knowledge Discovery in Databases (KDD). Knowledge discovery sebagai suatu proses terdiri atas pembersihan data (data cleaning), integrasi (data integration), pemilihan data (data selection), transformasi data (data transformation), data mining, evaluasi pola (pattern evaluation) dan penyajian pengetahuan (knowledge presentation). Data mining mengacu pada proses untuk menambang (mining) pengetahuan dari sekumpulan data yang sangat besar untuk menghasilkan untuk menambah sebuah pengetahuan baru dari bidang tertentu.

Pada data mining terdapat 3 bagia yaitu : Assosiation, Klasifikasi dan Clustering. Assosiation memiliki definisi sebuah proses yang digunakan untuk menemukan suatu yang terdapat pada nilai atribut dari sekumpulan data yang dimiliki, sedangkan klasifikasi adalah teknik yang di lakukan untuk memprediksi class atau propeti dari setiap instance data, dan Clustering sendiri memliki makna pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama sesuai dengan topik yang diangkat.

Masalah yang harus di pecahkan pada penelitian ini adalah bagaimana menghasilkan nilai accuracy yang jauh lebih optimal untuk mengklasifikasikan prediksi Calon Nasabah potensial untuk di tawari produk lainya data set yang digunakan pada penelitian ini

Pada gambar 1 hasil akhir dari data ini berupa kumpulan data yang sudah bersih atau tidak missing valuenya.
Pengolahan data : dataset ini dalam tahap preprocessing harus melalui 3 proses, yaitu :

- Membuang duplikasi data
- Memeriksa data yang inkonsisten
- Memperbaiki kesalahan pada data.
Data testing yang digunakan AUC digunakan untuk mengukur kinerja diskriminatif dengan memperkirakan probbalitas output yang sudah di dapatkan hasilnya dari sampel yang sudah di pilih secara acak dari populasi positif atau negative semakin besar, nilai AUC, semakin kuat klasifikasi yang di hasilkan

Hasil dan pembahasan
Data yang digunakan dalam pengklasifikasian Calon Nasabah potensial terdiri dari 5.000 dataset 137, yang digunakan untuk data testing berdasarkan variabel yang tersedia. Klasifikasi dilakukan dengan menggunakan Software Rapidminer dengan versi 8 untuk mengolah data yang sudah di tentukan

Evaluasi dan validasi data
Validasi menggunakan 10 fold cross validation. Dimana dengan menggunakan teknik ini dengan membagi secara acak ke dalam tiap bagian dimana terdiri dari 10 bagian untuk setiap bagian akan dilakukan proses klasifikasi terlebih dahulu

Pada gambar 4 merupakan perhitungan accuracy data menggunakan algoritma Naïve Bayes. Diketahui data training terdiri dari 150 record data, 10 data di klasifikasikan LAKU ternyata TIDAK LAKU, 2 data diprediksi TIDAK LAKU dan benar-benar TIDAK LAKU, 129 di prediksikan LAKU ternyata benar-benar LAKU serta 8 data diprediksikan TIDAK LAKU ternyta LAKU.

Model yang dihasilkan pada Algoritma Naïve Bayes yang di hasilkan menggunakan Rapidminner, yaitu:

- Type Data :
Data yang digunakan pada penelitian ini merupakan data sekunder, karena sumber data di peroleh melalui media perantara atau secara tidak langsung berupa yang berupa buku, catatan, bukti yang telah tervalidasi atau arsip baik yang di
publikasikan maupun yang tidak di publikasikan secara umum yaitu 100 ribu data yang akan di pecah menjadi 80 persen data training dan 20 persen data testing.

- Atribut yang dimiliki :
dalam klasifikasi hanya terdapat satu atribut dari sekian banyaknya atribut yang bisa menjadi kemungkinan yang di sebut atribut target, sedangkan atribut lainya yang terdapat disebut atribut predictor.

- Type Atribut :
type ii dengan naive bayes berbasis particle swarm optimization.

- Dimensi :
dimensi data yang tinggi dan Data yang heterogen dan berbeda sifat satu dengan yang lainya, setiap metode tersebut memiliki algoritma – algoritma yang terbaik yang dapat di gunakan untuk memproses data set yang ada. Namun dalam Penelitian diharapkan dapat membangun sebuah sistem dalam mengestimasi jenis vitamin untuk meningkatkan penjualan pada bulan berikutnya yang sesuai dengan data-data penjualan sebelumnya sehingga jenis vitamin yang diminati oleh pelanggan benar-benar tersedia pada apotek tersebut sehingga dapat membantu apotek dalam meningkatkan omset penjualannya menggunakan algoritma Naïve Bayes. Dimensi yang ada pada gambar yaitu 5 dimensi.

- Preprocessing :
tahapan yang akan di lalui di bagi menjadi 3 yaitu preprocessing, seleksi fitur (Feature Selection) dan validation yang di dalamnya berisi sub proses training dan testing.

- Task Mining :
Assosiation, Klasifikasi dan Clustering. Assosiation memiliki definisi sebuah proses yang digunakan untuk menemukan suatu hubungan yang terdapat pada nilai atribut dari sekumpulan data yang dimiiki, sedangkan Klasifikasi adalah teknik yang dilakukan untuk memprediksi class atau properti dari setiap instance data, dan Clustering sendiri memliki makna pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sama sesuai dengan topik yang diangkat.
Data yang akan digunakan pada penelitian ini adalah 150 dataset. Penelitian ini di lakukan karena atas masalah mengetahi produk pada bulan sebelumnya agar dapat menentukan stok produk mana yang mesti di perbanyak menggunakan algoritma Naïve Bayes agar mengetahui nilai accuracy nya. sekitar 150 data yang telah diklasifikasikan berdasarkan variable yang ada.

Masalah yang harus dipecahkan pada penelitian kali ini adalah, bagaimana menghasilkan nilai accuracy yang jauh lebih optimal untuk mengklasifikasikan prediksi Calon Nasabah Potensial untuk ditawari produk lainnya.

Hasil :

PENERAPAN DATA MINING DENGAN METODE KALSIFIKASI MENGGUNAKAN DECISION TREE DAN REGRESI

Abstrak

Konversi Bahan Bakar Minyak (BBM) ke Bahan Bakar Gas (BBG) yang dilakukan pemerintah bermula atas melimpahnya gas di bumi Indonesia. kabupaten Cilacap melakukan survey terhadap masyarakat untuk menentukan masyarakat mana yang lebih diprioritaskan untuk mendapatkan bantuan pemberian kompor gas beserta tabungnya. Berdasarkan survey pada tahun 2010 di Kabupaten Cilacap Kecamatan Kroya terdapat 17 kelurahan dengan 28.131 data dengan 31 field atau kolom. Data diolah dengan beberapa tahapan yaitu : pengecekan data, integrasi data, target data, preprocessing, visualisasi, proses data mining, dan pengetahuan. Pada proses data mining dilakukan proses decision tree, regresi, dan k means untuk clustering yang ditampilkan dalam bentuk scatter plot. Berdasarkan decision tree maka diperoleh data kelurahan yang menjadi prioritas untuk diberi bantuan yaitu : Kelurahan Bajing Kulon, Kedawung, Pekuncen, dan Pesanggarahan. Atribut yang digunakan untuk proses regresi yaitu per kelurahan dengan variabel x yaitu pendidikan atau pekerjaan dan variabel y yaitu penghasilan.

Kata kunci: data mining, decision tree, regresi

Data yang digunakan

Ø Type data

Klasifikasi data mining adalah penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifiksi banyak digunakan untuk memprediksi kelas pada suatu label tertentu, yaitu dengan mengklasifikasi data (membangun model) berdasarkan training set dan nilai-nilai (label kelas) dalam mengklasifikasikan atribut tertentu dan menggunakannya dalam mengklasifikasikan data yang baru. Pohon keputusan biasanya digunakan untuk mendapatkan informasi untuk tujuan pengambilan sebuah keputusan. Pohon keputusan dimulai dengan sebuah root node (titik awal) yang digunakan oleh user untuk mengambil tindakan. Berdasarkan node root ini, user memecahkan leaf node sesuai dengan algoritma decision tree. Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat (dependen) dengan satu atau lebih variabel bebas (independen). Apabila banyaknya variabel bebas hanya ada satu, disebut sebagai regresi linier sederhana, sedangkan apabila terdapat lebih dari 1 variabel bebas, disebut sebagai regresi linier berganda.

Ø Atribut

Atribut yang digunakan untuk proses regresi yaitu per kelurahan dengan variabel x yaitu pendidikan atau pekerjaan dan variabel y yaitu penghasilan. Atribut Kategori, Kabupaten, Kecamatan, Pendidikan , Pekerjaan, Pengeluaran, Masak akan diubah menjadi numeric

Ø Type atribut

Tabel 1 Tabel Data Penduduk

Atribut	Keterangan
Kategori	Didalamnya mencakup data yang terdiri dari : Rumah Tangga tetap, Usaha Kecil Menengah (UKM), Rumah Tangga Musiman
Kelurahan	Mencakup 17 macam Kelurahan yang ada pada Kecamatan Kroya
Jenis Kelamin	Merupakan jenis kelamin penduduk yang bersangkutan
Pendidikan	Merupakan jenjang pendidikan akhir yang diselesaikan oleh penduduk yang bersangkutan
Pekerjaan	Jenis pekerjaan yang dilakoni oleh setiap penduduknya
Pengeluaran	Seberapa banyak pengeluaran yang dikeluarkan oleh setiap keluarga perbulannya
Jumlah Keluarga	Banyaknya jumlah anggota setiap keluarga
Masak	Dengan menggunakan apa setiap penduduknya memasak
Liter	Jumlah liter yang dihabiskan oleh penduduknya jika memasak dengan menggunakan kompor minyak
Rupiah	Jumlah pengeluaran untuk minyak tanah yang harus dibeli oleh penduduk yang memasak dengan menggunakan kompor minyak.

Ø - Dimensi

Preprocessing yang digunakan

Preprocess Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya. Tujuannya preprocessing dalam data mining adalah mentransformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, dengan indikator sebagai berikut :

· Mendapatkan hasil yang lebih akurat

· Pengurangan waktu komputasi untuk large scale problem

· Membuat nilai data menjadi lebih kecil tanpa merubah informasi yang dikandungnya.

· Terdapat beberapa metode yang digunakan untuk preprocessing seperti :

a. Sampling, menyeleksi subset representatif dari populasi data yang besar.

b. Diskretisasi, Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data numerik.

c. Remove missing

d. Continuize

e. Impute

f. Feature selection

Hasil yang diperoleh

Penelitian yang dilakukan melalui beberapa proses yaitu :

ü PreProcessing

PreProcessing yang dilakukan yaitu proses pembersihan data mengalami tiga tahap pembersihan yaitu: Incomplete, Noisy dan Inconsisten. Berikut dibawah ini penjelasan dan prosesnya.

· Incomplete Pada tahap ini, penulis membersihkan data berdasarkan data yang tidak lengkap atau data yang tidak terisi. Kesimpulan dari tahap ini adalah pembersihan data, dalam artian bahwa jika attribute data tersebut kosong atau tidak terdapat nilai didalamnya maka attribute data tersebut akan dihapus. Hal tersebut di atas dikarenakan penulis tidak memiliki data pendukung untuk mengisi attribute data yang kosong.

· Noisy dan Inkonsistensi Data Merupakan suatu data yang memiliki kelainan, hal ini dikarenakan karena kesalahan operator dalam memasukkan data kedalam database, permasalahan pada pentransmisian data, keterbatasan teknologi, atau tidak dilakukannya penyeragaman data, seperti data wilayah, jenis kelamin, dan lain sebagainya. Proses pembersihan data ini menggunakan suatu tools data mining yaitu Orange.

ü Pengubahan Data menjadi Numeric

Pada langkah selanjutnya data yang sudah dibersihkan akan diubah value nya menjadi bentuk numeric, hal ini dimaksudkan agar pengolahan data pada MatLab dapat lebih mudah dan cepat, karena MatLab hanya memproses data-data numeric.

ü Transformasi Data

Tahapan Transformasi data adalah pengubahan format data tersimpan menjadi bentuk standar format file yang sesuai dengan aplikasi yang akan digunakan. Pada penelitian kali ini, penulis menggunakan aplikasi MatLab untuk melakukan proses data mining dengan Proses Aturan Prediksi menggunakan Regresi Linear, aturan Klasifikasi menggunakan Decision Tree. Pengubahan atau Transformasi data ke dalam format file yang sesuai adalah mengubah format file data sebelumnya yang merupakan bentuk file Tab Delimited yaitu Text atau .txt menjadi bentuk .dat.

Penarikan Informasi

Berdasarkan hasil yang didapat pada 3 langkah data mining diatas, maka dapat ditarik beberapa kesimpulan atau informasi yang dapat dijadikan pengetahuan untuk diambil suatu keputusan, informasi tersebut dapat dijabarkan sebagai berikut.

1. Klasifikasi dengan Pohon Keputusan/Decision Tree. Berdasarkan proses software Orange dengan menggunakan widget Classification Tree Viewer dan Classification Tree Graph bahwa keputusan yang dapat diambil oleh kepala kecamatan tentang kelurahan yang akan diberikan bantuan dengan skala prioritas adalah Kelurahan Bajing Kulon, Kedawung, Pekuncen, Pesanggarahan dan seterusnya.

2. Klasifikasi dengan Regresi Linear Untuk mendapatkan informasi yang dibutuhkan dalam pengambilan keputusan dengan menggunakan Regresi Linear maka data yang ada yaitu data Pada Kecamatan Kroya dengan 17 kelurahannya harus di pecah menjadi data per kelurahan saja. Data per Kelurahan inilah nantinya akan dihitung dengan regresi linear pada Aplikasi Data Mining yang Peneliti rancang, yang kemudian hasil dari proses tersebut satu per satu Kelurahan yang ada di Kecamatan Kroya akan dibandingan secara keseluruhan. Hasil dari regresi linear ini adalah mencari nilai dari Variabel Y terkecil di kelurahan yang ada.

Tools / Aplikasi yang digunakan

Pada tahap ini proses pembersihan data dan pengintegrasian data menggunakan dua tools yaitu, Microsoft Excell dan Orange.

Pada penelitian kali ini, penulis menggunakan aplikasi MatLab untuk melakukan proses data mining dengan Proses Aturan Prediksi menggunakan Regresi Linear, aturan Klasifikasi menggunakan Decision Tree. Pengubahan atau Transformasi data ke dalam format file yang sesuai adalah mengubah format file data sebelumnya yang merupakan bentuk file Tab Delimited yaitu Text atau .txt menjadi bentuk .dat.

Proses Aplikasi Prediksi pada Klasifikasi dengan Rumus Regresi linear untuk menentukan mana kelurahan yang memiliki prioritas untuk diberikan bantuan dari 17 kelurahan yang ada di kecamatan kroya

Kesimpulan

Dapat disimpulkan bahwa dengan menggunakan decision tree prioritas kelurahan yang dapat diberi bantuan yaitu: Kelurahan Bajing Kulon, Kedawung, Pekuncen, dan Pesanggarahan.

Proses pada regresi berdasarkan per kelurahan dengan atribut untuk variabel x adalah pekerjaan atau pendidikan dan atribut untuk variabel y adalah penghasilan.

Terlepas dari penjelasan pada paragraph di atas, Peneliti sadari masih banyak kekurangan dalam penelitian ini, hal ini dikarenakan karena variable data yang terlalu luas dan proses pembersihan data yang memakan waktu lama, sehingga pemilihan proses data mining dengan penggunaan algoritma yang diterapkan mungkin memiliki kelemahan dalam keakuratan hasil data yang ada, tetapi hasil yang didapatkan tidak mengurangi keakuratan algoritma atau rumus yang diterapkan

Referensi :

https://ejournal.upbatam.ac.id/index.php/jif/article/view/3755/2062

https://jurnal.umj.ac.id/index.php/jurtek/article/download/364/337

https://media.neliti.com/media/publications/224659-penggunaan-data-mining-dalam-kegiatan-si-f3afe53d.pdf

https://ejournal.bsi.ac.id/ejurnal/index.php/ji/article/view/6203

https://jurnal.umj.ac.id/index.php/jurtek/article/download/364/337