MODEL DALAM MENGATASI MASALAH DUPLIKASI PADA BASIS DATA RISET MENGGUNAKAN PENDEKATAN THRESHOLD-BASED DAN RULE-BASED

AMIN, M. MIFTAKUL and Stiawan, Deris and Ermatita, Ermatita (2024) MODEL DALAM MENGATASI MASALAH DUPLIKASI PADA BASIS DATA RISET MENGGUNAKAN PENDEKATAN THRESHOLD-BASED DAN RULE-BASED. Doctoral thesis, Sriwijaya University.

[thumbnail of RAMA_21001_03013622025004.pdf] Text
RAMA_21001_03013622025004.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (5MB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_TURNITIN.pdf] Text
RAMA_21001_03013622025004_TURNITIN.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (17MB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_01_front_ref.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_01_front_ref.pdf - Accepted Version
Available under License Creative Commons Public Domain Dedication.

Download (1MB)
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_02.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_02.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_03.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_03.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (494kB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_04.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_04.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_05.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_05.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (192kB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_06_ref.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_06_ref.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (344kB) | Request a copy
[thumbnail of RAMA_21001_03013622025004_0003047905_0013096707_07_lamp.pdf] Text
RAMA_21001_03013622025004_0003047905_0013096707_07_lamp.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (4MB) | Request a copy

Abstract

Basis data riset dalam pangkalan data SINTA berasal dari beberapa sumber seperti Google Scholar, Scopus, dan Web of Science. Namun demikian masih terdapat duplikasi data yang secara logika merujuk pada entitas yang sama, sehingga mengurangi kualitas data yang terdapat di dalamnya. Tidak selalu adanya informasi yang unik seperti primary key atau unique identifier dalam basis data riset mengakibatkan terjadi duplikasi. Dalam basis data yang besar, duplikasi ini sulit untuk dideteksi. Duplikasi data ini menjadikan beberapa perhitungan produktifitas publikasi ilmiah menjadi kurang valid, seperti perhitungan impact factor (IF) pada level jurnal dan h-index pada level author, dan beberapa perhitungan sejenis dengan memanfaatkan basis data riset sebagai sumber datanya. Dalam penelitian ini konsep entity matching dapat dijadikan sebagai salah satu pendekatan untuk mengatasi terjadinya duplikasi pada basis data riset. Ditinjau dari aspek teknis, pemrosesan entity matching pada umumnya bersifat manual dan menyita waktu, rentan terjadi error, dan tidak relevan diaplikasikan pada jumlah data yang besar, sehingga diperlukan pendekatan yang bersifat semi-otomatis untuk meningkatkan kinerja matching. Pada penelitian ini menggunakan pendekatan metode threshold-based dan rule-based. Dengan menambahkan rule dapat meningkatkan hasil deteksi yang dilakukan oleh metode threshold-based dan memberikan hasil yang lebih optimal. Penelitian ini diawali dengan meninjau beberapa pendekatan yang sudah pernah dilakukan oleh para peneliti pada bidang entity matching dan deteksi duplikasi, kemudian dilanjutkan dengan mengidentifikasi beberapa karakteristik yang dapat meningkatkan kinerja entity matching, selanjutnya melakukan studi perbandingan dalam proses entity matching yang diaplikasikan pada basis data riset. Hasil penelitian ini menyajikan beberapa evaluasi kinerja model yang menunjukkan bahwa penggunaan threshold dalam pembentukan rule menghasilkan kinerja yang lebih baik, dibandingkan menggunakan threshold saja. Pada dataset Wos rule 4 dan rule 5 yang dibentuk memberikan hasil kinerja terbaik dengan nilai 100,00% untuk accuracy, precision, recall, dan F1-measure. Pada dataset scopus rule 4 dan rule 5 menghasilkan nilai 100,00% untuk accuracy dan precision, sedangkan nilai 96,00% dan 98,00% untuk nilai recall dan F1-measure. Pada dataset google scholar untuk rule 4 dan rule 5, nilai accuracy sebesar 100,00%, nilai precision 96,00%. Nilai recall untuk rule 4 sebesar 96,00% dan sebesar 97,00% untuk F1-measure. Nilai F1-measure untuk rule 4 sebesar 97,00% dan rule 5 sebesar 98,00%.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: deteksi duplikasi, duplikasi, basis data riset
Subjects: Q Science > Q Science (General) > Q1-390 Science (General) > Q223.M517 Science -- Information services. Information storage and retrieval systems --Science.
Divisions: 03-Faculty of Engineering > 21001-Engineering Science (S3)
Depositing User: M MIFTAKUL AMIN
Date Deposited: 03 Apr 2024 07:30
Last Modified: 03 Apr 2024 07:30
URI: http://repository.unsri.ac.id/id/eprint/143109

Actions (login required)

View Item View Item