KERANGKA KERJA TOKENISASI BERDASARKAN STRUKTUR KALIMAT BAHASA INDONESIA

PETRUS, JOHANNES and Ermatita, Ermatita and Sukemi, Sukemi and Erwin, Erwin (2023) KERANGKA KERJA TOKENISASI BERDASARKAN STRUKTUR KALIMAT BAHASA INDONESIA. Doctoral thesis, Universitas Sriwijaya.

[thumbnail of RAMA_21001_03043621924006.pdf] Text
RAMA_21001_03043621924006.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (23MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_TURNITIN.pdf] Text
RAMA_21001_03043621924006_TURNITIN.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (31MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_01_front_ref.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_01_front_ref.pdf - Accepted Version
Available under License Creative Commons Public Domain Dedication.

Download (4MB)
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_02.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_02.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_03.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_03.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_04.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_04.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_05.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_05.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (2MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_06.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_06.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_07.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_07.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (572kB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_08_ref.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_08_ref.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (2MB) | Request a copy
[thumbnail of RAMA_21001_03043621924006_0013096707_0003126604_0029017101_09_lamp.pdf] Text
RAMA_21001_03043621924006_0013096707_0003126604_0029017101_09_lamp.pdf - Accepted Version
Restricted to Repository staff only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy

Abstract

Penelitian ini bertujuan untuk membangun sebuah kerangka kerja tokenisasi berdasarkan struktur kalimat bahasa Indonesia. Tokenisasi akan menghasilkan token baik berupa kata tunggal maupun multi kata, yang berbeda dengan konsep tokenisasi umum yang hanya menghasilkan token kata tunggal saja. Untuk menghasilkan token seperti diatas, Penelitian Disertasi ini menggunakan metode ekstraksi struktur kalimat yang menghasilkan fungsi-fungsi kalimat sebagai sebuah token. Metode ini merupakan hal yang baru karena sejauh yang penulis ketahui proses ekspresi multi kata (multi word expression) menggunakan metode statistik, linguistik, kamus dan jaringan neural. Hasil ekstraksi struktur kalimat berupa unsur fungsi kalimat seperti Subjek, Predikat, Objek, Pelengkap dan Keterangan. Sebuah kalimat minimal terdiri dari Subjek dan Predikat. Masing-masing fungsi kalimat dapat berupa sebuah kata atau gabungan beberapa kata. Gabungan beberapa kata tersebut dapat menjadi token multi kata Penelitian ini menerapkan pembelajaran mesin untuk melakukan ekstraksi struktur kalimat, dengan terlebih dahulu membangun sebuah dataset struktur kalimat bahasa Indonesia. Ekstraksi struktur kalimat dalam penelitian ini hanya dilakukan terhadap kalimat tunggal dan berjenis kalimat aktif. Dalam percobaan mengekstrak struktur dari 100 kalimat dan membandingkan token yang diprediksi dengan token yang seharusnya, diperoleh nilai Precision sebesar 0,92 dan nilai Recall sebesar 0,86. Kata Kunci : Kerangka Kerja, Multi Kata, Segmentasi Kalimat, Struktur Kalimat, Token.

Item Type: Thesis (Doctoral)
Uncontrolled Keywords: Kerangka Kerja, Multi Kata, Segmentasi Kalimat, Struktur Kalimat, Token.
Subjects: Q Science > Q Science (General) > Q334-342 Computer science. Artificial intelligence. Algorithms. Robotics. Automation.
Divisions: 03-Faculty of Engineering > 21001-Engineering Science (S3)
Depositing User: Johannes Petrus
Date Deposited: 10 Aug 2023 06:27
Last Modified: 10 Aug 2023 06:27
URI: http://repository.unsri.ac.id/id/eprint/126809

Actions (login required)

View Item View Item