Artikel

Masyarakat Linguistik Komputasional inginkan korpus bahasa Indonesia

Oleh Dyah Sulistyorini *)

Masyarakat Linguistik Komputasional inginkan korpus bahasa Indonesia

Perum LKBN ANTARA memberikan cinderamata berupa buku "80" kepada Masyarakat Lingustik Komputasional Indonesia (MALKIN) saat workshop ke-5 di Jakarta, Kamis 18 Juli 2019. (ANTARA/Dyah Sulistyorini)

Jakarta (ANTARA) - Masyarakat Linguistik Komputasional Indonesia (MALKIN) menginginkan terwujudnya Korpus Bahasa Indonesia untuk menjamin ketersediaan sumber data penelitian bidang Natural Language Processing atau Pengolahan Bahasa Alami (PBA).

Korpus adalah kumpulan dokumen teks yang dijadikan sebagai data set standar bagi para peneliti Pengolahan Bahasa Alami tersebut.

Semangat mewujudkan Korpus Bahasa Indonesia dipertegas dengan workshop ke-5 MALKIN atau Association for Computational Linguistics/INACL.

Workshop MALKIN ke-5 tahun 2019 mengusung tema "Pembangunan Korpus Bahasa Indonesia."

MALKIN memiliki agenda tahunan yang digagas sejak 2015 sebagai wadah berbagi hasil penelitian di bidang komputasi linguistik.

Kali ini MALKIN bekerja sama dengan Fakultas Teknologi Industri Universitas Trisakti untuk pelaksanaan workshop pada hari Kamis 18 Juli 2019 di kampus A UniversitasTrisakti, Jakarta.

Workshop ke-5 ini bertujuan untuk mengatur dan mendukung koordinasi nasional untuk mengembangkan sumberdaya data bahasa tulis. Acara ini sekaligus sebagai wahana berbagi metodologi maupun teknologi pengolahan dokumen teks, terutama yang ditulis menggunakan bahasa Indonesia.

Hadir sebagai narasumber adalah Kepala Pusat Pengembangan dan Perlindungan Bahasa dan Sastra Badan Pengembangan Bahasa dan Perbukuan Kementerian Pendidikan dan Kebudayaan. Selain itu dua pembicara lainnya adalah dari Perum LKBN ANTARA dan seorang pakar Teknik Informatika, Fakultas Teknik, Universitas Islam Riau, Dr Arbi Haza Nasution.

Kegiatan ini terbuka untuk dosen, peneliti, praktisi, dan seluruh mahasiswa di Indonesia yang tertarik di bidang Pengolahan Bahasa Alami.

Istilah Pengolahan Bahasa Alami (PBA) tidak terlepas dari ilmu kecerdasan buatan atau artifisial intelegensia (AI) yang telah ada sejak awal perkembangan teknologi komputer di tahun 1950-an, terutama untuk pengolahan bahasa Inggris dan bahasa-bahasa Eropa. Sistem seperti ini umumnya dianggap komputer. Kecerdasan diciptakan dan dimasukkan ke dalam suatu mesin agar dapat melakukan pekerjaan seperti yang dapat dilakukan manusia.

Bahasa memang berfungsi sebagai alat refleksi dan ekspresi terhadap nilai budaya masyarakat. Melalui bahasa pula manusia memperbarui proses berfikir dan secara simultan teknologi berperan besar memperbaiki kualitas dan kuantitas pengembangan bahasa.

Melalui Pengolahan Bahasa Alami dimungkinkan adanya inovasi untuk meningkatkan perolehan informasi (information retrieval) yang berguna untuk kesejahteraan manusia.

Apabila perolehan informasi makin canggih melalui pengorganisasian, representasi, penyimpanan, dan pencarian informasi berbentuk teks dan multimedia, maka dapat dibayangkan kecepatan pertumbuhan ilmu pengetahuan dan teknologi. Ilmu pengetahuan dan teknologi adalah unsur penting pembentuk budaya manusia.

Linguistik komputasional mempelajari cara memodelkan bahasa manusia dalam representasi aturan formal. Model-model itu lalu diimplementasikan sebagai perangkat lunak yang dapat memproses artefak bahasa, baik itu ucapan, kalimat, naskah dokumen dan lain sebagainya.

Berikut ini beberapa contoh penelitian terkait linguistik komputasional seperti tercantum pada Jurnal Linguistik Komputasional http://inacl.id/journal/index.php/jlk/issue/view/3.

Contoh pertama adalah makalah berjudul Identifikasi Konten Kasar Pada Tweet Bahasa Indonesia oleh Ahmad Fathan Hidayatullah, Aufa Aulia Fadila, Kiki Purnama Juwairi, Royan Abida Nayoan.

Contoh selanjutnya adalah Analisis Morfologi untuk Menangani Out-of-Vocabulary Words pada Part-of-Speech Tagger Bahasa Indonesia Menggunakan Hidden Markov Model oleh Febyana Ramadhanti, Yudi Wibisono, Rosa Ariani Sukamto.

Contoh lain penelitian tentang lingustik komputasional adalah Sistem Identifikasi Bahasa Jawa dan Bahasa Indonesia Dokumen Teks Berbasis N-Gram Karakter oleh Lucia Dwi Krisnawati, Fidelia Vera Sentosa, Aditya Wikan Mahastama.

Para pengiat linguistik komputasional akan mengembangkan berbagai algoritme dan metode mengolah korpus untuk memperbaiki metode-metode yang dikembangkan para peneliti sebelumnya.

Untuk kasus di Indonesia sayangnya sumberdaya data penelitian berbahasa Indonesia masih terbatas. Hal ini seperti diutarakan oleh ketua panitia workshop ke-5 MALKIN yang sekaligus bertindak sebagai Ketua Jurusan Teknik Informatika Fakultas Teknologi Industri Universitas Trisakti, Jakarta Anung B. Ariwibowo

Menurut Anung B. Ariwibowo, korpus Bahasa Indonesia yang menjadi data set standar memang belum banyak, atau bisa dikatakan belum ada.

“Pegiat Pengelolaan Bahasa Alami di Indonesia perlu memiliki dan membangun korpus agar dapat digunakan secara bersama-sama untuk mengembangkan metode-metode dan algoritme-algoritme pengolahan bahasa Indonesia,” kata Anung.

Perlu kolaborasi yang sistematis antar perguruan tinggi di Indonesia dengan berbagai institusi terkait untuk membangun metodologi umum dan deskripsi kinerja agar citaa-cita tersebut segera terlaksana.

Memang workshop ke-5 MALKIN ini masih dalam tahap peletakan dasar untuk membangun kesadaran tentang betapa pentingnya membangun Korpus Bahasa Indonesia.

Membangun korpus Bahasa Indonesia artinya memberikan kebebasan bagi peneliti dan akademisi untuk mengeksplorasi aset budaya yang penting tersebut, di tengah kemajuan pesat pengolahan bahasa alami secara digital.

Namun sayang pada tataran praktiknya, para ilmuwan bidang lingustik komputasional masih mengumpulkan korpus-korpus kecil yang selama ini digunakan oleh peneliti masing-masing. Padahal sumber daya besar dan urgensi sudah di depan mata yang dapat didobrak melalui sinergi dan kolaborasi.

Semoga korpus Bahasa Indonesia segera terwujud. Kita berharap agar industri dan akademisi mampu bergandengan tangan, bersinergi membangun korpus Bahasa Indonesia sekaligus mengembangkan serta memanfaatkannya secara bersama-sama, demi kedaulatan budaya dan kedaulatan teknologi Indonesia.

*) Dyah Sulistyorini adalah Manajer Riset dan Pengelolaan Data Informasi Perusahaan – Divisi Manstrat dan Riset Perusahaan, Perum LKBN ANTARA

Baca juga: Internet telah mengubah cara berbahasa tulis

Baca juga: Identitas diri diperlukan wujudkan manusia unggul

Oleh Dyah Sulistyorini *)
Editor: Zita Meirina
COPYRIGHT © ANTARA 2019

Komentar menjadi tanggung jawab anda sesuai UU ITE

Komentar