Techtalk BSI UII: Code-Mixed Text Processing

Techtalk Spesial Badan Sistem Informasi kali ini menghadirkan Bapak Ahmad Fathan Hidayatullah, S.T., M.Cs. yang mengulas tentang “Code-Mixed Text Processing: Problem & Challenges“. Acara ini diselenggarakan pada tanggal 4 Safar 1444 H/1 September 2022 secara hybrid (daring dan luring). Acara secara luring diselenggarakan di Gedung Theatrikal Kampus Terpadu UII yang dihadiri oleh member BSI dan Kadiv TI dari seluruh Fakultas di lingkungan Universitas Islam Indonesia. Techtalk kali ini juga diselenggarakan secara daring melalui live streaming di kanal Youtube Badan Sistem Informasi UII.

Bapak Fathan memulai pemaparan materi dengan menyampaikan refleksi Q.S Ar-Rum ayat 22 yang artinya: “Dan di antara tanda-tanda (kebesaran)-Nya ialah penciptaan langit dan bumi, perbedaan bahasamu dan warna kulitmu. Sungguh, pada yang demikian itu benar-benar terdapat tanda-tanda bagi orang-orang yang mengetahui.” Dari ayat tersebut kita bisa mengetahui bahwa Allah SWT menciptakan manusia dengan berbagai keragaman budaya, keragaman bahasa, dan keragaman potensi lainnya. Keragaman bahasa tersebut erat kaitannya dengan Natural Language Processing (NLP).

Banyak dari kita, tanpa sadar menggunakan perpaduan dua bahasa atau lebih saat berkomunikasi dengan orang lain. Kita bisa menyebut fenomena ini dengan istilah code-mixing. Yang mana code berarti bahasa dan mixing artinya percampuran. Masyarakat Indonesia terkadang mencampurkan bahasa daerah, bahasa indonesia dan bahasa inggris. Fenomena ini terjadi tidak hanya di Indonesia.

Code-Mixing telah menjadi sebuah fenomena global yang terjadi di banyak negara. Hal ini dapat terjadi karena latar belakang multilingual dan multicultural masyarakatnya. Manusia juga cenderung menggunakan kata-kata yang familiar dan mudah untuk digunakan.

Berikut ini adalah beberapa tipe code-mixing:

  • Intra-sentential: memadukan 2 bahasa atau lebih dalam sebuah kalimat.
  • Intra-word: memadukan 2 bahasa atau lebih dalam sebuah kata.
  • Inter-sentential: memadukan 2 bahasa atau lebih antara kalimat satu dengan kalimat yang lain.

Mengapa riset tentang code-mixing penting di NLP?

  • Code-mixing ada di mana-mana
  • Sebagian besar sistem yang ada saat ini, hanya dapat memproses satu macam bahasa saja
  • Terbatasnya resources yang terdokumentasi dan bisa diteliti

 

Siarang ulang acara Techtalk “Code-Mixed Text Processing” dapat diakses melalui link Youtube berikut ini: