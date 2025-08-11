Sembilan tahun lalu, CEO Google Sundar Pichai berjanji bahwa kecerdasan buatan akan membuat informasi “dapat diakses secara universal” oleh semua orang, tanpa memandang bahasa.

Ia terus mengulang janji itu sejak saat itu, membangun ekspektasi di seluruh dunia bahwa teknologi akhirnya akan menjembatani kesenjangan bahasa dan memberi akses pengetahuan yang setara untuk semua.

Namun, bagi mereka yang berbicara dalam lebih dari 2.000 bahasa Afrika, janji itu masih terasa jauh.

Jutaan orang di benua ini masih mendapati bahwa alat AI canggih yang mengubah sektor pertanian, pendidikan, dan kehidupan sehari-hari tidak mampu memahami atau berkomunikasi dalam bahasa mereka sendiri.

Menurut penelitian, ChatGPT—yang memiliki 800 juta pengguna aktif mingguan di seluruh dunia—hanya mengenali 10 hingga 20 persen kalimat dalam bahasa Hausa, yang digunakan oleh lebih dari 94 juta orang Nigeria.

Hal yang sama berlaku untuk bahasa Afrika lain yang banyak digunakan seperti Yoruba, Igbo, Swahili, dan Somalia, yang semuanya tetap sangat kurang terwakili dalam model AI arus utama meski memiliki puluhan juta penutur.

Lalu mengapa begitu banyak bahasa Afrika diabaikan oleh alat AI paling canggih saat ini dan apa yang hal itu ungkapkan tentang siapa yang berhak membentuk masa depan digital?

Bahasa ‘sumber daya rendah’

Salah satu alasan utama pengecualian bahasa Afrika dalam AI adalah apa yang disebut peneliti sebagai masalah “sumber daya rendah” (low-resource).

Dalam konteks ini, “sumber daya rendah” merujuk pada kelangkaan materi daring seperti situs web, buku, dan transkrip dalam bahasa tersebut.

Karena sebagian besar model bahasa besar (LLM) bergantung pada volume data digital yang sangat besar untuk belajar dan menghasilkan teks, mayoritas data ini tersedia dalam bahasa Inggris (high-resource) atau segelintir bahasa global lain yang banyak digunakan di Barat.

“Ukuran kemajuan dan agenda riset kita didasarkan pada apa yang berhasil untuk bahasa Barat,” kata Hellina Hailu Nigatu, peneliti NLP yang fokus pada bahasa sumber daya rendah di University of California, Berkeley.

Kurangnya data pelatihan membuat model AI seperti ChatGPT atau Gemini kesulitan mengenali, menghasilkan, atau bahkan “melihat” bahasa Afrika secara bermakna, berapa pun jumlah penuturnya.

“Bahasa Afrika dikategorikan sebagai ‘sumber daya rendah’ dan biasanya dikecualikan, atau jika pun dimasukkan, kinerjanya buruk,” ujarnya kepada TRT World.

Klasifikasi yang membagi bahasa dunia menjadi kategori “sumber daya tinggi” dan “sumber daya rendah” ini telah menjadi kerangka utama industri dalam membicarakan kesenjangan tersebut.

Insentif komersial, bias sistemik, dan masalah biaya

Alasan lain kurangnya representasi adalah prioritas riset dan pengembangan AI global.

Penelitian menunjukkan keluaran model bahasa besar cenderung mengikuti “stereotip Barat”.

Standar ditetapkan oleh perusahaan teknologi dan institusi akademik Barat yang fokus pada bahasa dengan jejak digital terbesar dan pendanaan terbanyak—yang umumnya mengarah pada sekelompok kecil bahasa “sumber daya tinggi”.

Akibatnya, bahasa Afrika jarang diprioritaskan untuk investasi atau inovasi.

Insentif komersial juga berperan besar. Karena potensi keuntungan langsung dari pasar bahasa Afrika terbatas, perusahaan tidak terdorong untuk mengalokasikan waktu dan sumber daya dalam meningkatkan dukungan AI untuk bahasa-bahasa ini.

Bias struktural ini diperkuat oleh dataset yang digunakan untuk melatih model AI.

Bahkan ketika bahasa Afrika disertakan, sistem sering mengadopsi asumsi budaya Barat, terkadang salah merepresentasikan konteks lokal atau memperkuat stereotip.

Temuan ini sejalan dengan riset yang lebih luas soal bias algoritmik.

“Yang kita lihat dalam penelitian adalah bahwa mengadopsi LLM untuk berbagai bahasa tanpa pertimbangan matang berisiko mengimpor bias dari bahasa Inggris ke konteks multibahasa, atau mengabaikan bias kontekstual yang tidak ada dalam bahasa Inggris,” kata Nigatu.

Ada juga tantangan teknis dalam cara model AI memproses teks, yang menempatkan banyak bahasa Afrika pada posisi yang lebih sulit.