Ringkasan Artikel
“Benchmark AI selama ini mengukur performa model secara terisolasi — padahal AI nyata beroperasi dalam tim dan organisasi yang kompleks. Profesor UCL Angela Aristidou memperkenalkan kerangka HAIC Benchmarks yang lebih relevan: evaluasi berbasis konteks, tim, dan jangka panjang. Pelajari mengapa pendekatan baru ini krusial untuk adopsi AI yang bertanggung jawab di dunia nyata.”
1. Ilusi Benchmark: Ketika Skor Tinggi Tidak Bermakna di Dunia Nyata #
Selama puluhan tahun, dunia kecerdasan buatan membangun standar keberhasilannya di atas satu fondasi yang tampak kokoh: perbandingan antara mesin dan manusia dalam tugas-tugas tertentu yang memiliki jawaban benar dan salah yang jelas. Catur, matematika olimpiade, penulisan kode program, hingga penyusunan esai akademik — semuanya dijadikan arena pembuktian kemampuan AI terhadap kapasitas individual manusia.
Pendekatan ini memang memiliki daya tarik yang sulit ditolak. Perbandingan AI versus manusia pada masalah-masalah terisolasi sangat mudah untuk distandarisasi, dibandingkan, dan dioptimalkan. Ia menghasilkan peringkat yang rapi, angka-angka yang mengesankan, dan judul-judul berita yang menarik perhatian publik maupun investor.
Namun di balik kesederhanaan yang menggoda ini, tersembunyi sebuah permasalahan mendasar yang semakin tidak bisa diabaikan: AI hampir tidak pernah digunakan dengan cara yang sama seperti saat ia diuji dan dibenchmark. Meskipun para peneliti dan industri sudah mulai bergerak ke arah metode evaluasi yang lebih dinamis untuk menggantikan uji statis konvensional, inovasi-inovasi tersebut baru menyelesaikan sebagian kecil dari masalah. Sebab evaluasi tetap dilakukan di luar konteks tim manusia dan alur kerja organisasi nyata — padahal di situlah performa AI yang sesungguhnya akan ditentukan.
2. Kesenjangan Antara Uji Lab dan Realitas Lapangan #
Kenyataannya, AI dievaluasi pada tingkat tugas individual dalam kondisi terkontrol dan terisolasi. Namun dalam penggunaan sebenarnya, AI beroperasi di lingkungan yang jauh lebih berantakan dan kompleks — lingkungan di mana ia hampir selalu berinteraksi dengan lebih dari satu orang, dan di mana dampak nyatanya baru terlihat setelah periode penggunaan yang panjang.
Bagi pemerintah maupun dunia bisnis, skor benchmark AI tampak lebih objektif dan dapat diandalkan dibandingkan sekadar klaim dari para vendor teknologi. Skor-skor ini menjadi acuan penting dalam menentukan apakah sebuah model atau aplikasi AI sudah "cukup baik" untuk diterapkan di dunia nyata.
Bayangkan sebuah model AI yang meraih skor teknis yang luar biasa impresif pada benchmark mutakhir — akurasi 98 persen, kecepatan pemrosesan yang memecahkan rekor, output yang meyakinkan. Berdasarkan kinerja mengagumkan ini, sebuah organisasi memutuskan untuk mengadopsi model tersebut, mengalokasikan sumber daya finansial dan teknis yang tidak sedikit untuk pembelian dan integrasinya ke dalam sistem yang ada.
Namun begitu model tersebut benar-benar diimplementasikan, jurang antara performa saat benchmark dan performa di dunia nyata dengan cepat menjadi tampak jelas. Aristidou mendokumentasikan hal ini secara langsung di unit-unit radiologi rumah sakit, mulai dari jantung California hingga pinggiran London. Di sana, ia menyaksikan para staf medis menggunakan aplikasi AI radiologi berperingkat tinggi yang disetujui FDA. Berkali-kali, staf tersebut justru membutuhkan waktu lebih lama untuk menginterpretasikan output AI — karena harus menyesuaikannya dengan standar pelaporan spesifik rumah sakit dan persyaratan regulasi yang berbeda-beda di setiap negara. Alat yang dalam kondisi terisolasi tampak meningkatkan produktivitas, dalam praktik justru menimbulkan penundaan.
Masalah intinya segera menjadi jelas: uji benchmark yang menjadi dasar penilaian model AI medis sama sekali tidak menangkap bagaimana keputusan medis sesungguhnya dibuat. Rumah sakit bergantung pada tim multidisiplin — ahli radiologi, onkolog, fisikawan medis, perawat — yang secara bersama-sama meninjau kondisi pasien. Perencanaan pengobatan jarang bergantung pada satu keputusan statis; ia berkembang seiring munculnya informasi baru selama beberapa hari atau minggu. Keputusan sering kali lahir dari perdebatan konstruktif dan kompromi antara standar profesional, preferensi pasien, dan tujuan bersama demi kesejahteraan pasien jangka panjang.
Tidak mengherankan bahwa bahkan model AI dengan skor tertinggi pun kesulitan memberikan performa yang dijanjikan begitu mereka berhadapan dengan proses perawatan klinis nyata yang kompleks dan kolaboratif.
3. "Kuburan AI": Biaya Nyata dari Benchmark yang Keliru #
Ketika skor benchmark yang tinggi gagal diterjemahkan menjadi performa nyata di lapangan, bahkan AI dengan nilai tertinggi pun akhirnya ditinggalkan dan masuk ke dalam apa yang Aristidou sebut sebagai "AI graveyard" — kuburan AI.
Biaya dari fenomena ini sangat signifikan dan nyata. Waktu, tenaga, dan uang yang sudah diinvestasikan untuk pembelian, integrasi, dan pelatihan penggunaan teknologi tersebut terbuang sia-sia tanpa menghasilkan nilai yang dijanjikan. Namun dampaknya tidak berhenti di sana.
Seiring berjalannya waktu, pengalaman kegagalan yang berulang seperti ini secara perlahan mengikis kepercayaan organisasi terhadap AI secara keseluruhan. Dan di bidang-bidang kritis seperti layanan kesehatan, erosi kepercayaan ini bahkan dapat merembet lebih jauh — menggerus kepercayaan publik yang lebih luas terhadap teknologi AI, dengan konsekuensi yang sulit untuk diperbaiki dalam jangka pendek.
4. Titik Buta Regulasi dan Risiko Sistemik #
Ketika benchmark yang ada hanya memberikan sinyal yang sebagian dan berpotensi menyesatkan mengenai kesiapan sebuah model AI untuk digunakan di dunia nyata, hal ini menciptakan titik-titik buta regulasi yang berbahaya. Pengawasan dan kebijakan dibentuk berdasarkan metrik yang tidak mencerminkan realitas operasional yang sesungguhnya.
Konsekuensinya, organisasi dan pemerintah terpaksa menanggung sendiri risiko pengujian AI di lingkungan nyata yang sensitif — sering kali dengan sumber daya dan dukungan yang sangat terbatas. Ini menempatkan beban yang tidak proporsional pada pihak-pihak yang justru paling membutuhkan perlindungan dari kegagalan teknologi.
Pola yang sama ini, tegas Aristidou berdasarkan risetnya, muncul secara konsisten di berbagai sektor yang ia teliti — dari layanan kesehatan hingga sektor kemanusiaan, dari lembaga pendidikan tinggi hingga organisasi nirlaba.
5. Mengenal HAIC: Kerangka Evaluasi Baru yang Lebih Relevan #
Untuk menjembatani kesenjangan antara performa benchmark dan performa nyata, Aristidou mengusulkan pendekatan yang ia sebut sebagai HAIC Benchmarks — Human-AI, Context-Specific Evaluation atau Evaluasi Berbasis Konteks Manusia-AI.
Usulan ini lahir dari penelitian lapangan intensif yang ia lakukan sejak 2022, mencakup usaha kecil dan menengah, organisasi di bidang kesehatan, kemanusiaan, nirlaba, serta pendidikan tinggi di Inggris, Amerika Serikat, dan Asia. Aristidou juga meneliti ekosistem desain AI terkemuka di London dan Silicon Valley.
Inti dari pendekatan HAIC adalah pergeseran fundamental dari pertanyaan "Apa yang bisa dilakukan AI secara individual?" menjadi pertanyaan yang jauh lebih relevan: "Apa yang AI perkuat — atau justru lemahkan — ketika manusia dan tim di dunia nyata bekerja bersamanya?" Ini bukan sekadar penyempurnaan metodologi, melainkan perubahan paradigma menyeluruh dalam cara kita memahami dan mengukur nilai AI.
6. Empat Pergeseran Fundamental dalam HAIC Benchmarking #
Aristidou merumuskan empat dimensi pergeseran yang menjadi fondasi dari HAIC benchmarking:
Pergeseran Pertama — Unit Analisis: dari performa individual pada tugas tunggal, beralih ke performa tim dan alur kerja secara keseluruhan. Pertanyaannya bukan lagi "apakah AI ini akurat?" melainkan "apakah kehadiran AI meningkatkan kualitas koordinasi dan pengambilan keputusan tim secara kolektif?"
Pergeseran Kedua — Cakupan Waktu: dari pengujian satu kali dengan jawaban benar atau salah, beralih ke evaluasi dampak jangka panjang yang berlangsung selama berbulan-bulan atau bahkan bertahun-tahun. Kompetensi sejati, baik pada manusia maupun AI, hanya terungkap dalam rentang waktu yang memadai.
Pergeseran Ketiga — Ukuran Keberhasilan: dari sekadar ketepatan dan kecepatan, beralih ke hasil organisasional yang lebih luas, mencakup kualitas koordinasi antar anggota tim, kemampuan mendeteksi dan mengoreksi kesalahan AI, serta dampak terhadap budaya kerja dan praktik manajemen risiko.
Pergeseran Keempat — Ruang Lingkup Evaluasi: dari output yang terisolasi, beralih ke konsekuensi hulu dan hilir dalam sistem yang lebih besar. AI yang unggul pada satu titik dalam alur kerja mungkin menciptakan inefisiensi atau distorsi sistemik di titik-titik lain yang sama sekali tidak tertangkap oleh benchmark konvensional.
7. Studi Kasus: Rumah Sakit, Kemanusiaan, dan Pelajaran Lapangan #
Pendekatan HAIC bukan sekadar teori — Aristidou mendokumentasikan penerapannya di lapangan melalui beberapa studi kasus nyata yang sangat ilustratif.
Di sebuah sistem rumah sakit di Inggris antara tahun 2021 hingga 2024, pertanyaan evaluasi diperluas dari sekadar "apakah aplikasi AI meningkatkan akurasi diagnostik?" menjadi "bagaimana kehadiran AI dalam tim multidisiplin rumah sakit memengaruhi tidak hanya akurasi, tetapi juga koordinasi antar profesional dan kualitas deliberasi bersama?" Berbagai pemangku kepentingan — baik dari dalam maupun luar rumah sakit — dilibatkan dalam menetapkan metrik evaluasi, termasuk bagaimana AI memengaruhi penalaran kolektif, apakah ia membantu memunculkan pertimbangan yang sebelumnya terlewatkan, apakah ia memperkuat atau justru melemahkan koordinasi tim, serta apakah ia mengubah praktik manajemen risiko yang sudah mapan.
Di sektor kemanusiaan, sebuah sistem AI dievaluasi selama 18 bulan penuh di dalam alur kerja nyata, dengan perhatian khusus pada seberapa mudah kesalahan AI dapat dideteksi dan diperbaiki oleh tim manusia. Rekam jejak jangka panjang mengenai error detectability ini memungkinkan organisasi merancang dan menguji mekanisme pengaman yang spesifik untuk konteks mereka, sehingga membangun kepercayaan yang lebih terukur terhadap sistem meskipun kesalahan AI sesekali tidak dapat dihindari sepenuhnya.
8. Tantangan dan Masa Depan Evaluasi AI #
Aristidou tidak menampik bahwa pendekatan HAIC memiliki kompleksitas tersendiri. Benchmarking berbasis konteks dan tim memang lebih rumit untuk distandarisasi, lebih padat sumber daya untuk dilaksanakan, dan lebih sulit untuk menghasilkan angka-angka sederhana yang mudah dikomunikasikan kepada publik atau pembuat kebijakan.
Namun ia menegaskan dengan tegas: melanjutkan evaluasi AI dalam kondisi steril yang terlepas dari dunia kerja nyata akan terus membuat kita salah memahami apa yang sesungguhnya bisa dan tidak bisa dilakukan AI. Distorsi ekspektasi yang dihasilkan oleh benchmark yang tidak relevan sudah terlalu lama menghambat adopsi AI yang bertanggung jawab dan berbasis bukti.
Untuk menerapkan AI secara bertanggung jawab di lingkungan nyata, kita harus mengukur apa yang benar-benar penting: bukan sekadar apa yang mampu dilakukan sebuah model secara sendirian dalam kondisi ideal, tetapi apa yang ia perkuat — atau justru lemahkan — ketika manusia dan tim di dunia nyata bekerja bersamanya dalam seluruh kompleksitas dan kekacauan yang melekat pada kehidupan profesional sesungguhnya.
Pertanyaan Populer
Social Hub
Diskusi Materi 0
Feed Kosong
Belum ada diskusi
Jadilah yang pertama menyampaikan pendapat berharga Anda di artikel ini.