DeepSeek Dicurigai Gunakan 'Jalan Pintas' dengan Data Google Gemini?

Bagikan momen bahagiamu dengan website undangan yang elegan, modern, dan cepat.

Spilltekno – DeepSeek, lab AI asal China, tengah menjadi sorotan hangat di dunia teknologi. Penyebabnya adalah model penalaran terbaru mereka, DeepSeek R1, yang performanya sungguh memukau di berbagai tes, terutama dalam bidang matematika dan pemrograman. Namun, di balik prestasi gemilang itu, muncul awan gelap berupa tudingan serius: apakah DeepSeek melatih modelnya menggunakan data dari Google Gemini tanpa izin yang jelas?

Kecurigaan Penggunaan Data Gemini

Kabar ini tentu saja mengejutkan banyak pihak. Kecurigaan ini berawal dari pengamatan jeli para peneliti AI. Salah satu sosok yang angkat bicara adalah Sam Paech, seorang programmer asal Melbourne. Paech mengamati bahwa gaya bahasa yang digunakan oleh DeepSeek R1-0528 terasa sangat familiar, bahkan “hampir mencerminkan” cara Gemini 2.5 Pro merespons sebuah pertanyaan atau masalah.

Dalam postingannya di platform X (yang dulu dikenal sebagai Twitter), Paech mengungkapkan bahwa struktur penalaran dan pilihan diksi DeepSeek R1 memiliki kemiripan yang mencolok dengan model Gemini. Ini bukan hanya sekadar opini pribadi. Pendapat serupa juga dilontarkan oleh pengembang di balik proyek SpeechMap. Mereka menilai bahwa model DeepSeek menampilkan “jejak” penalaran yang khas dari Gemini.

Tentu saja, saat ini belum ada bukti teknis yang konklusif yang bisa membuktikan tudingan ini secara pasti. Namun, pola kesamaan yang begitu mencolok ini menimbulkan pertanyaan serius tentang bagaimana DeepSeek melatih model mereka. Apakah benar ada praktik pelatihan data yang tidak transparan? Apakah data Google Gemini digunakan tanpa izin? Pertanyaan-pertanyaan inilah yang kini menjadi bahan perdebatan hangat di komunitas AI.

Bukan Kali Pertama Tudingan Serupa

Ironisnya, ini bukanlah kali pertama DeepSeek menghadapi tudingan serupa. Pada bulan Desember 2024, komunitas pengembang sempat menemukan anomali yang cukup mencurigakan. Model DeepSeek V3, pada beberapa kesempatan, justru mengidentifikasi dirinya sebagai ChatGPT. Fenomena ini tentu saja menimbulkan spekulasi bahwa DeepSeek melatih modelnya menggunakan log dari model milik OpenAI.

Kecurigaan ini semakin diperkuat dengan laporan dari dua media besar, Financial Times dan Bloomberg. Laporan tersebut mengindikasikan bahwa OpenAI dan Microsoft menemukan bukti yang mengarah pada praktik distilasi oleh DeepSeek. Distilasi, dalam konteks ini, adalah teknik melatih model baru dengan meniru output dari model AI yang sudah besar dan mapan, seperti GPT atau Gemini.

Bahkan, Microsoft dilaporkan menemukan adanya kebocoran data dari akun pengembang OpenAI yang diduga kuat terhubung dengan DeepSeek. Semua ini semakin memperkuat dugaan bahwa DeepSeek mungkin saja menggunakan cara-cara yang kurang etis dalam melatih model AI mereka.

Distilasi dan Ancaman Kontaminasi Data AI

Teknik distilasi, sebenarnya, bukanlah hal yang asing di kalangan pengembang AI. Ini adalah cara yang relatif umum digunakan untuk menciptakan model yang lebih kecil dan efisien, namun tetap memiliki kemampuan yang mumpuni. Namun, OpenAI secara tegas melarang pemanfaatan output produk mereka untuk membuat model pesaing. Larangan ini bertujuan untuk melindungi hak kekayaan intelektual dan memastikan persaingan yang sehat di industri AI.

Masalahnya, di era AI generatif yang berkembang pesat ini, data pelatihan semakin rentan terkontaminasi oleh konten AI dari berbagai sumber, mulai dari situs spam hingga bot. Hal ini membuat proses penyaringan data “murni” menjadi tantangan tersendiri. Para pengembang harus berhati-hati dan teliti dalam memilih data yang akan digunakan untuk melatih model mereka.

Menurut Nathan Lambert, seorang peneliti di AI2 (Allen Institute for AI), dugaan bahwa DeepSeek menggunakan Gemini sebagai sumber pelatihan bukanlah hal yang mustahil. Dalam ekosistem AI yang saling terhubung ini, sangat mungkin terjadi transfer data dan pengetahuan antar model, baik secara sengaja maupun tidak sengaja.

Tanggapan DeepSeek dan Implikasi Etika AI

Hingga saat ini, DeepSeek belum memberikan tanggapan resmi terhadap tudingan ini. Mereka belum mengeluarkan pernyataan publik yang membantah atau mengkonfirmasi kebenaran tudingan tersebut. Ketidakjelasan ini tentu saja semakin memperkeruh suasana dan menimbulkan berbagai spekulasi.

Kasus ini membuka diskusi yang lebih luas tentang etika, transparansi, dan kepemilikan data dalam era AI generatif yang semakin cepat berkembang. Jika benar DeepSeek menggunakan data Gemini tanpa izin, hal ini akan menjadi pelanggaran serius terhadap hak kekayaan intelektual dan mencoreng reputasi mereka di industri AI.

Kasus ini juga menyoroti pentingnya regulasi yang jelas dan tegas terkait penggunaan data dalam pelatihan model AI. Tanpa regulasi yang memadai, akan semakin banyak perusahaan yang tergoda untuk mengambil “jalan pintas” dengan menggunakan data milik orang lain tanpa izin.

Selain itu, kasus DeepSeek ini mengingatkan kita akan pentingnya transparansi dalam pengembangan AI. Para pengembang harus bersikap jujur dan terbuka tentang bagaimana mereka melatih model mereka, dari mana mereka mendapatkan data, dan apa saja batasan dari model tersebut. Dengan transparansi, kita bisa membangun kepercayaan publik terhadap teknologi AI dan memastikan bahwa teknologi ini digunakan untuk kebaikan bersama.

Jika tudingan ini terbukti benar, implikasinya akan sangat luas. Tidak hanya bagi DeepSeek, tetapi juga bagi seluruh industri AI. Kasus ini bisa menjadi preseden buruk yang mendorong perusahaan lain untuk melakukan hal yang sama. Oleh karena itu, penting bagi kita semua untuk mengawal kasus ini dengan seksama dan memastikan bahwa keadilan ditegakkan. Spilltekno