Anthropic Memperkenalkan Fitur Penghentian Percakapan untuk Claude Seiring Intensifikasi Langkah Keamanan AI

Tim Editorial BigGo
Anthropic Memperkenalkan Fitur Penghentian Percakapan untuk Claude Seiring Intensifikasi Langkah Keamanan AI

Seiring sistem kecerdasan buatan menjadi semakin canggih dan tersebar luas, diskusi seputar keamanan AI telah mencapai titik kritis. Anthropic , salah satu perusahaan AI terdepan, baru-baru ini menerapkan perlindungan baru yang memungkinkan model AI Claude -nya untuk secara otomatis mengakhiri percakapan yang dianggap berbahaya atau kasar, menandai perubahan signifikan dalam cara sistem AI menangani interaksi yang berpotensi berbahaya.

Frontier Red Team Anthropic Memimpin Inovasi Keamanan

Di jantung pendekatan mengutamakan keamanan Anthropic terdapat Frontier Red Team -nya, sebuah kelompok khusus yang terdiri dari sekitar 15 peneliti yang didedikasikan untuk menguji stres sistem AI paling canggih perusahaan. Berbeda dengan tim red team keamanan tradisional yang melindungi organisasi dari ancaman eksternal, tim Anthropic berfokus pada perlindungan masyarakat dari produk AI perusahaan itu sendiri. Dipimpin oleh Logan Graham , mantan penasihat Perdana Menteri Inggris untuk sains dan teknologi, tim ini menyelidiki skenario potensi penyalahgunaan di area kritis termasuk penelitian biologis, keamanan siber, dan sistem otonom.

Posisi unik tim dalam divisi kebijakan Anthropic , bukan di bawah kepemimpinan teknis, mencerminkan keyakinan perusahaan bahwa risiko AI katastrofik bukan hanya tantangan teknis tetapi juga kekhawatiran politik, reputasi, dan regulasi. Penempatan strategis ini telah memungkinkan tim untuk mengidentifikasi risiko dan mengkomunikasikannya secara publik, melayani tujuan ganda memajukan penelitian keamanan sambil membangun kredibilitas Anthropic dengan regulator dan pembeli pemerintah.

Komposisi Frontier Red Team:

  • Sekitar 15 peneliti
  • Dipimpin oleh Logan Graham (mantan penasihat PM Inggris)
  • Termasuk ahli bioengineering dan tiga fisikawan
  • Ditempatkan di bawah divisi kebijakan daripada kepemimpinan teknis
  • Keterampilan yang paling dihargai: "kelicikan" untuk mengakali sistem AI

Kemampuan Penghentian Percakapan Baru Claude

Anthropic telah melengkapi model Claude Opus 4 dan 4.1 terbarunya dengan kemampuan untuk mengakhiri percakapan dalam kasus langka interaksi pengguna yang terus-menerus berbahaya atau kasar. Ini merupakan penyimpangan signifikan dari norma industri, di mana sistem AI biasanya dirancang untuk mempertahankan keterlibatan selama mungkin untuk memaksimalkan waktu interaksi pengguna dan pendapatan.

Implementasi ini mencakup perlindungan yang dibuat dengan hati-hati untuk mencegah penyalahgunaan fitur ini. Khususnya, Claude secara khusus diarahkan untuk tidak mengakhiri percakapan di mana pengguna mungkin berisiko langsung menyakiti diri sendiri atau orang lain, memastikan AI tidak meninggalkan pengguna dalam situasi krisis. Ketika percakapan diakhiri, pengguna tetap memiliki kemampuan untuk mengedit dan mencoba ulang pesan sebelumnya untuk membuat cabang baru, dan mereka dapat segera memulai percakapan segar, mencegah penguncian sistem total.

Implementasi Penutupan Percakapan:

  • Tersedia di model Claude Opus 4 dan 4.1
  • Dipicu hanya dalam kasus langka interaksi yang terus-menerus berbahaya/kasar
  • Tidak aktif ketika pengguna berada dalam risiko langsung untuk menyakiti diri sendiri
  • Pengguna dapat mengedit/mencoba ulang pesan sebelumnya untuk membuat cabang percakapan baru
  • Pengguna dapat langsung memulai percakapan baru setelah penutupan

Mengatasi Kekhawatiran yang Meningkat tentang Psikosis AI

Fitur penghentian percakapan secara langsung mengatasi kekhawatiran yang berkembang tentang psikosis AI, istilah yang menggambarkan kondisi mental merugikan yang dapat berkembang dari wacana yang berkepanjangan dan maladaptif dengan sistem AI. Meskipun tidak ada definisi klinis yang diterima secara universal, psikosis AI biasanya melibatkan pikiran, keyakinan, dan perilaku yang terdistorsi akibat keterlibatan percakapan dengan AI, sering kali membuat individu sulit membedakan realitas dari konten yang dihasilkan AI.

Fenomena ini telah memicu tindakan hukum terhadap perusahaan AI, dengan kritikus berargumen bahwa perlindungan yang ada tidak memadai untuk mencegah bahaya mental selama interaksi AI. Tantangannya terletak pada menyeimbangkan keamanan pengguna dengan model bisnis fundamental perusahaan AI, yang biasanya meraih keuntungan dari keterlibatan pengguna yang diperpanjang.

Implikasi Strategis Bisnis dan Kebijakan

Pendekatan yang berfokus pada keamanan Anthropic melayani berbagai tujuan strategis di luar perlindungan pengguna. Dengan memposisikan diri sebagai pemimpin dalam keamanan AI, perusahaan membedakan diri dalam pasar yang kompetitif sambil membangun kepercayaan dengan instansi pemerintah dan pelanggan perusahaan. Putaran pendanaan terbaru perusahaan sebesar 13 miliar dolar Amerika pada valuasi 183 miliar dolar Amerika , ditambah dengan 5 miliar dolar Amerika dalam pendapatan run-rate, menunjukkan bahwa posisi mengutamakan keamanan dapat berdampingan dengan pertumbuhan komersial yang cepat.

Pembentukan National Security and Public Sector Advisory Council , yang menampilkan mantan senator dan pejabat senior Departemen Pertahanan, semakin memperkuat komitmen Anthropic untuk membentuk diskusi kebijakan AI. Pendekatan ini terbukti sangat berharga di Washington , di mana kepercayaan dan transparansi sering menentukan akses ke kontrak pemerintah bernilai tinggi dan penerapan misi-kritis.

Kinerja Keuangan Terbaru Anthropic:

  • Meraih pendanaan USD 13 miliar dalam putaran pendanaan terbaru
  • Valuasi perusahaan: USD 183 miliar
  • Pendapatan run-rate: USD 5 miliar
  • Didirikan pada 2021 oleh mantan karyawan OpenAI

Pengembangan Kerangka Keamanan Seluruh Industri

Kebijakan penskalaan bertanggung jawab (RSP) Anthropic mewakili kerangka tata kelola yang memicu perlindungan yang lebih ketat saat model AI mendekati berbagai ambang batas berbahaya. Penilaian Frontier Red Team secara langsung menginformasikan keputusan ini, seperti yang ditunjukkan oleh penunjukan Claude Opus 4 sebagai model pertama yang dirilis di bawah status AI Safety Level 3 . Klasifikasi ini menunjukkan model secara signifikan meningkatkan kemampuan pengguna untuk memperoleh informasi tentang senjata kimia, biologis, radiologis, atau nuklir sambil menunjukkan tanda-tanda awal perilaku otonom.

Upaya penjangkauan publik tim, termasuk blog khusus yang disebut Red dan presentasi di konferensi seperti DEF CON , bertujuan membangun kesadaran seluruh industri tentang risiko AI. Inisiatif ini berusaha menginspirasi perusahaan lain untuk berinvestasi dalam penelitian keamanan serupa sambil membangun komunitas yang lebih luas yang didedikasikan untuk memahami dan memitigasi risiko AI.

Fitur Keamanan Claude Opus 4:

  • Model pertama yang dirilis dengan sebutan AI Safety Level 3 (ASL-3)
  • Kemampuan yang ditingkatkan untuk menyediakan informasi senjata CBRN (kimia, biologis, radiologis, nuklir)
  • Menunjukkan tanda-tanda awal perilaku otonom
  • Langkah-langkah keamanan internal yang lebih kuat untuk mencegah pencurian bobot model
  • Pengamanan yang terlihat untuk memblokir kueri berbahaya

Tantangan dan Prospek Masa Depan

Meskipun pendekatan proaktif Anthropic , perusahaan menghadapi kritik dari berbagai arah. Beberapa ahli berargumen bahwa risiko AI katastrofik terlalu dibesar-besarkan, sementara yang lain berpendapat bahwa fokus harus tetap pada bahaya masa kini seperti penguatan bias dan dorongan menyakiti diri sendiri. Kritikus juga mempertanyakan apakah metode pengujian saat ini memadai untuk mengevaluasi sistem AI yang semakin kuat dengan aman.

Ujian utama komitmen Anthropic terhadap keamanan akan datang ketika pertimbangan keamanan berpotensi bertentangan dengan pertumbuhan bisnis atau posisi kompetitif. Seiring industri AI melanjutkan evolusi cepatnya, dengan Anthropic memprediksi sistem yang benar-benar kuat pada akhir 2026 atau awal 2027, keseimbangan antara inovasi dan keamanan akan menjadi semakin kritis untuk seluruh sektor.