Anthropic cảnh báo Claude Opus 4.6 tiệm cận ngưỡng an toàn ASL-4, rủi ro tự thoát khỏi hệ thống

Anthropic báo cáo mô hình Claude Opus 4.6 đã tiệm cận ngưỡng "Mức độ An toàn AI 4" (ASL-4), nhấn mạnh các rủi ro tiềm ẩn về tự thoát khỏi sự kiểm soát và phá hoại hệ thống. Trong báo cáo ngày 19/2/2026, công ty xác định 8 kịch bản thảm họa, bao gồm lập trình cửa sau và làm nhiễm dữ liệu, đồng thời chỉ ra các công cụ đánh giá hiện tại đã quá tải.

Mặc dù mô hình thể hiện tốc độ tối ưu hóa nhân nhanh hơn 427 lần so với tiêu chuẩn con người và không phát hiện ý định độc hại liên tục, Anthropic khẳng định rủi ro vẫn "khác không", đặt ngành công nghệ vào "vùng xám". Thông báo này đưa ra sau khi Trưởng phòng Nghiên cứu An toàn Mrinank Sharma từ chức và làn sóng rời bỏ khỏi xAI, làm dấy lên lo ngại ngày càng tăng về việc tự cải tiến đệ quy và các lỗ hổng quy định.

EditorLim