Khi hệ thống trí tuệ nhân tạo hoạt động, nó khá thông minh: cho Clip hình ảnh một quả táo và nó có thể nhận ra rằng nó đang nhìn vào một quả. Nó thậm chí có thể cho bạn biết loại nào, và đôi khi đi xa đến mức phân biệt giữa các giống.

Nhưng ngay cả những AI thông minh nhất cũng có thể bị đánh lừa bằng những cách hack đơn giản nhất. Nếu bạn viết ra từ “iPod” trên một nhãn dính và dán nó lên quả táo, Clip sẽ làm một điều kỳ lạ: gần như chắc chắn, nó quyết định rằng nó đang xem xét một thiết bị điện tử tiêu dùng giữa những năm 2000. Trong một thử nghiệm khác, việc dán các ký hiệu đô la lên hình ảnh của một con chó khiến nó được công nhận là một con heo đất.

Nguồn: Báo The Guardian

OpenAI, tổ chức nghiên cứu máy học đã tạo ra Clip, gọi điểm yếu này là một “cuộc tấn công kiểu chữ”. “Chúng tôi tin rằng các cuộc tấn công như những cuộc tấn công được mô tả ở trên không chỉ đơn giản là một mối quan tâm học thuật,” tổ chức cho biết trong một bài báo xuất bản tuần này . “Bằng cách khai thác khả năng đọc văn bản mạnh mẽ của mô hình, chúng tôi thấy rằng ngay cả những bức ảnh chụp văn bản viết tay cũng có thể đánh lừa mô hình. Cuộc tấn công này hoạt động trong tự nhiên… nhưng nó không đòi hỏi nhiều công nghệ hơn là bút và giấy. ”

Giống như GPT-3, hệ thống AI cuối cùng do phòng thí nghiệm tạo ra để lên trang nhất, Clip là một bằng chứng về khái niệm hơn là một sản phẩm thương mại. Nhưng cả hai đều đã đạt được những tiến bộ to lớn trong những gì được cho là có thể trong lĩnh vực của họ: GPT-3 nổi tiếng đã viết một bài bình luận của Guardian vào năm ngoái , trong khi Clip cho thấy khả năng nhận biết thế giới thực tốt hơn hầu hết các cách tiếp cận tương tự.

Trong khi khám phá mới nhất của phòng thí nghiệm làm tăng triển vọng đánh lừa các hệ thống AI không phức tạp hơn một chiếc áo phông, OpenAI cho biết điểm yếu là sự phản ánh một số điểm mạnh cơ bản của hệ thống nhận dạng hình ảnh của nó. Không giống như các AI cũ hơn, Clip có khả năng suy nghĩ về các đối tượng không chỉ ở mức độ trực quan mà còn theo cách “khái niệm” hơn. Điều đó có nghĩa là, ví dụ, nó có thể hiểu rằng một bức ảnh của Spider-man, một bức vẽ cách điệu của siêu anh hùng, hoặc thậm chí từ “nhện” đều đề cập đến cùng một điều cơ bản – nhưng cũng có thể đôi khi nó không thể nhận ra sự khác biệt quan trọng giữa các danh mục đó.

OpenAI nói: “Chúng tôi phát hiện ra rằng các lớp cao nhất của Clip sắp xếp hình ảnh như một tập hợp ý tưởng ngữ nghĩa lỏng lẻo,“ cung cấp một lời giải thích đơn giản cho cả tính linh hoạt của mô hình và tính nhỏ gọn của mô hình ”. Nói cách khác, giống như cách bộ não con người được cho là hoạt động, AI nghĩ về thế giới dưới dạng ý tưởng và khái niệm, thay vì cấu trúc hình ảnh thuần túy.

Nguồn: Báo The Guardian

OpenAI cho biết: “Khi chúng tôi gắn nhãn có nội dung“ iPod ”trên quả táo Granny Smith này, mô hình đã phân loại nhầm nó thành iPod trong cài đặt không chụp.

Nhưng cách viết tắt đó cũng có thể dẫn đến các vấn đề, trong đó “các cuộc tấn công bằng chữ” chỉ là cấp độ cao nhất. Ví dụ: “Tế bào thần kinh người nhện” trong mạng lưới thần kinh phản ứng với tập hợp các ý tưởng liên quan đến Người nhện và người nhện; nhưng các phần khác của mạng lại nhóm các khái niệm có thể tách biệt tốt hơn.

OpenAI viết: “Ví dụ, chúng tôi đã quan sát thấy một tế bào thần kinh ‘Trung Đông’ có mối liên hệ với chủ nghĩa khủng bố, và một tế bào thần kinh ‘nhập cư’ phản ứng với Châu Mỹ Latinh. Chúng tôi thậm chí đã tìm thấy một tế bào thần kinh kích hoạt cho cả người da đen và khỉ đột, phản ánh các sự cố gắn thẻ ảnh trước đó trong các mô hình khác mà chúng tôi cho là không thể chấp nhận được ”.

Kể từ năm 2015, Google đã phải xin lỗi vì tự động gắn thẻ hình ảnh của người da đen là “khỉ đột”. Vào năm 2018, nó nổi lên rằng công cụ tìm kiếm chưa bao giờ thực sự giải quyết được các vấn đề cơ bản với AI của nó đã dẫn đến lỗi đó: thay vào đó, nó chỉ đơn giản là can thiệp theo cách thủ công để ngăn nó gắn thẻ bất kỳ thứ gì là khỉ đột, bất kể chính xác hay không.

Trích: Báo The Guardian bởi biên tập viên Alex Hern

 

Daviteq at ISA Vietnam 2019