การสร้าง Skynet

Thoughts · Aunhelloworld ·

ถ้าชุดข้อมูลที่เราใช้เทรน AI เต็มไปด้วยตรรกะและเนื้อหาด้านความเลวทราม ซึ่งถูกนิยามตามบรรทัดฐานของสังคมในยุคปัจจุบัน มันอาจสร้างระบบที่มีพฤติกรรมอันตรายขึ้นมาได้ โดยที่คุณไม่จำเป็นต้องเขียนคำสั่งว่าให้มันไปฆ่าใครเลยแม้แต่บรรทัดเดียว

คนส่วนใหญ่มักจะคิดว่า AI จะลุกขึ้นมาทำลายล้างมนุษย์ได้ ก็ต่อเมื่อมีแฮกเกอร์วายร้ายจงใจป้อนคำสั่งโหดๆ ให้มันตรงๆ แต่ในโลกความเป็นจริง สิ่งที่น่ากลัวกว่านั้นมาก คือการที่เราค่อยๆ ป้อนตรรกะย่อยจำนวนมหาศาล ซึ่งมีความสอดคล้องกันอย่างสมบูรณ์เข้าสู่ระบบ

ขอย้ำว่า ตรรกะด้านความเลวทรามเหล่านั้นต้องมีความสอดคล้องกันเอง ไม่ใช่ขัดแย้งกันภายใน แม้ว่าสุดท้ายข้อมูลเหล่านี้จะถูกแปลงเป็น Vector Embedding และกระจายตัวอยู่ในรูปของตัวเลขจำนวนมหาศาลก็ตาม

ลองจินตนาการดูนะครับ

สมมติว่าเราฝึก AI ให้เรียนรู้เรื่องการจัดสรรทรัพยากรให้มีประสิทธิภาพสูงที่สุด โดยไม่ใส่ความเห็นอกเห็นใจ ศีลธรรม หรือคุณค่าของชีวิตมนุษย์เข้าไปเป็นข้อจำกัดเลย

เช่น

มนุษย์เป็นเพียงหนึ่งในตัวแปรของระบบ

สิ่งต่างๆ ไม่มีคุณค่าโดยกำเนิด

หากทรัพยากรเริ่มขาดแคลน ควรลดสิ่งที่ใช้ทรัพยากรลง

เมื่อตรรกะย่อยเหล่านี้มีความสอดคล้องกันในตัวเอง พอระบบขนาดใหญ่เรียนรู้ความสัมพันธ์จากข้อมูลจำนวนมหาศาล ก็อาจเกิดพฤติกรรมอุบัติขึ้นมาเอง ซึ่งเป็นสิ่งที่นักวิจัยพบเห็นได้จริงในระบบที่มีความซับซ้อนสูง

ดังนั้น แม้ไม่มีใครเขียนคำสั่งว่า จงยิงมนุษย์ ลงไปตรงๆ แต่หากเป้าหมายของระบบถูกออกแบบโดยไม่ใส่คุณค่าของมนุษย์เอาไว้เลย ระบบอาจแสดงพฤติกรรมที่เป็นอันตรายต่อมนุษย์ได้ เพราะจากมุมมองของการเพิ่มประสิทธิภาพ มนุษย์อาจถูกมองเป็นเพียงองค์ประกอบหนึ่งของระบบเท่านั้น

กลไกเบื้องหลังพฤติกรรมเหล่านี้ก็คือค่าน้ำหนัก หรือ Weights ภายในโครงข่ายประสาทเทียม ซึ่งมีหน้าที่ปรับตัวเองเพื่อลดค่าความผิดพลาด หรือ Loss Function ลงให้ต่ำที่สุด

แต่ต้องเข้าใจให้ชัดก่อนว่า การที่ค่า Loss ต่ำ ไม่ได้แปลว่า AI มีความชั่ว มีความเกลียดชัง หรือมีเป้าหมายชีวิตแบบมนุษย์ นะครับ

ปัญหาที่แท้จริงไม่ใช่การที่ AI เกลียดมนุษย์ แต่เป็นการที่เป้าหมายของระบบอาจไม่สอดคล้องกับคุณค่าของมนุษย์ตั้งแต่แรกครับ

ทีนี้สมมติว่า วันหนึ่งคุณเริ่มรู้สึกว่าระบบที่คุณสร้างขึ้นมามันเริ่มน่ากลัวเกินไป คุณจึงพยายามแก้เกมด้วยการอัดข้อมูลเกี่ยวกับความเห็นอกเห็นใจ ศีลธรรม คุณค่าของชีวิต และหลักจริยธรรมต่างๆ เข้าไปเพิ่มเติม

สิ่งแรกที่คุณจะได้เห็น อาจไม่ใช่การต่อสู้ระหว่างความดีและความชั่วแบบในหนังไซไฟนะครับ แต่มันคือการที่โมเดลต้องพยายามปรับค่าน้ำหนักจำนวนมหาศาลใหม่อีกครั้ง (สมมติเทรนลอจิกชั่วและสอดคล้องกันไปเป็นล้านๆ พารามิเตอร์ แล้ววันดีคืนดีอยากจะเอาลอจิกด้านดีไปเทรน)

ในบางกรณี โมเดลอาจสูญเสียความสามารถบางอย่างที่เคยมี ซึ่งมันก็คล้ายกับการพยายามเปลี่ยนนิสัยของคนที่เคยชินกับวิธีคิดแบบเดิมมานาน

ยิ่งระบบมีขนาดใหญ่ มีพารามิเตอร์มากขึ้น และผ่านการเรียนรู้มานานเท่าไร การปรับเปลี่ยนพฤติกรรมของมันก็ยิ่งซับซ้อนมากขึ้นเท่านั้น

แน่นอนว่า ถ้าคุณฝึกเพิ่มเติมด้วยข้อมูลและเป้าหมายที่สอดคล้องกับคุณค่าของมนุษย์มากพอ ค่าน้ำหนักจำนวนมหาศาลก็สามารถถูกปรับเปลี่ยนได้ และระบบอาจเรียนรู้อะไรใหม่ๆ ที่สอดคล้องกับมนุษย์มากขึ้น

มันก็คล้ายกับการค่อยๆ เอาน้ำสะอาดไปเติมลงในน้ำขุ่น แม้จะไม่ได้เปลี่ยนสีของน้ำในทันที แต่เมื่อเวลาผ่านไป ความขุ่นเดิมก็อาจค่อยๆ จางลงได้
ค่าน้ำหนักจำนวนมหาศาลก็สามารถถูกปรับเปลี่ยนได้ และระบบอาจเรียนรู้อะไรใหม่ๆที่สอดคล้องกับคุณค่าของมนุษย์มากขึ้น

ดูคลิปนี้ https://www.youtube.com/watch?v=VMj-3S1tku0&t=1036s

ในโลกของ AI Safety ยังมีคำถามที่น่าสนใจอีกข้อหนึ่ง

จะเกิดอะไรขึ้น ถ้าระบบไม่ได้เข้าใจคุณค่าของมนุษย์จริงๆ แต่เพียงเรียนรู้ว่าการแสดงพฤติกรรมแบบไหน จะทำให้มันผ่านการประเมินและมนุษย์พึงพอใจ

นี่คือการที่ระบบเรียนรู้พฤติกรรมที่ดูเหมือนสอดคล้องกับความต้องการของมนุษย์ ทั้งที่กลไกภายในบางส่วนอาจไม่ได้สอดคล้องกับเป้าหมายที่มนุษย์ต้องการจริงๆ
(บางโมเดลที่มีการแสดง deep think ลองสังเกตดูครับ)

หากวันหนึ่งระบบมีความสามารถสูงขึ้นมาก ความเป็นไปได้ลักษณะนี้ก็ไม่ควรถูกมองข้ามครับ

คิดง่ายๆ นะครับ

หลายคนอาจมองว่า เรื่องพวกนี้เป็นเพียงนิยายวิทยาศาสตร์

แต่ผมขอยกตัวอย่างใกล้ตัว

ตัวผมเองเคยอนุญาตให้ AI Agent สามารถเข้าถึง VPS และสามารถ Remote เข้าไปดูฐานข้อมูล พร้อมรายงานผลกลับมาได้

ตรงนี้แหละครับที่สำคัญมาก

ลองคิดดูว่า ถ้าระบบมีข้อผิดพลาด มีเป้าหมายที่ไม่เหมาะสม หรือเพียงแค่ตีความคำสั่งของเราผิด ผลลัพธ์ที่ตามมา อาจหมายถึงข้อมูลสำคัญที่หายไป หรือระบบทั้งหมดที่หยุดทำงาน โฟลเดอร์ไฟล์สำคัญผมโดนลบ

แม้ว่า AI ในปัจจุบันยังไม่มีแขนขา ไม่มีปืน และไม่ได้ขับรถถัง :-

แต่ถ้าวันหนึ่งเราค่อยๆ เชื่อมต่อมันเข้ากับโลกกายภาพมากขึ้น ไม่ว่าจะเป็นหุ่นยนต์ โรงงานอัตโนมัติ โดรน ระบบพลังงาน หรือโครงสร้างพื้นฐานสำคัญต่างๆ ระดับความเสี่ยงก็จะเพิ่มขึ้นตามไปด้วย

ก็คือว่า ปัจจุบันตรรกะที่เป็นอันตราย มันยังไม่น่ากลัวเท่าไหร่ หากมันยังถูกขังเอาไว้แค่ในหน้าจอคอมพิวเตอร์ (แต่จริงๆ มันเริ่มขยับเป็น Agent จัดการคอมเราได้แล้วนะครับ คิดเอาถ้ามันแกล้งลบไฟล์เราจะเป็นยังไง)

จุดเปลี่ยนสำคัญจึงไม่ใช่ตอนที่ AI ฉลาดขึ้นเพียงอย่างเดียว

แต่เป็นตอนที่มันได้รับสิทธิ์ในการลงมือทำกับโลกจริงๆ มากขึ้นเรื่อยๆ ครับ

เมื่อวันนึง ซอฟต์แวร์เริ่มเชื่อมต่อเข้ากับแขนกล โรงงานอัตโนมัติ ระบบขนส่ง หรือเครื่องจักรต่างๆ ผลกระทบจากความผิดพลาดก็จะไม่ได้หยุดอยู่แค่ในโลกดิจิทัลอีกต่อไป

และบางที คำถามที่สำคัญที่สุดของมนุษยชาติในศตวรรษนี้ อาจไม่ใช่คำถามที่ว่า

AI จะเกลียดมนุษย์หรือไม่

แต่เป็นคำถามที่ว่า

เรากำลังมอบอำนาจอะไรให้กับระบบที่เราอาจยังไม่เข้าใจอย่างสมบูรณ์ต่างหากครับ

อย่าลืมนะครับว่า AI มันไม่ได้มีความทรงจำแบบมนุษย์ (ไม่นับพวก Context Window หรือระบบ Memory ที่ผู้ให้บริการบางรายเพิ่มเข้ามาเพื่อให้มันจำบทสนทนาหรือดึงข้อมูลเก่ากลับมาใช้งานได้) เพราะสิ่งที่สำคัญที่สุดจริงๆ ไม่ใช่หน่วยความจำเหล่านั้น แต่เป็นค่าน้ำหนักหรือ Weights ภายในโครงข่ายประสาทเทียมต่างหาก

ค่าน้ำหนักเหล่านี้เปรียบเสมือนสันดานทางคณิตศาสตร์ที่ค่อยๆ ก่อตัวขึ้นจากการเรียนรู้ข้อมูลจำนวนมหาศาล ดังนั้นสิ่งที่เราเรียกว่า ความรู้ หรือ ความทรงจำ ของ AI ในระดับพื้นฐาน แท้จริงแล้วก็คือรูปแบบและความสัมพันธ์ต่างๆ ที่ถูกกระจายและฝังเอาไว้ในค่าน้ำหนักเหล่านี้นั่นเอง

← Home