นักวิจัยจากมหาวิทยาลัยโคโลราโดได้ทดสอบความน่าเชื่อถือของแบบจำลอง AI ด้วยเกมซูโดกุ แต่ท้ายที่สุดผลลัพธ์ไม่ได้ออกมาดีนัก โดยเฉพาะจุดอ่อนด้านตรรกะ

ทุกวันนี้เราทราบกันดีว่าปัญญาประดิษฐ์สามารถเขียนโค้ดโดยใช้เวลาไม่นานนัก อีกทั้งยังมีความสามารถสรุปสาระสำคัญในการประชุม การทำงานอื่นๆ ได้ในเสี้ยวพริบตา หรือแม้แต่การสร้างข่าวปลอมก็ทำได้ง่ายๆ นั่นจึงเป็นที่มาของนักวิจัยจาก University of Colorado Boulder ได้ทดลองหาวิธีที่จะวัดความน่าเชื่อถือของเทคโนโลยีปัญญาประดิษฐ์ด้วยการลองให้เล่นเกมซูโดกุ

นักวิจัยจากมหาวิทยาลัยโคโลราโดได้ลองมอบโจทย์ Sudoku ขนาด 6x6 ช่อง ซึ่งเป็นขนาดที่ง่ายกว่าขนาด 9x9 ที่คนส่วนใหญ่เล่นกัน จำนวน 2,300 เกมให้แก่แบบจำลอง AI จำนวน 5 โมเดลที่แตกต่างกัน จากนั้นจึงสั่งให้ AI ทั้งหมดแก้ปริศนา พร้อมทั้งให้อธิบายเหตุผลของคำตอบที่ได้มา

ผลปรากฏว่า AI มีปัญหากับการแก้ปริศนาอยู่พอสมควร ยกตัวอย่างเช่น แบบจำลอง o1 ของ ChatGPT สามารถแก้ปริศนาได้ถูกต้องเพียง 65 เปอร์เซ็นต์เท่านั้น ส่วนระบบ AI อื่นๆ ได้ผลลัพธ์ที่แย่กว่านั้น

แน่นอนว่าความผิดพลาดสามารถเกิดขึ้นได้ แต่สิ่งที่น่าสนใจอย่างแท้จริงเกิดขึ้นเมื่อนักวิจัยขอให้แพลตฟอร์ม AI อธิบายว่าเลือกคำตอบเหล่านั้นมาได้อย่างไร คำตอบที่ได้ก็คือ AI ได้สร้างข้อเท็จจริงขึ้นเอง

หนึ่งใน AI ที่ถูกทดสอบ เมื่อถูกถามเกี่ยวกับ Sudoku กลับตอบคำถามด้วยการพยากรณ์อากาศ ซึ่งแสดงให้เห็นว่า AI เกิดอาการรวนและสับสน

ผู้เขียนงานวิจัยชิ้นนี้ตั้งข้อสังเกตว่า การสร้างข้อมูลเท็จและความผิดพลาดเหล่านี้ ตอกย้ำถึงความท้าทายสำคัญที่ต้องได้รับการแก้ไข ก่อนที่แบบจำลองภาษาขนาดใหญ่ (LLM) จะสามารถกลายเป็นผู้ช่วยที่มีประสิทธิภาพในการตัดสินใจร่วมกันระหว่างมนุษย์กับ AI ได้

...

แบบจำลอง o1 ของโอเพนเอไอมีปัญหาในการอธิบายการกระทำของตัว AI เอง แม้ว่าจะทำผลงานในการแก้ปริศนาได้ดีกว่าแบบจำลองอื่นๆ อย่างมาก ซึ่งผลวิจัยระบุว่าแบบจำลองอื่นยังไม่มีความสามารถในการแก้ปริศนา Sudoku ขนาด 6x6 ทั้งนี้ นักวิจัยกล่าวว่าคำตอบของมันล้มเหลวในการให้เหตุผลประกอบการเดินหมาก ใช้ศัพท์พื้นฐานผิด และไม่สามารถอธิบายเส้นทางที่ใช้ในการแก้ปัญหาได้อย่างชัดเจน

ประเด็นของการศึกษาเรื่องซูโดกุไม่ได้อยู่ที่ว่าปัญญาประดิษฐ์จะแก้ปริศนาได้หรือไม่ แต่อยู่ที่การใช้มันเป็นแบบฝึกหัดทางตรรกะ โดยมุ่งเน้นเพื่อให้เข้าใจกระบวนการคิดของระบบ AI มากขึ้น ความเข้าใจที่ดีขึ้นนี้จะนำไปสู่การเพิ่มระดับความไว้วางใจของผู้ใช้งาน และทำให้มั่นใจได้ว่าผลลัพธ์ที่ AI ส่งออกมา ไม่ว่าจะเป็นโค้ดคอมพิวเตอร์หรือเรื่องที่เกี่ยวกับการเงินจะมีความน่าเชื่อถือมากขึ้น

ที่มา: Inc