วิธีการฝึก Chat GPT คืออะไร?

วิธีการฝึก Chat GPT 768x435-718x.jpg

หากคุณรู้จัก ChatGPT ก็จะคุ้นเคยกับว่ามันถูกสอนให้เข้าใจจากข้อมูลอย่างมากมาย แต่แน่นอนว่าจะหมายถึงอะไร? ในบทความนี้เราจะพาไปสู่รายละเอียดของวิธีการสอน ChatGPT

ChatGPT เป็นโมเดลภาษาที่ถูกเทรนด้วยเทคนิคการเรียนรู้แบบได้รับการสอนและการเสริมกำลังเพื่อปรับปรุงเป็นระบบ กระบวนการฝึกฝนของ ChatGPT เป็นการนำเอาข้อมูลข้อความปริมาณมากใส่ในโมเดลเทียบเท่ากับข้อความที่มีในชุดข้อมูลการสอนและปรับพารามิเตอร์ของโมเดลเพื่อทำให้สามารถสร้างข้อความที่คล้ายกับข้อความในขอบเขตการฝึกฝนได้

วิธีการเรียนรู้แบบไม่ได้รับการดูแลใดๆ ถูกนำมาใช้สำหรับกระบวนการนี้ ซึ่งหมายความว่าโมเดลไม่ได้รับการตอบกลับโดยชัดเจนว่าข้อความที่สร้างขึ้นนั้นถูกต้องหรือผิดพลาดอย่างไร แต่แทนนั้นโมเดลจะปรับพารามิเตอร์ต่างๆ ของมันตามความน่าจะเป็นที่ข้อความที่สร้างขึ้นมาจะมีความเหมือนกับข้อความในชุดการฝึกอบรม

GPT-3 มาจากโมเดลหลักของ ChatGPT-3 ซึ่งเป็นหนึ่งในโมเดลภาษาที่ใหญ่ที่สุดที่เคยสร้างขึ้นมาทั้งหมด โดยมีพารามิเตอร์ถึง 175 พันล้าน และความยาวของเนื้อหาในบริบทอยู่ที่ 2048 token โมเดลถูกฝึกฝนด้วยเนื้อหาในพันล้านคำจาก Common Crawl, WebText2, Books1/2, วิกิพีเดียเป็นภาษาอังกฤษ และตัวอย่างของโค้ดใน CSS, JSX, Python และภาษาโปรแกรมอื่นๆ

วิธีการฝึกอบรมที่ใช้สำหรับ GPT-3 คือการฝึกเตรียมการแบบสร้างสรรค์ ซึ่งหมายความว่ามันถูกฝึกให้ทำนายโทเค็นหรือคำต่อไปในประโยคนำเข้า

ทางเลือกดีที่สุดของแชท GPT

การเรียนรู้ภายใต้การดูแล

โมเดล ChatGPT ได้รับการปรับแต่งด้วยกระบวนการเรียนรู้ซูเปอร์ไวซ์โดยผู้สอนมนุษย์ ผู้สอนเหล่านี้มีการสนทนาโดยได้รับบทบาทเป็นผู้ใช้และผู้ช่วย AI

พวกเขาได้รับคำแนะนำจากโมเดลเพื่อคำแนะนำในการเขียนคำตอบของพวกเขา ซึ่งจะถูกผสมกับชุดข้อมูล InstructGPT ซึ่งถูกแปลงเป็นรูปแบบสนทนา

การเรียนรู้แบบรีอินฟอร์สเมนต์

โมเดลถูกปรับปรุงต่อไปด้วย reinforcement learning โดยใช้ Proximal Policy Optimization (PPO) ผู้ฝึกสอนคน เปรียบเทียบการตอบกลับที่สร้างโดยโมเดลจากการสนทนาก่อนหน้านี้และใช้การประเมินเหล่านั้นเพื่อพัฒนาโมเดลรางวัล จากนั้นโมเดลได้รับการปรับแต่งต่อจากโมเดลรางวัลดังกล่าว

กระบวนการปรับแต่งรายละเอียดได้ถูกดำเนินการหลายครั้งเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น อัลกอริทึม PPO มีความคุ้มค่าในเรื่องต้นทุนเมื่อเปรียบเทียบกับอัลกอริทึมอื่นๆ และสามารถให้ประสิทธิภาพได้อย่างรวดเร็วทำให้เหมาะสำหรับกระบวนการนี้

OpenAI ยังคงเก็บข้อมูลจากผู้ใช้ที่มีการติดต่อกับ ChatGPT ซึ่งจะถูกนำมาใช้เพื่อเพิ่มประสิทธิภาพและปรับปรุงโมเดลอย่างต่อเนื่อง

ผู้ใช้มีตัวเลือกในการโหวตเพื่อตอบรับคำตอบจาก ChatGPT โดยสามารถโหวตเพิ่มหรือลดคะแนน และยังสามารถให้คำติชมเพิ่มเติมได้อีกด้วย ข้อมูลเหล่านี้ถูกนำมาเพิ่มประสิทธิภาพของโมเดลอย่างต่อเนื่องเพื่อทำให้โมเดลสามารถสร้างข้อความที่คล้ายมนุษย์ได้มากยิ่งขึ้น

ข้อมูลที่ใช้ฝึกโมเดล

ChatGPT-3 เป็นโมเดลภาษาที่ fine-tuned มาจากซีรี่ส์ GPT-3.5 ซึ่งถูกฝึกฝนโดยใช้โครงสร้างคอมพิวเตอร์ Azure AI supercomputing โดยใช้ข้อมูลวิเคราะห์จากหลายแหล่ง เช่น หนังสือ, ฟอรั่มการสนทนา, บทความ, เว็บไซต์, งานวิจัย, โค้ด และแหล่งข้อมูลอื่น ๆ

ชุดข้อมูลข้อความที่ใช้สำหรับการฝึก ChatGPT-3 มีขนาดมากกว่า 45 เทระไบต์ ซึ่งมีขนาดใหญ่มากและมีส่วนช่วยในความสามารถของโมเดลในการสร้างข้อความที่คล้ายกับสิ่งที่นักข่าวหรือนักเขียนอาจสร้าง

บทความที่เกี่ยวข้อง

ดูเพิ่มเติม >>