Jan

เครื่องคอมพิวเตอร์ Vela จาก IBM และ แนวนวัตกรรมในอนาคต

ผู้นำในการใช้ประโยชน์จาก AI ในรูปแบบคลาวด์เนทีฟ, การอัพเกรดเพิ่มประสิทธิภาพ และความเชื่อถือได้

การสร้าง AI จำเป็นต้องอาศัยทรัพยากรคอมพิวเตอร์ที่แข็งแกร่ง จึงต้องมี "AI supercomputer" เพื่อจัดการการฝึกอบรมของโมเดลที่ใหญ่ใช้ในงานวิจัยเช่นนี้ การสร้าง AI supercomputer สำหรับการฝึกอบรมข้อมูลภายในและโมเดลนั้นเป็นการลงทุนทางการเงินจำนวนมาก รวมถึงการใช้งานเฉพาะของ CPU และ GPU ในการค้นหาโมเดลพื้นฐานสำหรับ AI นั้น IBM ได้สร้าง AI supercomputer ของตัวเองในบริษัท โดยตั้งชื่อว่า Vela ซึ่งมีบทบาทสำคัญในการฝึกอบรมของโมเดลพื้นฐาน AI ที่สามารถเข้าถึงได้ในแพลตฟอร์ม AI และข้อมูล WatsonX ของ IBM

การนำ Vela ไปใช้งานได้ประสบความสำเร็จ ทำให้ IBM Research ตัดสินใจสร้างคลัสเตอร์ GPU เพิ่มเติมขึ้น เป็นพิเศษสำหรับการฝึกอบรม AI โดยเฉพาะ โดยมุ่งเน้นไปที่ลูกค้าในสหรัฐอเมริกาคุณลักษณะที่โดดเด่นของ Vela คือการออกแบบหลักโดยใช้ส่วนประกอบสำเร็จรูปและการทำความเย็นด้วยอากาศ ซึ่งช่วยให้ง่ายต่อการใช้งานในศูนย์ข้อมูลมาตรฐาน รวมถึงศูนย์ข้อมูลที่ไม่ได้อยู่ใน IBM Cloud

การใช้โปรโตคอลและสวิตช์ Ethernet มาตรฐานถูกนำมาใช้เพื่อลดค่าใช้จ่ายในการจัดการข้อมูลระหว่าง CPU และ GPU โดยการเรียกใช้โค้ดใน "โลหะเปล่า" ได้เพิ่มค่าใช้จ่ายในซอฟต์แวร์ IBM ยืนยันว่า Vela ได้รับประสิทธิภาพภายในขอบเขตของ 5% ของการทำงานซอฟต์แวร์ต่อโหนดของโลหะเปล่าแต่ละตัว โดยทุกโหนดประกอบด้วย Nvidia A100 GPU 8 ตัว และ Intel Xeon Scalable Processors 2 ตัวที่เชื่อมต่อกันผ่าน NVLink การอัพเกรด Vela รวมถึงการใช้งาน RoCE (RDMA over Converged Ethernet) และ GDR (GPU-direct RDMA) เพื่อตอบสนองความต้องการของ GPU และเครือข่ายที่เร็วขึ้น

การใช้เทคนิค RDMA เช่น RoCE และ GDR เพิ่มประสิทธิภาพของเครือข่าย Vela อย่างมีนัยสำคัญ ช่วยลดความล่าช้า ทำให้สามารถปรับขนาดของงานได้เป็นเส้นตรงเกือบทุกประการ รวมถึงการฝึกอบรมโมเดล IBM Granite ที่มีพารามิเตอร์ขนาด 20 พันล้าน ซึ่งมีบทบาทสำคัญในการทำให้บริการ WatsonX Code Assistant for Z ของ IBM ดำเนินไปอย่างมีประสิทธิภาพ

เนื่องจากความหนาแน่นของส่วนประกอบเพิ่มขึ้น IBM ได้เสริมความเชื่อถือได้ของ Vela ผ่านการใช้อุปกรณ์เพิ่มเติมในทุกๆ ระดับของซอฟต์แวร์ เพื่อตรวจจับและแยกประสิทธิภาพการล้มเหลวของระบบที่เป็นไปได้ ซึ่งจะช่วยปกป้องความเชื่อถือของระบบโดยรวม

ในอนาคต IBM กำลังวางแผนที่จะพัฒนาโมเดล Vela ให้มีประสิทธิภาพมากขึ้น รวมไปถึงการพัฒนาชิป AI ที่เป็นเอกลักษณ์ชื่อว่า Artificial Intelligence Unit (AIU) มีเป้าหมายเพื่อปรับปรุงความสามารถในการทำคณิตศาสตร์แบบหลายทศวรรษที่สำคัญ สำหรับงานการใช้ประโยชน์นั้น AIU มีความสามารถในการทำคณิตศาสตร์แบบจำนวนเต็มไปจนถึง 2 บิต เพื่อเพิ่มประสิทธิภาพและประสิทธิผลในการใช้งาน จากการทดสอบล่าสุดที่ศูนย์วิจัย IBM ได้ประสบความสำเร็จในการใช้งาน AIU ช่วยในเรื่องศูนย์ข้อมูลลูกค้า การกระทำดังกล่าวนี้แสดงให้เห็นถึงการทุ่มเทของ IBM ในการก้าวขึ้นมาเป็นผู้นำในด้าน AI ผ่านการพัฒนาฮาร์ดแวร์และซอฟต์แวร์ให้เป็นนวัตกรรมใหม่

ข่าวสาร

March 26, 2024

เครื่องคอมพิวเตอร์ Vela จาก IBM และ แนวนวัตกรรมในอนาคต

นักเขียนบทความ

ข่าวสาร

Mar

เครื่องคอมพิวเตอร์ Vela จาก IBM และ แนวนวัตกรรมในอนาคต

This is some text inside of a div block.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.