ผู้นำในการใช้ประโยชน์จาก AI ในรูปแบบคลาวด์เนทีฟ, การอัพเกรดเพิ่มประสิทธิภาพ และความเชื่อถือได้
การสร้าง AI จำเป็นต้องอาศัยทรัพยากรคอมพิวเตอร์ที่แข็งแกร่ง จึงต้องมี "AI supercomputer" เพื่อจัดการการฝึกอบรมของโมเดลที่ใหญ่ใช้ในงานวิจัยเช่นนี้ การสร้าง AI supercomputer สำหรับการฝึกอบรมข้อมูลภายในและโมเดลนั้นเป็นการลงทุนทางการเงินจำนวนมาก รวมถึงการใช้งานเฉพาะของ CPU และ GPU ในการค้นหาโมเดลพื้นฐานสำหรับ AI นั้น IBM ได้สร้าง AI supercomputer ของตัวเองในบริษัท โดยตั้งชื่อว่า Vela ซึ่งมีบทบาทสำคัญในการฝึกอบรมของโมเดลพื้นฐาน AI ที่สามารถเข้าถึงได้ในแพลตฟอร์ม AI และข้อมูล WatsonX ของ IBM
การนำ Vela ไปใช้งานได้ประสบความสำเร็จ ทำให้ IBM Research ตัดสินใจสร้างคลัสเตอร์ GPU เพิ่มเติมขึ้น เป็นพิเศษสำหรับการฝึกอบรม AI โดยเฉพาะ โดยมุ่งเน้นไปที่ลูกค้าในสหรัฐอเมริกาคุณลักษณะที่โดดเด่นของ Vela คือการออกแบบหลักโดยใช้ส่วนประกอบสำเร็จรูปและการทำความเย็นด้วยอากาศ ซึ่งช่วยให้ง่ายต่อการใช้งานในศูนย์ข้อมูลมาตรฐาน รวมถึงศูนย์ข้อมูลที่ไม่ได้อยู่ใน IBM Cloud
การใช้โปรโตคอลและสวิตช์ Ethernet มาตรฐานถูกนำมาใช้เพื่อลดค่าใช้จ่ายในการจัดการข้อมูลระหว่าง CPU และ GPU โดยการเรียกใช้โค้ดใน "โลหะเปล่า" ได้เพิ่มค่าใช้จ่ายในซอฟต์แวร์ IBM ยืนยันว่า Vela ได้รับประสิทธิภาพภายในขอบเขตของ 5% ของการทำงานซอฟต์แวร์ต่อโหนดของโลหะเปล่าแต่ละตัว โดยทุกโหนดประกอบด้วย Nvidia A100 GPU 8 ตัว และ Intel Xeon Scalable Processors 2 ตัวที่เชื่อมต่อกันผ่าน NVLink การอัพเกรด Vela รวมถึงการใช้งาน RoCE (RDMA over Converged Ethernet) และ GDR (GPU-direct RDMA) เพื่อตอบสนองความต้องการของ GPU และเครือข่ายที่เร็วขึ้น
การใช้เทคนิค RDMA เช่น RoCE และ GDR เพิ่มประสิทธิภาพของเครือข่าย Vela อย่างมีนัยสำคัญ ช่วยลดความล่าช้า ทำให้สามารถปรับขนาดของงานได้เป็นเส้นตรงเกือบทุกประการ รวมถึงการฝึกอบรมโมเดล IBM Granite ที่มีพารามิเตอร์ขนาด 20 พันล้าน ซึ่งมีบทบาทสำคัญในการทำให้บริการ WatsonX Code Assistant for Z ของ IBM ดำเนินไปอย่างมีประสิทธิภาพ
เนื่องจากความหนาแน่นของส่วนประกอบเพิ่มขึ้น IBM ได้เสริมความเชื่อถือได้ของ Vela ผ่านการใช้อุปกรณ์เพิ่มเติมในทุกๆ ระดับของซอฟต์แวร์ เพื่อตรวจจับและแยกประสิทธิภาพการล้มเหลวของระบบที่เป็นไปได้ ซึ่งจะช่วยปกป้องความเชื่อถือของระบบโดยรวม
ในอนาคต IBM กำลังวางแผนที่จะพัฒนาโมเดล Vela ให้มีประสิทธิภาพมากขึ้น รวมไปถึงการพัฒนาชิป AI ที่เป็นเอกลักษณ์ชื่อว่า Artificial Intelligence Unit (AIU) มีเป้าหมายเพื่อปรับปรุงความสามารถในการทำคณิตศาสตร์แบบหลายทศวรรษที่สำคัญ สำหรับงานการใช้ประโยชน์นั้น AIU มีความสามารถในการทำคณิตศาสตร์แบบจำนวนเต็มไปจนถึง 2 บิต เพื่อเพิ่มประสิทธิภาพและประสิทธิผลในการใช้งาน จากการทดสอบล่าสุดที่ศูนย์วิจัย IBM ได้ประสบความสำเร็จในการใช้งาน AIU ช่วยในเรื่องศูนย์ข้อมูลลูกค้า การกระทำดังกล่าวนี้แสดงให้เห็นถึงการทุ่มเทของ IBM ในการก้าวขึ้นมาเป็นผู้นำในด้าน AI ผ่านการพัฒนาฮาร์ดแวร์และซอฟต์แวร์ให้เป็นนวัตกรรมใหม่