KAIST´Â Àü»êÇкΠ¹ÚÁ¾¼¼ ±³¼ö ¿¬±¸ÆÀ(Á¶ÀçÈ«¡¤±è¹Î¼ö¡¤ÃÖÇö¹Î¡¤Ç㱸½½ Çлý)ÀÌ Ãֱ٠ij³ª´Ù ¹êÄí¹ö¿¡¼ ¿¸° ¡®2024 IEEE ±¹Á¦ ¿öÅ©·Îµå Ư¼ºÈ ½ÉÆ÷Áö¾ö(IEEE International Symposium on Workload Characterization¡¤ÀÌÇÏ IISWC 2024)¡¯¿¡¼ ÃÖ¿ì¼ö ³í¹®»ó°ú ÃÖ¿ì¼ö ¿¬±¸ ±â·Ï¹° »ó¡¯À» µ¿½Ã ¼ö»óÇß´Ù°í 11ÀÏ ¹àÇû´Ù.
IISWC´Â ÄÄÇ»ÅÍ ½Ã½ºÅÛ ¿öÅ©·Îµå Ư¼ºÈ ºÐ¾ß ±¹Á¦ ÇÐȸ´Ù. Åë»ó ÃÖ¿ì¼ö ³í¹®»ó°ú ÃÖ¿ì¼ö ¿¬±¸ ±â·Ï¹° »óÀº °¢°¢ ¼ö¿©µÅ ¿Ô´Ù. ÇÏÁö¸¸ ¿ÃÇØ´Â ¹Ú ±³¼öÆÀÀÇ ³í¹®ÀÌ µÎ »óÀ» ¸ðµÎ ÈÛ¾µ¾ú´Ù´Â Á¡¿¡¼ ÀÌ·ÊÀûÀÌ´Ù.
¾Õ¼ ¿¬±¸ÆÀÀº ¡®ÃÊ°Å´ë ¾ð¾î¸ðµ¨ Ãß·Ð ¼ºñ½º Á¦°øÀ» À§ÇÑ Çϵå¿þ¾î/¼ÒÇÁÆ®¿þ¾î °øµ¿ ½Ã¹Ä·¹ÀÌ¼Ç ÀÎÇÁ¶ó(LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale)¡¯ Á¦ÇÏÀÇ ³í¹®À» ¹ßÇ¥Çß´Ù.
¿¬±¸ÆÀÀº ¿¬±¸¸¦ ÅëÇØ ÃªGPT µî °Å´ë¾ð¾î¸ðµ¨(ÀÌÇÏ LLM) Ãß·Ð ¼ºñ½º¸¦ ½ÇÇàÇÏ´Â ´ë±Ô¸ð ½Ã½ºÅÛ¿¡ ¿©·¯ Çϵå¿þ¾î¿Í ¼ÒÇÁÆ®¿þ¾î¸¦ °áÇÕÇØ ½Ã¹Ä·¹À̼ÇÇÒ ¼ö ÀÖ´Â ½Ã¹Ä·¹ÀÌ¼Ç ÀÎÇÁ¶ó¸¦ Á¦¾ÈÇß´Ù.
À̸¦ ÅëÇØ ±×·¡ÇÈó¸®ÀåÄ¡(GPU), ½Å°æ¸Áó¸®ÀåÄ¡(NPU)¿Í Áö´ÉÇü¸Þ¸ð¸®¹ÝµµÃ¼(PIM) µî Çϵå¿þ¾î¿Í ¹Ýº¹ ¼öÁØ ½ºÄÉÁ층, KV ij½Ã ÆäÀÌ¡ µî ÃÊ°Å´ë ¾ð¾î¸ðµ¨ Ãß·ÐÀ» À§ÇÑ ¼ÒÇÁÆ®¿þ¾î ¿ä¼Ò ¸ðµÎ¸¦ ½Ã¹Ä·¹À̼ÇÇÏ´Â °ÍÀÌ °¡´ÉÇØÁ³´Ù.
¿¬±¸ÆÀÀº ¿¬±¸ ¼º°ú°¡ ÇâÈÄ ÃªGPT µî LLMÀ» È°¿ëÇÏ´Â ´Ü¼øÇÑ Ãªº¿ ÀΰøÁö´ÉÀ» ³Ñ¾î, »ý¼ºÇü ÀΰøÁö´É(Generative AI)À¸·Î ´ëÇ¥µÇ´Â ¹Ì·¡ ÀΰøÁö´É »ê¾÷¿¡¼ ÀÌÁ¾ ÀΰøÁö´É ¹ÝµµÃ¼ ±â¹ÝÀÇ Å¬¶ó¿ìµå ½Ã½ºÅÛÀ» ±¸ÃàÇÏ´Â µ¥ È°¿ëµÉ ¼ö ÀÖÀ» °ÍÀ¸·Î ±â´ëÇÏ°í ÀÖ´Ù.
IISWC´Â ¿¬±¸ÆÀÀÌ LLM Ãß·Ð ¼ºñ½º¸¦ À§ÇÑ Çϵå¿þ¾î¿Í ¼ÒÇÁÆ®¿þ¾î¸¦ ÅëÇÕÇÑ ½Ã¹Ä·¹ÀÌ¼Ç ÀÎÇÁ¶ó¸¦ ÃÖÃÊ °³¹ßÇÑ Á¡°ú ¿ÀǼҽº·Î °ø°³ÇÑ ÄÚµåÀÇ ¿Ï¼ºµµ, »ç¿ëÀÚ ÆíÀǼº µîÀ» ³ô°Ô Æò°¡Çß´Ù.
¹Ú ±³¼ö´Â ¡°¿¬±¸ÆÀÀº ¾ÕÀ¸·Îµµ »ý¼ºÇü ÀΰøÁö´ÉÀ» À§ÇÑ Å¬¶ó¿ìµå ½Ã½ºÅÛ ¿¬±¸¸¦ Áö¼ÓÇØ ³ª°¥ °Í¡±À̶ó°í ¸»Çß´Ù.
ÇÑÆí À̹ø ¿¬±¸´Â Çѱ¹¿¬±¸Àç´Ü ¿ì¼ö ½ÅÁø¿¬±¸ÀÚÁö¿ø»ç¾÷, Á¤º¸Åë½Å±âȹÆò°¡¿ø(IITP), ÀΰøÁö´É ¹ÝµµÃ¼´ëÇпø Áö¿ø»ç¾÷, ÇÏÀÌÆÛ¿¢¼¿ÀÇ Áö¿øÀ» ¹Þ¾Æ ¼öÇàµÆ´Ù.
´ëÀü=Á¤ÀÏ¿õ ±âÀÚ jiw3061@asiae.co.kr <¨ÏÅõÀÚ°¡¸¦ À§ÇÑ °æÁ¦ÄÜÅÙÃ÷ Ç÷§Æû, ¾Æ½Ã¾Æ°æÁ¦ ¹«´ÜÀüÀç ¹èÆ÷±ÝÁö> |