AI(ÀΰøÁö´É) °æ·®È ¹× ÃÖÀûÈ Àü¹® ½ºÅ¸Æ®¾÷ ½ºÄûÁîºñÃ÷°¡ ´ëÇü ¾ð¾î ¸ðµ¨ ¼ºù(LLM Serving)À» À§ÇÑ ¸ÂÃãÇü ¼Ö·ç¼Ç ‘ÇÍÃ÷ ¿Â Ĩ½º(Fits on Chips)’¸¦ Ãâ½ÃÇß´Ù°í 3ÀÏ ¹àÇû´Ù.
ÇÍÃ÷ ¿Â Ĩ½º´Â LLM ¼ºù Àü °úÁ¤À» ´Ü¼øÈÇÏ°í ÃÖÀûÀÇ ¼³Á¤À» ãÀ» ¼ö ÀÖµµ·Ï µ½´Â ¼Ö·ç¼ÇÀÌ´Ù.
¸ðµ¨ ¼±Åà ´Ü°èºÎÅÍ ¼ºù ¿É¼Ç Á¶Á¤, ÀåÄ¡ ¹× ÇÁ·¹ÀÓ¿öÅ© ¼³Á¤, ¼º´É Æò°¡, ¹èÆ÷±îÁö LLM ¼ºù¿¡ ÇÊ¿äÇÑ ¸ðµç ´Ü°è¸¦ ¿ø½ºÅéÀ¸·Î Áö¿øÇÑ´Ù.
Çã±ëÆäÀ̽º µî ¿ÀǼҽº ¶óÀ̺귯¸®¿Í ¿¬µ¿ÇØ ´Ù¾çÇÑ LLM ¸ðµ¨À» ¼Õ½±°Ô ÅëÇÕÇÏ°í ¼º´ÉÀ» ºñ±³ Æò°¡ÇØ ÃÖÀûÀÇ LLM ¼ºù ¼³Á¤ °ªÀ» ã¾Æ Àû¿ëÇÏ´Â ¹æ½ÄÀÌ´Ù.
À̸¦ ÅëÇØ ¿£Áö´Ï¾îÀÇ ±âÁ¸ ÀÛ¾÷ ½Ã°£À» 30½Ã°£¿¡¼ 3½Ã°£±îÁö 10ºÐÀÇ 1·Î ÁÙÀÏ ¼ö ÀÖ´Ù.
ºñ¿ë ¶ÇÇÑ ¾à 2¹è ÀÌ»ó Àý¾àÇÒ ¼ö ÀÖ´Ù´Â °Ô ȸ»ç Ãø ¼³¸íÀÌ´Ù.
½ºÄûÁîºñÃ÷´Â ÃÖ±Ù ÀÎÅÚ, ³×À̹ö¿Í ÇÔ²² ÀÎÅÚÀÇ °¡¿ìµð Çϵå¿þ¾î¿¡¼ LLMÀ» È¿À²ÀûÀ¸·Î ÀÛµ¿½ÃÅ°±â À§ÇÑ Çù¾÷ ÇÁ·ÎÁ§Æ®¸¦ ÁøÇàÇÏ°í ÀÖ´Ù.
À̹ø Çù¾÷À» ÅëÇØ ¿£ºñµð¾ÆÀÇ GPU¿¡ À̾î ÀÎÅÚÀÇ °¡¿ìµð±îÁö ÇÍÃ÷ ¿Â Ĩ½ºÀÇ Áö¿ø ¹üÀ§¸¦ È®ÀåÇß´Ù.
ÃßÈÄ ´Ù¾çÇÑ Çϵå¿þ¾î¸¦ ºñ¿ë, ¼Óµµ °üÁ¡¿¡¼ ºñ±³ÇÒ ¼ö ÀÖµµ·Ï Á¦°øÇÒ ¹æħÀÌ´Ù.
Çϵå¿þ¾î»Ó ¾Æ´Ï¶ó vLLM, TensorRT-LLM°ú °°Àº ÇÁ·¹ÀÓ¿öÅ©¸¦ ´Ù°¢µµ·Î ºñ±³ ºÐ¼®ÇÏ´Â ±â´Éµµ Á¦°øÇÑ´Ù.
»ç¿ëÀÚ´Â ºÐ¼® °á°ú¸¦ ¹ÙÅÁÀ¸·Î ÃÖÀûÈµÈ LLM ¼ºù ȯ°æÀ» ±¸ÃàÇØ ÀÎÇÁ¶óÀÇ ÀüüÀûÀÎ È¿À²À» ±Ø´ëÈÇÒ ¼ö ÀÖ´Ù.
ÃßÈÄ AI ¿¡ÀÌÀüÆ®(Agent)¸¦ ¿¬µ¿Çϰųª AMD, ¾Æ¸¶Á¸, ±¸±Û µîÀÇ Çϵå¿þ¾î¸¦ Áö¿øÇÏ´Â µî ´õ ´Ù¾çÇÑ ¸ðµ¨°ú Çϵå¿þ¾î, ¼¹ö ȯ°æ µîÀ» Áö¿øÇÒ ¼ö ÀÖµµ·Ï È®ÀåÇØ ³ª°¥ °èȹÀÌ´Ù.
±èÇüÁØ ½ºÄûÁîºñÃ÷ ´ëÇ¥´Â “´©±¸³ª ½±°Ô LLM ¼ºùÀ» ½Ã¹Ä·¹À̼ÇÇÏ°í ºÐ¼®Çغ¼ ¼ö ÀÖµµ·Ï Á¦Ç°À» ¼³°èÇÏ°í °³¹ßÇß´Ù”¸ç “¾ÕÀ¸·Îµµ LLM ¼ºù ¼Ö·ç¼ÇÀ» ºñ·ÔÇÑ ´Ù¾çÇÑ ±â¼ú °³¹ßÀ» ÅëÇØ AI ¼ºñ½º ±â¾÷ÀÇ ¼º´É ÃÖÀûÈ¿Í ºñ¿ë Àý°¨À» Àû±Ø Áö¿øÇÏ°Ú´Ù”°í ¸»Çß´Ù.