- AI 추론 플랫폼…대형 모델 배포·복잡한 AI작업 처리 등 개선
클라우드플레어는 30일 본사 발표를 인용, 서버리스 AI 추론 플랫폼 ‘워커스 AI(Workers AI)’와 AI 애플리케이션 구축을 위한 여러 도구에 신규 기능을 도입하고, 개발자가 더욱 빠르고 향상된 성능의 AI 애플리케이션을 손쉽게 구축할 수 있도록 지원한다고 밝혔다.
‘워커스 AI’는 전 세계 어디에서나 사용자와 가까운 곳에서 AI 추론을 실행하고 글로벌 AI 애플리케이션을 구축할 수 있는 플랫폼이다.
이번 도입으로 워커스 AI에 구축된 애플리케이션은 추론 속도 향상, 대형 모델에 대한 지원, 성능 분석등의 혜택을 누릴 수 있게 된다.
대형언어모델(LLM)의 규모가 점점 작아지고 성능은 향상됨에 따라, 네트워크 속도가 고객의 채택과 원활한 AI 상호 작용에 장애물이 될 것으로 예상된다.
클라우드플레어의 글로벌 분산 네트워크는 네트워크 지연 시간을 최소화해, 일반적으로 제한된 데이터센터에 집중돼 있는 자원으로 구성된 다른 네트워크와 차별화된다.
클라우드플레어의 서버리스 추론 플랫폼 ‘워커스 AI’는 현재 전 세계 180여 개의 도시에 GPU를 배치, 전 세계 엔드유저에게 짧은 대기 시간을 제공하도록 설계됐다.
‘워커스 AI’는 이같은 GPU 네트워크를 통해 모든 AI 플랫폼 중 가장 넓은 글로벌 범위를 갖추고 있으며, 사용자와 최대한 가까운 지역에서 AI 추론을 실행하고 고객 데이터를 보관할 수 있도록 지원한다.
매튜 프린스(Matthew Prince) 클라우드플레어 CEO 겸 공동 창업자는 “지난해 AI가 급속도로 성장할 때, 아무도 네트워크 속도가 AI 지연의 원인으로 작용할 것이라고 생각하지 않았다. 그 시점에서 AI는 여전히 새롭고 실험적인 상호작용이었기 때문이다. 하지만 AI가 점차 일상화되면서 네트워크와 밀리초의 중요성 또한 커지고 있다”며 “AI 워크로드가 학습에서 추론으로 전환됨에 따라, 다음 단계의 AI를 지원하기 위해서는 성능과 지역별 가용성이 매우 중요하다. 클라우드플레어는 시장에서 가장 글로벌한 AI 플랫폼을 갖추고 있으며, 전 세계 여러 도시에 배치된GPU를 활용하면 스마트폰에 빠른 인터넷을 도입했던 것처럼 AI를 신기술에서 우리의 일상으로 받아들일 수 있을 것”이라고 설명했다.
클라우드플레어가 손쉬운 AI 애플리케이션 구축을 위해 새롭게 도입한 기능을 보면,
- 성능 업그레이드 및 대형 모델에 대한 지원 = 클라우드플레어는 더 강력한 워커스 AI 용 GPU를 도입해 글로벌 네트워크를 강화해 AI 추론 성능을 업그레이드하고, ‘라마(Llama) 3.1 70B’와 같이 훨씬 큰 모델 뿐만 아니라 ‘라마(Llama) 3.2’ 모델의 1B, 3B, 11B (추후 90B 예정)에서도 추론을 실행할 수 있도록 지원한다.
워커스 AI에 구축된 AI 애플리케이션은 지원하는 모델 규모를 늘리고 대응 시간을 줄이며 컨텍스트 윈도를 확장해 복잡한 작업을 효율적으로 처리한다.
- 지속적인 로그를 통한 AI 사용량 모니터링 및 최적화 개선 = 개발자는 오픈 베타에서 사용 가능한 ‘AI 게이트웨이(AI Gateway)’의 새로운 영구 로그 기능으로 인해 사용자의 프롬프트와 모델 응답을 장기간 저장하고 애플리케이션의 성능을 더 잘 분석하고 이해할 수 있다.
또한, 영구 로그를 통해 비용과 요청 기간 등 사용자 경험에서 자세한 인사이트를 확보해 애플리케이션을 개선할 수 있다.
실제로, 작년 출시 이후 AI 게이트웨이는 20억 건 이상의 요청을 수행했다.
- 더 빠르고 경제적인 쿼리 = 벡터 데이터베이스는 모델이 이전 입력을 더 쉽게 기억할 수 있도록 해 머신 러닝(ML)을 검색, 추천 및 텍스트 생성 사용 사례에 활용할 수 있도록 한다.
클라우드플레어의 벡터 데이터베이스 ‘벡터라이즈(Vectorize)’는 정식 출시(GA)됐으며, 2024년 8월 부터는 각각 최대 500만개의 벡터 인덱스를 지원하고 있다.
이는 이전의 20만 개에서 증가한 수치이다.
쿼리 대기 시간 중앙값은 549밀리초에서 31밀리초로 감소했다.
이같은 개선 사항은 AI 애플리케이션이 적은 데이터 처리로 관련 정보를 빠르게 찾도록 도와주며 AI 애플리케이션의 비용 또한 절감한다.
<김동기 기자>kdk@bikorea.net
김동기 기자 kdk@bikorea.net