멀티모달

구글 제미나이 전용 AI 음악 생성 모델 ‘리리아 3’ 공식 출시 및 멀티모달 기능 강화

구글 제미나이 전용 AI 음악 생성 모델 ‘리리아 3’ 공식 출시 및 멀티모달 기능 강화 * 구글 딥마인드의 최신 음악 생성 AI 모델인 ‘리리아 3’를 제미나이 앱에 통합하여 텍스트 및 시각적 데이터를 기반으로 한 30초 분량의 맞춤형 음악 제작 기능 제공. * 사용자가 직접 가사를 쓸 필요 없이 프롬프트에 따라 가사, 보컬, 템포를 자동으로 구성하며 사진이나 동영상의 분위기를 분석해 음악으로 전환하는 멀티모달 기술력 확보. * 저작권 침해 방지를 위해 기존 아티스트의 단순 모방을 제한하는 필터링 시스템과 AI 생성 저작물임을 식별하는 ‘신스ID’ 워터마크 기술을 도입하여 책임감 있는 AI 개발 강조. * 유튜브 쇼츠용 ‘드림 트랙’과의 연동을 통해 글로벌 크리에이터 생태계를 확장하고, 애플 및 스포티파이 등 경쟁사들의 AI 음악 도구 출시에 대응하는 전략적 서비스 강화.

알리바바의 초소형·고성능 AI '쿠엔 3.5' 공개 및 온디바이스 AI 시장의 전략적 변곡점

* 알리바바의 인공지능 연구팀이 대형 모델의 성능을 압도하는 초소형 오픈소스 인공지능 '쿠엔 3.5' 시리즈를 전격 공개. * 90억 개의 매개변수를 가진 소형 모델이 13배 이상 거대한 기존 모델들의 벤치마크 점수를 추월하며 기술적 효율성을 입증. * 텍스트와 시각 정보를 동시에 처리하는 네이티브 멀티모달 아키텍처를 도입하여 노트북과 스마트폰 등 엣지 기기에서의 자율형 에이전트 구현 가능성 제시. * 아파치 2.0 라이선스 기반의 완전 개방 정책을 통해 클라우드 의존도를 낮추고 기업들이 독자적인 인공지능 생태계를 구축할 수 있는 환경 조성.

구글 '서치 라이브' 전 세계 확대: 제미나이 3.1 플래시 라이브가 이끄는 대화형 검색 혁신

* 구글 서치 라이브 기능을 한국을 포함한 200개 이상의 국가 및 지역으로 전격 확대 출시함. * 최신 음성 AI 모델인 제미나이 3.1 플래시 라이브 탑재를 통한 인간에 가까운 자연스러운 대화 구현. * 텍스트 입력 없이 음성과 카메라를 활용하여 실시간으로 소통하는 멀티모달 검색 경험의 대중화. * 검색 결과 내 직접 답변 제공 방식 강화로 인한 기존 웹사이트 방문 트래픽의 감소 가능성 대두.

엔비디아, 시각·청각·언어 통합형 개방형 AI 모델 '네모트론 3 나노 옴니' 공개

* 시각, 청각, 텍스트를 단일 아키텍처로 통합한 300억 매개변수 규모의 혼합 전문가(MoE) 모델 발표. * 기존 분절된 멀티모달 스택 대비 최대 9배 높은 처리량과 저지연 추론 성능 확보. * 256,000 토큰의 대규모 컨텍스트 창 지원 및 복잡한 문서 분석과 에이전트 추론 능력 강화. * 모델 가중치, 학습 데이터, 학습 레시피를 모두 공개하여 기업의 맞춤형 배포 및 제어권 보장.

구글, 제미나이 구독료 인하 및 고성능 AI 에이전트 '스파크' 공개

* 최상위 AI 울트라 요금제 가격 인하 및 개발자·전문직 타겟의 100달러 신규 요금제 도입 * 웹과 안드로이드 OS를 통합 제어하여 복잡한 작업을 수행하는 24시간 AI 에이전트 '제미나이 스파크' 출시 * 영상, 이미지, 음성을 자유롭게 생성·편집하는 멀티모달 모델 '제미나이 옴니' 및 '3.5 플래시' 공개 * 단순 프롬프트 횟수 제한에서 작업 복잡도에 따른 '컴퓨팅 자원 사용량' 기반의 제한 모델로 전환

구글, 모든 입력값으로 영상 제작 가능한 '제미나이 옴니' 공개

* 제미나이 옴니 모델의 공개 및 멀티모달 입력 기반의 영상 생성 기능 도입 * 대화를 통한 연속적인 영상 편집 및 캐릭터와 환경의 일관성 유지 기능 제공 * 물리 법칙 및 세계 지식의 결합을 통한 사실적인 스토리텔링 구현 * 제미나이 옴니 플래시의 조기 배포 및 유튜브 쇼츠 등 구글 생태계 통합 가속화

구글 제미나이 사용 제한 조정 및 AI 울트라 구독 모델 확대

* 구글 제미나이 모델의 컴퓨팅 기반 사용 제한 도입 및 사용자 불만에 따른 안티그래비티 한도 수차례 상향 * 개발자 및 전문가용 100달러 AI 울트라 플랜 신설 및 기존 최상위 플랜의 가격 인하 단행 * 24시간 AI 에이전트 '제미나이 스파크' 및 가상 세계 생성 도구 '프로젝트 지니' 등 고도화된 기능 출시 * 비디오 입력 기반의 멀티모달 모델 '제미나이 옴니'와 생산성 향상을 위한 AI 인박스 및 데일리 브리프 도입

구글 I/O 2026: 제미나이 에이전트 생태계 확장과 검색 패러다임의 전환

* 24시간 상주형 개인 비서 '제미나이 스파크' 및 고화질 영상 생성 모델 '제미나이 옴니' 공개 * 25년 만의 검색창 디자인 변경 및 AI 기반의 능동적 에이전트 검색 기능 도입 * 클라우드 기반의 편의성과 로컬 하드웨어 기반의 프라이버시(OpenClaw) 간의 구동 환경 대립 * AI 검색 고도화를 통한 사용자 체류 시간 증대 및 광고 수익 모델의 구조적 강화

구글, Gemma 4 12B 및 AI Edge Gallery 출시로 로컬 멀티모달 AI 생태계 확장

* Gemma 4 12B 모델 출시 및 macOS용 AI Edge Gallery 지원 확대 * 인코더 없는 통합 아키텍처를 통한 저지연·저메모리 멀티모달 처리 구현 * 16GB RAM 노트북에서 작동 가능한 고성능 로컬 에이전트 환경 제공 * 온디바이스 전용 받아쓰기 앱 'AI Edge Eloquent'를 통한 생산성 강화

코드의 이미지 변환을 통한 60% 비용 절감 기술과 타당성 논쟁

* 방대한 텍스트 컨텍스트를 이미지로 렌더링하여 클로드 코드의 입력 토큰 사용량을 혁신적으로 줄이는 로컬 프록시 도구인 픽스파이프의 출시. * 이미지 토큰 비용이 픽셀 크기에 의해 고정된다는 점을 활용하여 코드 및 제이슨 등 밀도 높은 데이터를 PNG 이미지로 변환 후 모델에 OCR 방식으로 읽게 하는 우회 방식 적용. * 정확한 바이트 단위 매칭이 불가능한 손실성 압축의 특성으로 인해 발생하는 고유 식별자 및 해시값 인식 오류와 실시간 이미지 변환에 따른 지연 시간 문제. * 벤치마크 테스트 결과 실제 업무에서의 성능 저하가 미미한 수준으로 제어되며 향후 시각적 컨텍스트 효율성 극대화 및 장기 작업 추론 능력 향상 가능성 제시.