구글 “이미지 인식 기술 초창기 단계, 갈 길 멀다”

백종모 기자

이미지 인식 기술은 아직 갈 길이 멀다. 구글도 이 기술에 대해서는 '아직 초창기' 단계다.

28일 오전 서울 역삼동 구글코리아에서는 'AI혁신과 구글렌즈'라는 주제로 포럼이 진행됐다. 포럼에서는 루 왕(Lou Wang) 구글 렌즈 프로덕트 매니저가 화상 연결을 통해 발표를 가졌다.

구글 렌즈는 지난해 가을 첫선을 보였으며, 구글 카메라 앱에 통합돼 시각기반으로 검색을 가능하게 하는 기술이다. 지난 5월 미국에서 열린 'GOOGLE I/O 2018'에서 구글 렌즈에 대한 몇 가지 개선 사항이 발표된 바 있다. 이날 포럼에서 왕 매니저는 당시 발표된 기술 내용과 함께 현재 개발 진행 상황에 대해서도 밝혔다.

왕 매니저는 "구글 렌즈는 아직 초창기 단계"라며 아직 검색 정확도를 수치화해서 말하기는 어려운 단계"라고 밝혔다. 그는 "일상생활에서 사물을 구별할 때, 현재 구글 보이스 수준의 정확도를 보이려면 좀 더 오랜 시간이 걸릴 것으로 생각한다"고 밝혔다. 현재 구글 보이스는 영어 인식의 경우 95% 수준의 정확도를 보인다.

이러한 차이는 음성보다 이미지를 인식할 때 처리 해야 하는 데이터가 많고, 과정도 복잡하기 때문이다. 왕 매니저는 "구글 보이스의 경우 영어 단어 수 18만 개 정도를 인식하면 되지만, 구글 렌즈는 인식 대상 수가 수십억 가지에 달한다. 바라보는 각도나 조명까지 고려하면 인식해야 하는 가짓수는 기하급수적으로 늘어난다"고 설명했다.

구글 렌즈는 보는 이미지의 각 요소에 레이블을 붙여 시스템에 알려주는 '분류(classification)'작업을 우선 실행한다. 이후 이미지의 어느 위치에 물체가 있는지 실시간으로 '탐지(detection)'하고, 추출된 값을 벡터 수치화하는 '임베딩' 작업을 거친다. 구글은 이러한 이미지 인식 학습에 걸리는 시간을 TPU(Tensor Processing Unit)를 통해 획기적으로 단축했다. TPU는 2016년 5월 구글이 내놓은 딥러닝용 하드웨어다. 왕 매니저는 "이전에 GPU를 사용할 때 몇 주가 걸리던 것을 수 시간 정도에 처리할 수 있다"고 소개했다.

구글 렌즈는 '스마트 텍스트 선택'기능을 통해 글자를 인식할 수 있다. 가령 음식점 메뉴판에서 처음 보는 음식 이름이 있을 때, 구글 렌즈를 사용해 바로 검색할 수 있다. 요리 레시피, 기프트카드 코드, 와이파이 비밀번호와 같은 일상생활에서 접하는 텍스트를 구글 렌즈로 복사해 휴대폰에 붙여넣을 수도 있다.

'스타일 매치' 서치 기능은 마음에 드는 의류나 인테리어 아이템을 발견했을 때, 해당 아이템 또는 유사한 아이템을 검색할 수 있도록 하는 기능이다. 아이템의 사진은 물론 리뷰까지 한 번에 찾아볼 수 있다.

또한 주요 랜드마크 및 상점 등의 건물부터 식물·동물 등의 인식도 가능하다. 구글이 검색·스트리트뷰·동영상 등을 통해 축적한 이미지를 머신 러닝을 통해 학습 시킨 결과다.

왕 매니저는 "이미지 인식 기술은 음성 인식 기술과 마찬가지로 IT 기기 이용에 근본적인 변화를 가져올 기술이라 본다"며 "앞으로 수년에 거쳐 발전시켜 나가겠다"고 밝혔다.

한편 구글 렌즈를 통한 검색의 '사생활 침해 소지'에 대해 왕 매니저는 "카메라를 켠다고 항상 구글 렌즈가 작동하는 것은 아니다. 구글 렌즈가 작동되는 해당 장면만 구글 서버로 전송되며, 현재 텍스트나 보이스에 쓰고 있는 프라이버시 보호 정책을 구글 렌즈에도 동일하게 적용하고 있다"고 설명했다.

백종모 기자 phanta@dailysmart.co.kr / 기사제공=스마트경제

백종모 기자 phanta@xportsnews.com