지식 재산권 관련/특허 분석

특허 분석 : 개인화된 자동 비디오 자르기(Personalized Automatic Video Cropping)

잡학다식을꿈꾼다 2022. 12. 27. 03:01
반응형

 해당 출원은 2020년 12월 8일에 국제 출원되었고, 공개는 2022년 4월 5일에 이루어졌다. 특허의 등록은 2022년 10월 7일에 이루어졌으며, 공고는 2022년 10월 14일에 이루어졌다. 이 출원은 2019년 12월 13일 미국에서 먼저 출원된 바 있으며, 한국에서의 출원은 미국을 우선국으로 한 우선권 주장을 수반한다. 청구항은 총 20개 이다. 특허에 대한 자세한 정보는 해당 링크에서 참고하기를 바란다. 특허의 외적인 부분에 대해서는 이 정도만 언급하기로 한다. 물건 발명과 방법 발명을 모두 포함하고 있으며, BM 발명이다. (특허법의 발명 정의를 보수적으로 적용하면 발명이 자연 법칙을 그대로 이용하여야 하기 때문에, 사람이 정한 규칙인 비지니스 모델이 적용된 기기 및 방법이 그 발명 전체에 대하여 자연법칙을 사용하였는 지를 확인할 필요가 있다. 다만 시대적 흐름에 따라서 BM 발명을 비롯한 다양한 발명의 형태가 등장하였고, 이들을 보호해야할 필요성 역시 크게 강조되고 있어서 발명에 대한 정의를 넓게 보는 것이 실무적인 심사 기준이 되었다.)

기술 배경

 때때로 비디오의 종횡비와 방향이 비디오를 출력하는 디바이스의 종횡비 및 방향과 일치하지 않는 경우가 있다. 종종 디스플레이를 위하여 레터박스 처리가 되는 경우가 있다. 스마트폰으로 영상을 가로로 보다가 세로로 본 적이 한 번쯤 있을 것이다. 대부분의 영상들이 스마트폰의 방향에 맞추어 영상의 사이즈가 줄어드는 데, 양 옆 가로 혹은 세로로 검은 줄이 생겨서 영상의 사이즈가 예상보다 더 줄어든 경험도 한 번 쯤은 있을 것이라 생각된다. 밑의 그림처럼 말이다.

 

디바이스가 가로 방향일 때의 영상

 

디바이스가 세로 방향일때의 영상, 검정색 선으로 나타난 것이 레터박스이다.

 

때때로 레터박스는 사용자의 경험을 방해한다. 일부 어플리케이션은 레터박스 처리를 하는 대신 원본 영상의 일부를 잘라내기도(Crop) 한다. 해당 발명의 목적은 사용자 개인의 필요에 따라 자동으로 사용자의 부담 없이 영상을 자르는 기능을 제공하는 것이다.

 

발명의 내용

 특허법에 의하면 청구항 1개당 1개의 발명을 포함한다. 즉 이 출원은 20개의 발명에 대해서 별도로 출원한 것과 같은 효력을 가진다. 그러면 "20 개의 발명을 모두 분석해야하는 가"라는 질문에 대해서 답하자면 그럴 필요는 없다고 답하고 싶다. 보통 청구항에 대한 기재 방식이 먼저 독립 청구항을 기재하고, 독립 청구항을 인용하는 종속항을 기재하여 놓았기 때문이다. 다음은 첫 번째 청구항에 기재된 내용이다.

 

청구항 1
컴퓨터 구현 방법으로서,
복수의 프레임을 포함하는 입력 비디오를 획득하는 단계와;
사전 결정된 기준에 기초하여 입력 비디오의 각 프레임 내의 하나 이상의 후보 자르기(crop) 영역에 대한 프레 임별 자르기 스코어를 결정하는 단계와;
트레이닝된 기계 학습 모델을 사용하여, 입력 비디오의 각 프레임 내의 하나 이상의 후보 자르기 영역에 대한 얼굴 신호를 생성하는 단계와;
하나 이상의 후보 자르기 영역의 얼굴 신호에 기초하여 각 프레임별 자르기 스코어를 조정하는 단계와;
모션(motion) 비용 및 하나 이상의 후보 자르기 영역에 대한 조정된 프레임별 자르기 스코어에 기초하여 입력 비디오에 대한 자르기 영역 위치들을 나타내는 최소 비용 경로를 결정하는 단계와;
최소 비용 경로를 따라 자르기 영역 위치들에 대응하는 자르기 키프레이밍(keyframing)을 생성하는 단계와, 상 기 자르기 키프레이밍은 시작 프레임, 종료 프레임 및 자르기 영역 위치를 포함하고;
그리고 입력 비디오의 해당 종횡비 또는 방향과 상이한 종횡비 또는 방향 중 하나 이상을 갖는 수정된 비디오를 출력하 는 단계를 포함하고, 상기 입력 비디오의 종횡비 또는 방향은 입력 비디오의 캡처 동안 사용되는 파라미터인 것 을 특징으로 하는 컴퓨터 구현 방법.

 

 가장 기본이 되는 발명은 총 7개의 단계로 나누어져 있다. 1 단계는 복수의 프레임(Frame)을 얻는 단계, 2 단계는 설정된 기준에 따라서 프레임 당 프레임 내에서의 후보 자르기 영역에 대한 프레임 별 자르기 스코어(Score)를 결정하는 단계, 3 단계는 트레이닝된 기계 학습 모델을 이용하여 프레임 당 후보 자르기 영역의 얼굴 신호를 생성하는 단계, 4 단계는 3 단계에서 얻은 얼굴 신호를 바탕으로 프레임 별 자르기 스코어를 조정하는 단계, 5 단계는 모션(Motion) 비용 및 하나 이상의 자르기 영역에 대한 조정된 프레임별 자르기 영역 스코어를 기준으로 입력 비디오에 대한 자르기 영역 위치들을 나타내는 최소 비용 경로를 결정하는 단계, 6 단계는 최소 비용 경로에 따라 자르기 영역 위치들에 대응하는 자르기 키프레이밍(Keyframing)을 생성하는 단계, 마지막으로 키프레이밍이 시작 프레임, 종료 프로임, 자르기 영역 위치를 포함하고 입력 비디오의 해당 종횡비 혹은 방향 중 하나 이상이 수정된 비디오를 출력하는 단계로 구성된다. 다음은 발명의 주요 단계를 다이어 그램으로 표현한 것이다.

 

 

 종속항에 기재된 발명들은 각 단계의 내용을 구체화 시키거나, 혹은 직렬로 구성된 방식을 병렬로 바꾸는 것, 추가적인 파라미터를 사용하는 등 부가상항을 결합하여 구성된 방법 혹은 그러한 방법을 구현할 수 있는 기기로 구성되어 있다.

 이 발명에서 중요한 부분은 개인화에 있다. 생각을 해보자. 우리가 이미지 혹은 비디오를 볼 때 모든 부분을 보지는 않는다. 영상의 종류에 따라 다르겠지만 대부분 영상 혹은 이미지의 주인공을 보기 마련이다. 예를 들어 강아지가 잔디를 뛰어다니는 사진을 본다면 우리는 뒤의 잔디보다는 강아지를 볼 것이다. 또 유튜브 브이로그를 볼 때 유튜버가 자기 자신을 찍는 장면에 대해서 우리는 뒤의 배경보다는 말하고 있는 유튜버를 보게 될 것이다. 즉 영상의 모든 영역은 사용자에게 있어서 같은 가치를 가지는 것이 아니다. 만약 자르기를 실행한다면 사용자의 입장에서는 자신이 보고 싶어하는 부분이 자른 후에도 남기를 바랄 것이다. 이 발명은 기본적으로 프레임 단위로 후보 자르기 영역을 설정한 후 해당 영역에 대해서 스코어를 낸다.

 어떤 영상인지에 따라서 스코어의 기준은 달라질 수 있다. 이 점을 고려하여 해당 출원에서는 파라미터로써 미적 점수, 사람 혹은 얼굴에 대한 분석, 활성 화자에 대한 분석 등 다양한 파라미터를 가질 수 있다고 발명의 설명에 기재를 해놓았다. 또한 일부 발명에 대해 사용자 개인에 대해 최적화된 자르기 기능을 제공하기 위해 사용자의 정보를 수집하여 이용할 수 있다고 기재를 해놓았다. 사용자의 개인 정보는 프레임 단위로 후보 영역에 대해 스코어를 낼 때 사용될 뿐만 아니라, 일부 발명에 대해서는 개인 정보를 차후 다룰 얼굴 신호 분석 및 생성을 위한 기계 모델의 학습에 사용될 수 있다. 개인 정보 수집을 원하지 않는 사용자를 위해서 개인 정보의 이용은 동의를 한 사용자에 한해서 이루어지도록 하였다.

 대다수의 경우에 있어서 사람의 얼굴은 그 장면의 주요 요소인 경우가 되는 경우가 있다. 그 점을 고려하여 이 발명에서는 후보 자르기 영역에 있는 얼굴에 대한 신호를 학습된 기계 모델을 이용하여 추출하게 된다. 추출된 신호를 바탕으로 전 단계에서 각 후보 영역에 대해 책정한 스코어를 재조정하게 된다. 얼굴 신호에 대해서 일부 발명은 2 개의 기준으로 분석될 수 있다고 기재되어 있었다. 하나는 단순히 해당 후보 영역에 사람의 얼굴이 존재하는 지 여부를 측정하는 것이고, 다른 하나는 사용자에게 있어서 "중요한" 얼굴이 후보 영역에 존재하는 지 여부를 측정하는 것이다. 두 번째 기준인 "중요한 얼굴"이 당연히 첫 번째 기준인 단순한 얼굴 존재 유무보다는 스코어에 크게 기여한다. 우리는 단순히 지나가는 행인의 얼굴보다는 그 영상의 주인공의 얼굴을 중요하게 생각하기 때문이다. 

 추출한 얼굴 신호는 후보 자르기 영역의 스코어를 재조정하는 데 사용된다. 얼굴이 단순히 영역 내에 존재하는 것 뿐만 아니라, 해당 신호가 존재하는 위치, 크기 등 역시 스코어에 영향을 주게된다. 중앙에 위치할 수록, 신호의 크기가 클수록 후보 스코어의 크기는 커질 것이다.

 모션 비용을 결정해야 한다. 모션 비용은 이전 시간에서 잠재적인 자르기 경로 및 비디오에 존재하는 모션이 존재하면 특정 영역에 후보 자르기 영역을 선택하는 것과 관련된 비용이다. 영상은 단순히 그림의 연속이 아니다. 영상 내부에는 "움직임"이 존재하고 중요하다 생각되는 부분만을 자르게 된다면 "영상의 움직임"을 해치게 될 것이다. 자연스러운 영상을 위해서는 이전 후보 영역의 프레임과 현재의 후보 영역 프레임이 잘 이어지는 지를 생각해야 한다. 잘 이어지는 정도를 모션 비용이라 하고, 모션 비용이 적을 수록 다음 프레임으로 이어지는 부담이  줄어들게 된다. 예를 들어보자. 다음의 프레임을 포함하는 영상을 자른다고 가정하자. 

 

1번 프레임

 

2번 프레임

 

영상에서 2 명의 인물이 있고, 좌에서 우로 이동한다고 하자. 그리고 이전 단계에 의해서 1번 프레임과 2번 프레임에서는 후보 영역이 정해졌고, 그 영역이 점선 상자로 표시되어 있다. 1번 프레임과 2번 프레임이 만약 시간적으로 가깝다면 후보 영역 내의 각 픽셀들은 그 값이 크게 변하지 않을 것이다. 주시하고 있는 대상이 동일하고, 그 대상이 움직일 수 있는 시간이 극도로 짧다면 그 변화가 작을 것이다. 또한 변화가 있더라도 그 행동에 따라서 일정한 경향성이 있을 것이다. 따라서 후보 영역에 대해서 모션 비용이 크게 소모가 된다면 때에 따라서는 차순위 후보 영역을 선택하거나 혹은 보간을 하여 새로운 프레임을 만들어낼 필요가 있을 것이다. 모션 비용을 결정하는 구체적인 방식에 대해서는 언급이 없었다. 후보 자르기 영역에 대해서 프레임에서 다음 프레임으로 넘어갈 때 최소한의 모션비용인 경우만을 모아 그 경로를 표현한 것이 최소 비용 경로이다. 차후 진짜 자르기 영역이 되는 키프레이밍 영역은 최소 비용 경로를 따라 생성되게 된다.

 키프레이밍 영역은 시작 프레임, 종료 프레임, 각 프레임 당 영역 위치를 포함하고 있고, 사용자의 요구에 따라 입력 방향, 혹은 종횡비 중 하나 이상이 변경된 영상을 출력하게 된다. 사용자 디바이스의 종횡비 및 입력 방향은 영상 캡처 단계에서 재생 명령을 어플리케이션이 수신하는 과정에서 얻을 수 있다. 또한 추출된 키프레이밍 영역은 특정 기준에 따라서 그 품질을 측정할 수 있다. 경우에 따라서는 추출된 키프레밍이 조건을 만족하지 못하여 차라리 레터박스를 포함한 영상을 송출하는 것이 나을 경우, 잘려진 영상이 나가지 않을 수 있다. 만약 위의 1 번 프레임, 2 번 프레임을 포함한 영상의 키프레밍에 따라서 추출된 영상은 다음과 같이 레터 박스 없이 이렇게 나올 것이다.

 

  

만약 자르기 없이 영상이 나온다면 이렇게 나올 것이다.

 

마무리

 개인적인 생각으로 이 발명을 출원한 이유는 동영상과 관련된 산업들이 크게 성장하면서 이 분야의 기술들을 사측에서 보호할 필요가 있기 때문이라 생각된다. 코로나의 유행, 정보화 시대 등 시대적인 이유로 동영상 플랫폼은 성장해 왔고, 이를 지원하는 디바이스의 종류 및 영상의 형태도 다양해졌다. 또한 일괄적인 서비스에서 만족하는 기존 세대와 다르게 좀 더 개인에게 최적화된 서비스를 원하는 경향 역시 두드러지고 있다. 개인의 기준에 맞추어서 영상을 자르는 시스템은 이러한 시대적 흐름에 부합하는 기술이다. 플랫폼 사용자로 하여금 자신이 보고 싶은 것을 개인 기기에 맞추어 조정함으로써 영상에 대한 몰입도를 높임으로써 플랫폼에 대한 충성도를 높임과 동시에, 새로운 영상의 형태(짧은 영상 길이, 세로 긴 방향 영상)를 주 컨탠츠로 하는 타 영상 플랫폼과의 경쟁에 있어서, 기존의 영상들(긴 영상 갈아, 가로 긴 방향 영상)을 새로운 형태로 쉽게 가공하고 제공할 수 있는 환경을 구축함으로써 유리한 위치를 선점할 수 있을 거라 판단된다. 또한 화상 미팅과 같이 대량의 데이터 송수신이 이루어지는 경우에 대해, 사용자가 영상의 부재로 인한 불편함 없이 압축된 영상을 제공함으로써 같은 업종 경쟁 업체 대비 유리한 고점을 가질 수 있을 것이라 생각된다. 

 

특허에 대해 더 잘 알고 싶다면 첨부한 파일을 읽어 보기를 바란다.

공고전문.pdf
0.72MB

반응형