コンピュータビジョン

コンピュータビジョン(英語表記:Computer Vision、略称:CV)は、人間の視覚機能を計算機上で実現するための各種カメラおよび記録装置(ハードウェア)から、対象物およびその環境を認識する処理過程(ソフトウェア)までを幅広く包含する技術の総称です。広義の意味での『画像処理』およびパターン認識の1つである『画像認識』はCVとほぼ同義語ですが、一般に明確な区別はされていません。

歴史的に見ると、CVは当初、人工衛星画像の画質改善(1960年代~)やCT(コンピュータ断層撮影)画像の解析技術(1970年代~)として注目を集めました。また、ステレオ視による3次元シーンの復元の研究の歴史は古く、その始まりは1970年代まで遡ります。計算機の性能向上と相まって1990年代にはStructure from Motionに代表される多視点画像を用いた3次元再構成の研究が盛んに行われるようになりました。実務的には、工場における外観検査を主とする『マシンビジョン』、工業製品の組立ロボットや自律移動ロボットのような『ロボットビジョン』などの産業応用が進んでいます。

CVはこの10年で急速に一般ユーザが使用する製品への組込みが進み、デジタルカメラに搭載されている顔認識機能(2005年頃~)や自動車の衝突防止に代表される運転支援機能(2008年頃~)などが実用化されました。また、スマートフォンのカメラで食事風景を撮影し、食卓にある料理を自動で認識して健康管理のためのカロリー計算を行うアプリケーションも登場しています(2013年頃~)。さらに、最近ではウェアラブルデバイスの普及も相まって、CVは人間にとってより身近な技術として定着しつつあります。

(2015年01月21日 初稿)

English

Computer Vision

定義

この技術は、人間の視覚(Vision)で周囲の状況を把握し、何らかの行動を起こす際の脳の判断を計算機(Computer)上で擬似的に実現するための技術の総称です。