“以圖搜圖”的奇葩用途 | 深度

外送茶 你在什麼時候會用圖搜圖?當你感到語言蒼白無力的時候。

你在掃街的時候,突然發現某撩妹達人穿瞭一身炫酷的T恤。
你收到朋友送來的生猛紅酒,好奇這到底是百年窖藏還是山寨葡萄糖。
你在編輯文案的時候,一張非常適合的圖片卻掛著水印,你需要一個清晰的版本(請支持正版。。。)

以圖搜圖就像一個“癢癢撓”,能夠到文字搜索難以企及的癢點。這讓我們對這種搜索方式的結果抱有很高的期待。它讓很多人能透過互聯網的森林,感受到若隱若現的人工智能靈魂。這可能正是人們對這種技術好奇的原因。【圖像識別的應用場景】和這種技術為伴十多年的陳傑博士,是博雲視覺的CEO。他帶領北大團隊研發的圖像識別技術如今被用在百度和微信的圖像搜索和圖像識別場景中。他為雷鋒網(公眾號:雷鋒網)詳細介紹瞭圖像識別的一個重要門派——基於尺度空間理論的視覺搜索。【陳傑】視覺的秘密人的視覺原理很簡單:物體反射自然光在眼中成像。

如果面前是一面巨大的白墻,你很難看出其中的細節。但是如果在墻面上畫瞭一隻鳥,你一眼就可以分辨出來。你之所以能看到眼前這個鳥,是因為你的視覺認為它是一個“斑點”。通俗來講,就是某個東西和周圍的物體產生瞭反差。

陳傑如此解釋視覺的原理。所以在你的眼中,眼前的場景是由一些“刺激點”組成的。這些便是圖像的“特征點”。而如果機器能夠和人一樣準確地識別兩張圖片中相同的“特征點”,就可以實現以圖搜圖這種高科技瞭。但對於人眼來說易如反掌的刺激點援交,怎麼用機器語言記錄呢?陳傑告訴雷鋒網,在機器眼中,每一個特征點都會被記錄為描述性的數據,這些數據包括像素矩陣,顏色、紋理、梯度、形狀分佈等在博雲視覺的算法中,每張圖片會被提取1000個左右的特征點,而這些特征數據的大小約為 2Kb-4Kb。雖然背後的算法極其精細,但是粗略來說,對數據庫中的每張照片提取特征之後,圖像搜索就可以開始瞭。

用戶提交搜索的查詢圖片,系統會自動提取圖片上的特征點,再用特征點和數據庫中的圖片特征做對比,兩個圖片的特征點匹配越多,系統就認為兩張圖片最為相似。於是,用戶會得到一個按照相似度排序的搜索結果列表。

陳傑說,“一般兩張圖片擁有10個匹配的特征點,我們就可以認為他們是相似圖片。”警察叔叔的利器一般童鞋可能想不到,這個高科技解放瞭警察叔叔。對於重大案件來說,嫌疑人的汽車往往是破案的重要線索。於是如何從數以億計的監控圖像中找出某個特定汽車,成為瞭警察叔叔的噩夢。

以往的方法是:警察叔叔們趴在電腦前,連續看上一兩個月監控視頻,才能基本找到所有包含目標汽車的監控圖像。(由於汽車的移動,所以一般會在多個監控圖像中發現目標。)但是如果使用圖像識別技術,隻要依靠一張樣本,就可以在幾小時之內,基本找到所有目標圖像。

陳傑告訴雷鋒網,在和某地公安的聯合實驗中,在搜索結果的前200位中,包含瞭正確結果的90%。也就是說:如果目標共出現在50張圖片中,那麼在前200位結果中包含45個。【利用監控圖片搜索指定汽車】“增強現實”的工具但是,一輛車一定是以各個角度和姿態出現在監控圖像中,那麼識別系統為什麼可以做出相對準確的識別呢?陳傑表示,使用這種技術做圖像識別,需要面對三個重要的幹擾因素:光照由於同一個物體在不同光線下,特征點的像素呈現出的數據會有很大的差異。所以好的算法必須能夠排除光線的幹擾,提取物特征點最基礎的信息。但是不可否認,在極端弱光(例如黑夜)或者極端復雜援交光線(例如酒吧)下,特征的辨識力會降低。幾何變換一輛汽車從各個角度來看,有很大的區別。根據物體的拍攝角度不同,特征信息一定會發生變化。然而人眼仍然能夠識別出兩個不同角度的圖像是同一物體。對於機器識別系統來說,則需要根據不同的角度變換進行計算,這樣就能盡可能做到物體平移、旋轉等幾何變換之後依然可以進行準確匹配。距離如果物體在畫面中位置過遠,就會變得更小,這樣圖像上的細節就會大量丟失。這樣的話,一張近視圖和遠視圖就很難被機器認定為相似。為瞭解決這個問題,陳傑和團隊采用瞭一種基於尺度空間理論的方法:將每張圖片以不同的量級進行高斯模糊,這個動作是為瞭模擬人眼在不同距離看到的物體。在這些模糊圖片進行特征提取和比對,就可以匹配距離鏡頭不同距離的同一物體。解決瞭“距離”這個棘手的問題,這種圖像識別的方法就可以完美地應用在增強現實的遊戲中。在這種情況下,應用場景往往是預設而且固定的,所以遊戲的提供商可以把真實的場景通過拍攝不同角度和遠近的照片,然後錄入數據庫。玩傢在進行遊戲的時候,會佩戴帶有攝像頭的眼鏡,這種情況下,圖像識別系統就可以對玩傢眼中的“景物”和數據庫中的圖片匹配,理解玩傢的具體位置,從而在眼鏡中加入各種奇幻的特效蕾絲邊的福音

你知道蕾絲嗎?我自己都沒有想到這個技術可以用於蕾絲制造行業。

陳傑說。有一個專門做蕾絲花紋搜索引擎的團隊找到陳傑,告訴他一個行業的痛點:蕾絲生產廠傢經常生產一些特定的類似花紋,尋求買傢。但是蕾絲的花紋通常根本無法用人類的語言來形容,所以經常可以看到有人在微信群裡發很多圖片,詢問是否有人需要這個樣式;對於買傢來說,他們也會發圖片,並且詢問是否有人有這樣的花紋。這種情況下這個蕾絲花紋搜索引擎就出現瞭,它對接瞭買傢和賣傢。這種搜索引擎,需要的恰恰是這種圖像識別技術。【蕾絲搜索引擎】以驢找驢vs以驢找馬圖像識別同樣可以拯救紅酒控。
陳傑告訴雷鋒網,博雲視覺服務的客戶中,就有一個專門幫用戶識別酒標的 魚訊App。“這個團隊擁有一個巨大的酒標數據庫。可以通過拍照搜索的方式,獲得很多奇特紅酒的詳細信息。”尋找酒標是尺度空間理論圖像識別的典型應用方式。因為它符合一個一個規則:在數據庫中找到完全相同的圖片/物體。用通俗的話來說,就是“以驢找驢”。而在我們的搜索需求中, 還存在一種“以驢找馬”的需求,它的目的是搜索相似圖片/物體。【各類紅酒標】陳傑告訴雷鋒網,以驢找馬這種需求,目前更多地使用區別於“尺度空間理論識別”的“機器學習”的技術路線,這也是普通人更熟悉的一種技術。機器學習,主要原理是給一個運算力強大的計算機群學習大量的數據,然後讓機器提取出這一類素材的內部規律,用這類規律幫人類工作。例如不久前戰敗李世石的阿法狗,使用的就是機器學習的方式。【以驢找驢的搜索方式,可以更好地發現完全一致的圖像結果】這種技術在資源充足的情況下,後期會出現驚人的能力。但是它需要兩個重要的因素:

1、用來“喂養”系統的巨大數據樣本2、超高的計算能力,超長的計算時間,超大的存儲空間。

“這種技術就像火箭發射,需要足夠的燃料(數據)和強大的發動機(計算機性能)”陳傑說,

所以在很多場景中, “尺度空間識別”和“機器學習識別”需要結合起來,才能產生最優的效果。

有一點確定無疑,那就是隨著圖像識別領域的技術爆發,這種“解癢”的技術究竟可以用來解決很多具體的問題。正如“蕾絲邊問題”一樣,在很多情況下,沒有人會把這種技術和具體的問題聯系起來。或者說:對科技的魔力,我們仍然懵然無知。 雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

source:https://www.leiphone.com/news/201606/PIFEU3a2XETTgOnN.html