珍貴的紙質(zhì)老照片該如何保存?《紐約時報》與谷歌云合作,利用AI將19世紀(jì)以來的500-700萬張歷史照片數(shù)字化。谷歌云的AI技術(shù)不僅可以將照片數(shù)字化,還能掃描照片上的筆記,分類它們包含的位置、日期等語義信息 。
紙質(zhì)老照片記錄下了當(dāng)時的珍貴時刻,其中的歷史意義也更為重要,但紙質(zhì)極容易損壞,人類該怎么保存它們,讓它們恒久遠(yuǎn)永流傳?
谷歌云(Google Cloud)利用AI將照片數(shù)字化。
在《紐約時報》位于美國時代廣場辦公室附近的地下室中存放了大約500萬張到700萬張的舊照片,存在這些照片的地方名為資料檔案室。
《紐約時報》不僅存放了這些照片,也存儲了有關(guān)它們是何時發(fā)布及其發(fā)布原因的相關(guān)信息。現(xiàn)在,該報正在與谷歌云合作,準(zhǔn)備將其龐大的藏品數(shù)字化。
谷歌云官方發(fā)布博客稱,它將與紐約時報合作,將龐大的照片集數(shù)字化,利用谷歌云中的工具幫助《紐約時報》安全地存儲照片,提供更好的界面來查找照片,甚至可以通過照片背后的數(shù)字來獲得更多照片內(nèi)蘊(yùn)含的信息。
紙質(zhì)實(shí)物易腐爛,通過AI保護(hù)珍貴的視覺遺產(chǎn)
“資料檔案室保存的照片可以追溯到19世紀(jì)末期,其中許多內(nèi)容具有巨大的歷史價值——很多照片是世界上其他地方都沒有的。 2015年,一個破損的管道淹沒了檔案館 ,使整個館藏面臨風(fēng)險。 幸運(yùn)的是,當(dāng)時只有輕微的損害,但這一事件引發(fā)了人們反思:這些最寶貴的實(shí)物資產(chǎn)該如何安全存儲?
《紐約時報》的資料檔案室
“資料檔案室是一個易腐文件的寶庫,不僅是《紐約時報》的歷史,而且是近一個多世紀(jì)以來影響我們現(xiàn)代社會的全球事件的無價編年史。”《紐約時報》新任首席技術(shù)官Nick Rockwell說。
不僅照片的圖像包含有價值的信息。 在許多情況下,照片的背面包括拍攝照片的時間和地點(diǎn)。Rockwell補(bǔ)充說:“照片部門和商業(yè)方面的工作人員多年來一直在探索將這些照片數(shù)字化的可能途徑。 但就像去年一樣,數(shù)字化存檔的想法似乎仍然遙不可及。”
《紐約時報》的老照片:1984年,蘋果創(chuàng)始人史蒂夫·喬布斯
為了保護(hù)這個無價的歷史,并讓《紐約時報》能夠通過更多的視覺敘事和歷史背景來增強(qiáng)其報道, 《紐約時報》正在對其檔案進(jìn)行數(shù)字化,使用谷歌云來存儲資料檔案室內(nèi)所有圖像的高分辨率掃描。
谷歌云是可用于存儲對象的系統(tǒng),它為紐約時報等客戶提供自動生命周期管理,不同區(qū)域的存儲以及易于使用的管理界面和API。
AI工作原理:Google Cloud中的技術(shù)可以處理和識別照片中的大量信息
僅僅存儲高分辨率圖像不足以創(chuàng)建照片管理者可以輕松使用的系統(tǒng)。
有效的資產(chǎn)管理系統(tǒng)必須允許用戶輕松瀏覽和搜索照片。《紐約時報》建立了一個存儲和處理照片的處理系統(tǒng),并將使用Google Cloud中的技術(shù)處理和識別圖像中可以找到的文本、手寫內(nèi)容和其他細(xì)節(jié)。
以下它的工作原理:
將圖像提取到云存儲后, 《紐約時報》使用Cloud Pub / Sub啟動處理傳輸途徑以完成多項(xiàng)任務(wù)。 通過在Google Kubernetes Engine (GKE)上運(yùn)行的服務(wù)調(diào)整圖像大小,圖像的元數(shù)據(jù)存儲在運(yùn)行在谷歌完全托管數(shù)據(jù)庫產(chǎn)品Cloud SQL里的PostgreSQL數(shù)據(jù)庫中。
Cloud Pub / Sub幫助《紐約時報》創(chuàng)建其處理流程,而無需構(gòu)建復(fù)雜的API或業(yè)務(wù)流程系統(tǒng)。它是一個完全托管的解決方案,因此沒有時間維護(hù)底層基礎(chǔ)架構(gòu)。
谷歌云官方發(fā)布與《紐約時報》合作將照片數(shù)字化的宣傳片,講述了AI工作原理
為了調(diào)整圖像大小和修改圖像元數(shù)據(jù), 《紐約時報》使用開源命令行程序“ImageMagick ”和“ ExifTool ”。 他們將ImageMagick和exiftool添加到Docker鏡像中,以便以最小的管理工作量、一種水平可擴(kuò)展的方式在GKE上運(yùn)行它們。 添加更多容量來處理更多圖像并不重要,當(dāng)不需要服務(wù)時,《紐約時報》可以停止或啟動其Kubernetes集群。 這些圖片還存儲在云存儲的多區(qū)域位置創(chuàng)建的存儲桶中,以便在多個位置提供可用性。
存檔的最后一部分是在圖像及其元數(shù)據(jù)在“紐約時報”管理系統(tǒng)中移動時跟蹤它們。Cloud SQL是一個很好的選擇。對于開發(fā)人員,Cloud SQL提供了一個標(biāo)準(zhǔn)的PostgreSQL實(shí)例:作為完全托管的服務(wù),無需安裝新版本、應(yīng)用安全補(bǔ)丁或設(shè)置復(fù)雜配置。 Cloud SQL為開發(fā)者們提供了一種使用標(biāo)準(zhǔn)SQL解決方案的簡單方法。
不只是存儲圖像,機(jī)器學(xué)習(xí)可以獲取照片上的很多信息
存儲圖像只是這個故事的一部分。
為了使像《紐約時報》資料檔案室的圖片更加便于使用,利用額外的GCP功能是有益的。 在《紐約時報》的案例中,掃描照片的更大挑戰(zhàn)是添加有關(guān)老照片的內(nèi)容數(shù)據(jù)。 Cloud Vision API可以幫助填補(bǔ)這一空白。
讓我們來看看《紐約時報》舊賓州車站的這張照片。 來看下這張照片的正面和背面。
這是一張漂亮的黑白照片,但沒有額外的背景,從照片的正面看不清楚它在講述什么。 照片背面包含大量有用信息,Cloud Vision API可以幫助我們處理、存儲和閱讀它的信息。 當(dāng)谷歌將圖像的背面提交給API(無需額外處理)時,我們可以看到Cloud Vision API檢測到以下文本(譯者注:文本邏輯并非完全清晰,主要是照片上的碎片化內(nèi)容):
1985年11月27日
1992年7月28日
時鐘懸掛在1942年賓夕法尼亞車站主要大廳的入口上方,右側(cè)是車站外部,然后于1963年拆除。
在紐約出版
存儲于1972年4月30日
《紐約時報》那時賦予這張照片的意義:1942年擁擠的賓州車站,這個時代“只有勇敢的飛行 - 到華盛頓,邁阿密和各種各樣的車站。”
背面信息:
賓州車站的好日子/懷舊之旅
(OCT 3194
RAPR 20072
攝影:紐時時報工作人員,1942年,紐約人大學(xué)城的舊賓夕法尼亞電視臺。該人士在現(xiàn)在的Postellgesikha將軍那里建立了一個發(fā)電臺
Pub NYT Sun 5/2/93 Metro
THURSDAY EARLY RUN o cos x ET RESORT
EB 11 1988
RECEIVED DEC 25 1942 + ART DEPT. FILES
The New York Times Business at rail terminals is reflected in the hotels;
OUTWARD BOUND FOR THE CHRISTMAS HOLIDAYS The scene in Pennsylvania Station yesterday afternoor afternoothe New York Times (Greenhaus)
這是我們的Cloud Vision API的實(shí)際輸出,無需對圖像進(jìn)行額外的預(yù)處理。 當(dāng)然,數(shù)字文本轉(zhuǎn)錄并不完美,但它比處理數(shù)百萬張圖像的替代品更快,更具節(jié)省成本。
谷歌云:將過去帶向未來,使所有信息都變得可用
這只是個開始。 類似于《紐約時報》的公司可以使用Vision API來識別對象、地點(diǎn)和圖像。 例如,如果我們通過帶有徽標(biāo)檢測功能的Cloud Vision API傳遞上面的黑白照片,我們就可以看到賓州車站被識別出來了。
谷歌云的自然語言API可用于向已識別的文本添加其他語義信息。 例如,如果我們通過API,通過文本“紐約時報的方式 - 1942年擁擠的賓州車站,一個只有勇敢飛行的時代 - 華盛頓,邁阿密和各種各樣的車站。”正確地將“賓州車站”,“華盛頓”和“邁阿密”識別為位置,并將整個句子分類為“旅行”類別和子類別“公共汽車和鐵路”。
谷歌云在博客中聲稱,幫助《紐約時報》改造其照片檔案完全符合谷歌的使命,即組織世界范圍內(nèi)的信息并使其普遍可用和有用。
-
谷歌
+關(guān)注
關(guān)注
27文章
6173瀏覽量
105638 -
AI
+關(guān)注
關(guān)注
87文章
31155瀏覽量
269485 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8783瀏覽量
61911
原文標(biāo)題:留住老照片,谷歌用AI幫紐約時報講了500萬個故事
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論