文 | 張一弛
(資料圖片)
編輯 | 蘇建勛
2022年人工智能大會上,合合信息使用智能文字識別技術挑戰鐘鼎文識別。在沒有人工干預的狀態下,鐘鼎文從內凹狀態被拉平,并被轉譯成簡體字,“克曰穆朕文且師華父悤譲氒心寧靜于猷淑哲氒”等原本連在一起的復雜語句,也經過“AI斷句”功能自動處理后被區分開來。
2010年合合信息正式上線掃描全能王,后者是最早將AI、OCR等技術綜合運用的APP之一。通過技術迭代,掃描全能王目前印刷體文檔字符平均識別率能達到99.77%,手寫體文檔字符平均識別率達到97.00%。
本次識別鐘鼎文,是合合信息繼去年在人工智能大會挑戰識別甲骨文后追求的新挑戰。合合信息掃描全能王事業部負責人曹超陽向36氪表示,古文的識別會涉及到OCR行業兩大典型難點——圖像優化處理與文字準確識別。
圖像優化處理方面,古文字的載體與常規平面差異較大。甲骨文與鐘鼎文對應的載體是龜殼和青銅器,表面存在不同程度彎曲、反光、凹凸不平的情況。進行文字識別前,首先需將拍攝到的圖片素材進行智能圖像處理,進行“拉平”等矯正工作,并排除掉陰影、噪點的干擾,達成增強圖像質量的目的。
文字準確識別方面,以《桃花源記》古籍識別為例,古書的紙張比常規印刷用紙更薄,會有“毛邊”、“透字”現象,對文字識別產生干擾,這時AI就需要去區分哪些是使用者需要的文字內容,遇到個別顯示不清晰的文字,還要通過智能算法去理解判斷這個文字是什么。
來源:采訪供圖,掃描全能王識別《桃花源記》
曹超陽認為,解決古文識別中面對的挑戰,實質上是解決文檔圖像質量退化(頁面不清晰)、文字檢測及版面分析困難、非限定條件文字識別率低、結構化智能理解能力差等行業性難題,這些技術迭代帶來的服務體驗優化將更廣泛地服務日常用戶。
對于用戶日常需求的挖掘,曹超陽表示公司十分重視用戶反饋以發現產品迭代點,主要從類似場景下的用戶規模以及需求底層邏輯兩個方面考量。2019年起開始,掃描全能王發布一系列核心功能,包括“老照片修復”,“書籍掃描”,“拍PPT”等,切中了學習、生活、工作場景中被忽視的隱形需求,為公司產品商業化做好鋪墊。
更多功能的迭代幫助掃描全能王在商業化道路上更進一步,掃描全能王在繼續免費為用戶提供內容掃描、識別解決方案的同時,將比較深入、精細的功能作為付費功能提供給用戶。
近年來,因疫情影響,遠程辦公的需求量和需求種類迎來爆發式增長,文檔數字化重新成為各界關注的議題。大環境利好人工智能技術發展的同時,文字識別商業化需求激增。提前布局細分需求功能,成就了掃描全能王在智能識別領域的“搶灘登陸”。
掃描全能王的母公司合合信息布局“人工智能+大數據”兩大技術領域,在“B+C”端同時取得商業化落地成效。
C端方面,掃描全能王目前不僅發力于國內市場,產品推出后免費版曾在120個國家App Store效率類榜單上排名第一;B端方面,通過迭代智能文字識別技術,合合信息成功與世界 500 強公司中超過 80 家頭部企業達成合作,這些頭部公司為合合信息提供了重要的營收支持。
合合信息目前正在科創板擬上市階段,為進一步了解合合信息“AI+OCR”產品的特征,36氪對掃描全能王事業部負責人曹超陽進行專訪。以下為專訪對話內容,經編輯:
36氪:目前OCR市場增長較快,您覺得掃描全能王從布局開始到現在有哪些關鍵時間節點?分別是什么?
曹超陽:第一個重要節點是2010年前后,掃描全能王正式上線。掃描全能王母公司合合信息為產品提供了“智能文字識別”技術支持,使得掃描全能王成為最早將AI、OCR等技術綜合運用的APP之一。
第二個節點是海外業務的蓬勃發展,掃描全能王屢次在海外App Store效率類榜單上排名第一,讓歐美廠商也做起了“國產替代”。
第三個節點是2019年起開始,掃描全能王發布的一些核心功能,比如“老照片修復”,還有后來發布的“書籍掃描”,“拍PPT”等,都切中了學習、生活、工作場景中被忽視的隱形需求。
現階段也很關鍵,文檔數字化已經迎來了的發展高峰期。19年底20年初的疫情催化和數字化轉型大潮,讓文檔數字化重新成為各界關注的議題。近五年來政策在人工智能領域的利好和文字識別商業化需求的激增,也是公司“搶灘”市場的可貴機會。 目前,C端APP的月活全球已經過億,其中有疫情催化的原因,例如公司的技術為遠程辦公和生活場景中的各種識別、掃描提供了支持。究其根本,企業及政府的數字化轉型大潮已至,文檔的數字化對于業務沉淀、效率提升十分重要,智能文字識別技術正在不斷創造著市場的新增量。
36氪:使用場景方面,您發現OCR方面各個功能哪幾項是特別受歡迎的,一般是吻合了哪些痛點?
曹超陽:在掃描全能王產品迭代中,我們觀察到有如下功能點很受歡迎:
比如“拍PPT”功能。該功能用到了智能圖像處理模塊中的自動切邊技術,使圖像更清晰。拍完后跟原始PPT保持一致的閱讀與體驗。主要是通過去除多余的背景和陰影干擾,為用戶提供更直觀的文檔閱讀體驗?!芭腜PT”不僅能對拍攝到的PPT做圖像處理,讓其以完整的、被優化過的圖像形式被保存,如果有文字識別需求,還能精準地把PPT圖像里的內容提取出來。
還有“書籍拍攝”功能。用到了智能圖像處理中的彎曲矯正和抗干擾技術,可以把不平整的書頁拍成掃描儀掃出來一樣平整的頁面,把書上的手指、陰影去掉,盡可能還原平面閱讀體驗。
“手寫擦除”功能現在也很受關注,我們用“字跡擦除”技術幫助廣大家長、學術“解放雙手,在家庭作業等場景里很受歡迎。掃描全能王用神經網絡技術將待處理圖像劃分為手寫“擦除區域”和印刷題干等“非擦除區域”,對噪點、陰影、背景雜亂等復雜場景進行處理,同時運用切邊矯正、圖像增強等濾鏡技術,讓舊的卷子像剛發下來一樣,為用戶呈現清晰美觀試卷圖像。
36氪:商業化方向,掃描全能王20年開始盈利營收增長迅速,原因是什么?
曹超陽:通過產品的不斷打磨,在日常辦公、生活領域,掃描全能王為公眾提供“口袋里”的便利。比如從2019年開始推出拍攝證件照,只需在相對清晰干凈背景下拍攝人像,即可自動生成不同尺寸,適用于各類報名、簽證等場景的證件照,還能根據需求切換背景底色。除此之外,掃描全能王還上線了包括PDF加密、一鍵添加水印等功能,滿足了用戶在不同場景里的需求。這些都成為拉動營收增長的關鍵。
掃描全能王的母公司合合信息是行業中少見的在“人工智能+大數據”兩大技術同時布局,“B+C”兩大領域同時取得商業化落地成效的企業。所以,除了在C端場景的應用,智能文字識別技術做得越來越好,為也企業客戶帶來更好的體驗感,已經獲得了超過30個行業的客戶的認可;世界 500 強公司名單中有超過 80 家與合合信息達成合作,這些頭部客戶為公司提供了重要的營收支持。
36氪:掃描全能王梳理用戶場景的方法論有哪些?
曹超陽:從來源上,掃描全能王特別重視用戶反饋,會實時跟進分析,每周也會分門別類做匯總,幫助我們發現產品機會的迭代點。用戶的反饋實質上是他們在使用過程中想到的,能對我們產品精進有幫助的點。我們會從這些點里去分析:有類似場景的用戶多不多?他究竟需要什么?以此去提煉用戶的痛點來迭代產品。
比如拍PPT這個功能,就來自于用戶反饋。之前課堂上授課多用黑板,現在會用電子屏、投影來展示PPT。拍PPT的人時候通常離顯示屏比較遠,而且照片拍出來會有水波樣的底紋,也就是常說的“摩爾紋”。我們就在嘗試:如何讓用戶拍攝時去掉底紋,以及在相對比較遠的距離上拍出比較好的效果。
接下來我們也將繼續為免費用戶提供高價值的功能,去解決他們在日常生活和工作中遇到的內容掃描、識別問題;有些用戶的需求比較深入、也更精細,我們會作為付費功能來對待。比如用戶拍完之后要發給同事,掃描、發送本身是免費的。更進一步,發送時要對PDF加密,這個加密就是一個付費功能。
36氪:掃描全能王此前展示了很多利用AI將古文原文轉文字的案例,會涉及到識別率的問題,這當中需要解決的難點有哪些?
曹超陽:智能文字識別技術主要包含了智能圖像處理、基于深度學習的復雜場景文字識別、自然語言處理三個核心技術層。就古文的識別而言,通常會涉及到行業存在兩大典型難點,一個是圖像的優化處理,再者是古文字的識別,具體要解決的問題有下面幾種:
先說古文字多種多樣的載體帶來的識別挑戰。公司曾在世界人工智能大會上展示過對甲骨文、鐘鼎文的識別,無論是龜殼,還是青銅器,它們的表面都會不同程度地存在彎曲、反光、凹凸不平的情況。在進行文字識別之前,首先要將拍攝到的圖片素材在技術上進行“拉平”等矯正處理,并做好對于陰影、噪點的處理,這部分就是智能圖像處理,也就是增強圖像的“質量”。
除了硬質的表面外,紙質載體的識別也存在難點。比如在大會展出的《桃花源記》古籍識別項目中,古書的紙張比常規印刷用紙更薄,而且會有“毛邊”、“透字”現象,都會對文字識別產生干擾,這時AI就需要去區分哪些是使用者需要的文字內容,遇到個別顯示不清晰的文字,還要通過智能算法去“理解”去判斷這個文字是什么。
36氪:古文識別率的難點是日常使用場景的難點的升級版嗎?AI技術還可以怎樣賦能我們的生活生產?
曹超陽:古文的研究是掃描全能王用技術促進文化傳承和文物保護的社會責任體現,也是產學研研究中的一個方向,古文識別中面對的樣本量小、非常規載體識別干擾因素多,是全行業面對的挑戰。
解決古文識別中面對的挑戰,實質上是解決文檔圖像質量退化,比如頁面不清晰的情況,文字檢測及版面分析困難、非限定條件文字識別率低、結構化智能理解能力差等全球性的難題。這些問題的解決將為更廣泛的受眾帶來服務體驗的優化。
AI技術還幫助我們實現了多語言識別。實際上,針對古文的識別僅是智能文字識別應用場景之一,掃描全能王還可識別中、英、俄等56種語言文字,被應用于全球不同國家、不同行業的票據、證件、定制識別等多個場景。
通過挑戰并解決技術難點,我們在行業中也落地了很多創新功能,比如已經在掃描全能王中上線的“去屏幕紋”、“老照片修復”,以及上述提到的“手寫擦除”功能,都是通過解決一個個“小眾”場景里的難題,最終服務于大眾;
還有一些功能已經研發出來,進入許多大型企業的評估過程中了,比如“PS篡改檢測”,運用了一種直接針對圖像特征信息的篡改檢測方法,在行業中屬于創新應用,可稱得上是“像素級”反詐工具?!癙S篡改檢測”技術能對身份證、護照、駕駛證、港澳通行證等證照類別,以及增值稅發票、普通發票、小票、合同等多種文檔類別進行檢測,在金融等很多行業都有廣泛的需求。
36氪:掃描全能王的技術應用與行業相比有什么突出的地方?
曹超陽:母公司合合信息對AI底層技術的重視為掃描全能王承載億級別用戶的高頻使用提供了支持。目前,經權威機構檢測,合合信息的印刷體文檔字符平均識別率為99.77%。在產品做小做輕的同時,公司技術的識別精度仍然穩居第一梯隊。這些都是對底層AI技術重視帶來的。
目前我們產品在全球范圍內被廣泛使用,支持超過五十多種語言的識別。同時我們特別貼近用戶的場景需求,比如我們推出的高級文件夾,教資文件夾、考研文件夾,可以幫助用戶在掃描之外,一鍵實現文檔收納。
36氪:用戶使用便捷性方面,掃描全能王是怎么去優化使用體驗?
曹超陽:掃描全能王十分關注用戶痛點,并針對性地進行產品優化。掃描全能王積累了龐大的用戶基數,覆蓋各個職業和群體,幫助我們一起打磨產品,比如:
團隊非常重視用戶反饋,每一條用戶反饋都會由客服、技術人員、產品經理等實時跟進和分析;在改善用戶體驗的同時,也會進一步發現產品的機會和迭代點。
我們還升級了千元機功能體驗,直面畫質與像素的挑戰。有不少老人、學生群體在使用千元機,攝像頭、CPU和內存等硬件條件比較差,因為CPU限制,這些相機拍攝出來的圖片質量不夠清晰,處理速度也比一般手機慢很多。技術團隊為此特別成立了攻堅項目組,針對千元機用戶的使用問題進行了一系列優化,保障不同設備條件的用戶在使用掃描全能王時都能得到流暢的體驗。從中也發現了很多迭代產品的機會。
關鍵詞: 識別古文字、修復老照片 AI讓OCR玩出新花樣 |36氪專