翻譯技巧光學(xué)字符辨認(rèn)技術(shù):讓電腦像人一樣瀏覽
階段①:采用新算法,檢測準(zhǔn)確高效
回過頭來看,OCR技術(shù)教訓(xùn)了怎么的發(fā)展歷程呢?早在20世紀(jì)60年代,IBM就末尾應(yīng)用OCR技術(shù)完成各類文檔的數(shù)字化,早期的OCR設(shè)施宏大而復(fù) 雜,只能解決潔凈背景下的某種印刷字體。20世紀(jì)80年代,平板掃描儀的誕生讓OCR進(jìn)入商用階段,設(shè)施更為笨重靈巧,可能解決的字體數(shù)量也增多,但對文 字的背景要求仍然很高,需求很好的成像品質(zhì)。
因?yàn)槿嗽靾鼍跋碌奈淖直嬲J(rèn)難度大,微軟亞洲鉆研院團(tuán)隊(duì)對相干技術(shù)和算法停止了針對性的優(yōu)化和創(chuàng)新,從三個(gè)方面對文本檢測技術(shù)停止了改進(jìn),并取得打破。通 常,OCR辨認(rèn)的步驟可能分為兩步:首先是文本檢測(Text detection),將文字從圖片中提取進(jìn)去;然后,對文本停止辨認(rèn)(Recognition),此次的打破次要是在文本檢測環(huán)節(jié)的兩個(gè)子階段。
咱們也可能想象一下OCR在未來任務(wù)中的運(yùn)用場景:每次任務(wù)會議后,無需再把白板上的探討內(nèi)容繕寫上去,然后群發(fā)郵件布置義務(wù),只需將白板用手機(jī)等智能設(shè)施拍照留存,系統(tǒng)便能主動(dòng)辨認(rèn)并分檢出相干人員的后續(xù)任務(wù),并將待辦事項(xiàng)主動(dòng)寄存到各自的電子日歷中。
對CER的色彩增強(qiáng)效果示例
OCR讓電腦“讀”懂世界
文字類成績空間劃分示例
該算法根據(jù)文字自身的個(gè)性采用分治策略將原始成績空間劃分為6個(gè)子空間,每個(gè)子空間對應(yīng)一類文字樣本,分別命名為Long類,Thin類,F(xiàn)ill 類,Square-large類和 Square-small類(如下圖所示),于是每個(gè)候選連通區(qū)域被劃分到這6類中的一種。
在每個(gè)子空間中,微軟亞洲鉆研院團(tuán)隊(duì)創(chuàng)新天時(shí)用無歧義學(xué)習(xí)策略訓(xùn)練一個(gè)相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,咱們可能將該神經(jīng)網(wǎng)絡(luò)看作是一個(gè)黑盒子,在通過大量學(xué)習(xí)之后,它便能較為準(zhǔn)確的將文字與非文字分類。