首頁 > 產(chǎn)品中心 > 相關(guān)軟件
TH-OCR 數(shù)據(jù)錄入工廠
報紙及出版物數(shù)字化的利器

【產(chǎn)品介紹】
北京文通公司推出的“TH-OCR 文通數(shù)據(jù)錄入工廠”,是在國家“863”計劃國家自然科學(xué)基金長期支持下,清華大學(xué)電子工程系智能圖文信息處理研究室漢字識別研究工作的基礎(chǔ)上開發(fā)完成的。錄入工廠能夠快速地將印刷的文檔轉(zhuǎn)化為可供閱讀和可編輯的高質(zhì)量電子文檔,進而將電子文檔應(yīng)用到各類數(shù)據(jù)庫、電子出版物、數(shù)字圖書館、網(wǎng)絡(luò)資源等新型資源的建設(shè)和再版圖書生產(chǎn)中,是行業(yè)數(shù)字信息化不可或缺的重要組成部分。
作為一家擁有自主知識產(chǎn)權(quán),以清華光學(xué)字符識別TH-OCR及手寫識別兩大核心技術(shù)為先導(dǎo)的OCR技術(shù)生產(chǎn)商、文檔影像技術(shù)和應(yīng)用解決方案提供商,一直致力于文檔影像技術(shù)的發(fā)展,依托清華大學(xué)強大的技術(shù)后盾,沉淀、積累了卓越的識別技術(shù),為我國信息化建設(shè)做出了巨大的貢獻。
【主要功能模塊】

● 識別核心
TH-OCR 文通數(shù)據(jù)錄入工廠內(nèi)置文通公司最新研發(fā)的高性能文字識別引擎,中文識別率達99.8%以上。英文、日文、韓文的識別率居世界領(lǐng)先水平。
● UNICODE編碼
采用UNICODE國際編碼標準。系統(tǒng)可在一個統(tǒng)一的平臺下,同時處理包括中文、日文、韓文、英文在內(nèi)的多種文字的識別和校對修改。
● XML技術(shù)
系統(tǒng)基于開放式的XML數(shù)據(jù)結(jié)構(gòu),可以對數(shù)據(jù)進行擴充和再定義。支持第三方開發(fā)廠商方便地進行文檔數(shù)據(jù)的轉(zhuǎn)換、遷移和再利用。
● 版面還原
強大的版面還原技術(shù),可將識別后的報刊、雜志、圖書等多種形式的文檔,通過還原字體、字號、版面位置、字體顏色等信息以原版原式呈現(xiàn)在讀者面前,最終生成優(yōu)質(zhì)的全息PDF文檔。
● 集字校對

集字校對是TH-OCR 文通數(shù)據(jù)錄入工廠特有的文字校對技術(shù),該技術(shù)打破了傳統(tǒng)校對工具圖像與識別結(jié)果文本比對顯示的模式,將多篇文檔中所有識別結(jié)果相同的字符圖像集中呈現(xiàn)在一個視圖中,給校對人員強烈的視覺沖擊,讓錯字自動“跳”入校對人員的眼中,避免了校對人員因陷入文檔的上下文語境而產(chǎn)生視覺疲勞,引起的校對準確率下降。同時,由于常用漢字集中在3000-4000個左右,面對海量文字的校對時,不會因文字量的上升帶來相應(yīng)的校對量的上升,仍只需校對這幾千個不同的漢字,明顯提高工作效率。
● 增量識別
增量識別功能允許用戶只識別手工編輯修改過的或新增加的區(qū)域,而保留其他已經(jīng)完成校對的文字區(qū)域,為用戶使用提供最大的靈活性與方便性。
● 自學(xué)習(xí)功能

針對古籍、科研等特殊領(lǐng)域文檔中經(jīng)常出現(xiàn)的特殊文字,即使不在國家標準范圍以內(nèi)或者TH-OCR字庫中并沒有支持,用戶也可通過自學(xué)習(xí)功能,將這些文字的圖像學(xué)習(xí)進入系統(tǒng),使得調(diào)整后的核心可以支持這些文字的識別。
● 雙層PDF批量制作功能
可以實現(xiàn)圖像文件到PDF文件的自動轉(zhuǎn)換,生成的PDF文件能夠?qū)崿F(xiàn)全文檢索,可以復(fù)制粘貼,也可以對某個指定目錄進行長期監(jiān)視,真正實現(xiàn)無人操作。
【典型應(yīng)用】
圖書館
中國國家圖書館 清華大學(xué)圖書館 上海交大圖書館 天津南開大學(xué)圖書館
在數(shù)字圖書館領(lǐng)域擁有上百家用戶
電力行業(yè)
國電信息中心 各省市電力設(shè)計院 各省市電力科學(xué)院
在電力標準數(shù)字化項目中廣泛應(yīng)用
出版社
商務(wù)印書館 中華書局
在古籍識別技術(shù)領(lǐng)域得到了客戶的首肯
報杜
大連日報社 深圳特區(qū)報 南方周末
在生產(chǎn)流程化管理系統(tǒng)已成為報業(yè)信息化的首選要素
政府機關(guān)
中央辦公廳 國家安全部九局 水利部 國家質(zhì)量技術(shù)監(jiān)督局
網(wǎng)絡(luò)了最多的政府機關(guān)用戶
聯(lián)系我們
山東紫軟信息科技有限公司
地址:山東省·濟南市·歷下區(qū)·解放路6號·鼎峰中心·2611
E-mail:xdmgw@purple-soft.com
電話:0531-88873758
網(wǎng)址:www.zzyxqtsb.com
銷售咨詢熱線
掃一掃 關(guān)注我們