`chi_tra` does not recognize vertical text as the doc says #72

Gowee · 2022-12-22T07:29:42Z

Hi!

I am uploading tons of old books in Traditional Chinese to the Internet Archive. And I am trying to find a set of proper cli options so that these books can be OCR-ed properly to be searchable. Some of them are in vertical text while some of them are in horizontal text. Rarely, some book contains both vertical and horizontal text on a single page.

According to https://github.com/tesseract-ocr/tessdata_fast/#example---jpn-and--japanese and #22 (comment), chi_tra loads chi_tra_vert "as a secondary language so it can try it in case the text is rendered vertically". So I suppose chi_tra should have recognized both vertical and horizontal Chinese text as documented.

But in my test with different images, chi_tra appears to never be able to recognize vertical Chinese text.

For example:

A scanned book page on Wikimedia Commons (medium quality):

With tesseract 5.0.0 + tessdata-best + -l chi_tra_vert, the result is

60%+ accuracy

Estimating resolution as 185
)
2
(

全省差不多完全陷入記嶄狀態中,關部有
盛世才.馬仲英:等之勾心鬥角,商各則
民軍鑑起,這秋分硼離析的情形。不能說
本是已覺失去了中比的統參.記英寢國主
義者以操從喀什叭爾人獨立的械會。

原因當然很多,以上不過是最重要的
幾項面已。我們從記艾事紛的原因蔓,就
可以知道租的性寅是如何嚴協了,還國上
下都廳當把視組集中,共諜解導的辦法,
現在讓我把御的嚴重性分析在下面:

1新服不特是我國最大的行省,面且
是我國西部一個最二要的一個門戶,自東
批洽陷以後,我國所有之陸地門戶僅此
而已,現商蝦獨立,不全為斷吾人之手足

o

馬占由將軍新有

第一幕 別家投軍
A物,父,繼,占山;
地點:輝實省,忱德縣,毛近城子鎮
做坎,-個農民的家庭:
開划時好各錠著櫥橙說
姆 :飯已做好了,他人怎麼還不同來

2英人自主全丁冰胸立後,所讓為「
樂士一者,印咯什噶爾及和韻「持,所以
英人早說注目於這塊地方了現在轎什嗎
爾全由英人主使面獨立.玫知沒有渝說古
廠第二的危險。

8新戰北臨萄條商界英帝國主義需的
保護國,現在新玉商部餞由英之主便面
獨立,肥歷知共估無條新賴北部之企國
,如此不特則新誤全部裕碼分,印卡個中
國亦有入各帝國幸義者共管的危險。

商夷問題餞有如此之吐重,作不得不
深塾旦略人人士,一心一得,共濟時琢,打
破自租白利的名念~以國家和多儿削題
那未,不衝商天問題可以應刃而解,航是
康個的中華民族也有了

 

 

(父和占山上)

父 ;飯中了嗎?

母 ;中了,吃吧(到崗端三史且上出接
過啟任樟上)

占山;兒有一中樹林采。

公組占崗兒有甚麼話說。

 

占山;兒想秀天做此農田工作,沒有甚麼
味道,兒欲去投軍,坊國出力,將
來有些希記抱未可知.不知雙親意
下如何?

父 ;你有志投軍,翅國出訪,我很生成

,不知你的朋親雪不背層你去o

依我說.還是做莊家話,雖設濕出

息,更得受栓确之驚,就當個生還

有由腿大希朗嗎?

占山:只有大表殺敬,坊國出力,吉國際

粥;

  

你去所好,不過在外比不在家
,出外要保宣身體
占山:忽兒怎政不甸母命不過事不宜選
天就走。
麼今天就走,停兩天過不妨事。
下出:再停兩天,則無基麼意思。
仿 :蟬出把飯碗拿去 經緊把行李整理

畫,到備動身。

占山:是(把飯碗端F)
第二幕 出發勳虛

  

 

(症莫)

  

人物:押誤江周箇吳俊逢,友諜長,
營長卡山.衛王四人。

With tesseract 5.0.0 + tessdata-best + -l chi_tra, it is

0% accuracy, pure garbage text

Estimating resolution as 185
LA
人
3

天 名 宙 K 圭 姑 導論 < 喘 刀 菜 淺 芋 、 埋 推 宁
繼 間 中 全 打 一 玫 科 千 光 四 所 慚 蛤 蟬
喲 時 臉 于 ^ 扣 宣 下 竺 要 說 品 意 眉 、K 幸 各
長 中 各 絆 衣 可 上 生 信守 找 說 二 打 全 區 選
二 主 十 二 二 汪 二 失 4, 直 2 光

上 不 4 二 生 坊 還 下邊 上 1
比 戰記 崗 。 條 時 表 毅 各 竺 象 千 馮 陣線 、 押
品 全 長 凋 謂 守 避 紹 鵲 蟬 寐 啟 佃 - 暫 藻 寢
二 記 主 二 三 二: 生 仁 生 站 二 二 芽 作
以 則 露 容 書 加 合用 條 齊全 本 四 上 國 人

全 容 路 人 其 限 但 蛋 K 千 寢 朮 ~ 民 戰
旨 倆 區 若 星 「 主 咯 居 線 宮 「 葬 生 上 ~ 王家
埋 無 說 家 ~ 介 國安 生 和 N 渥 妥 點 喲 返 吉
電 四 女 生 茲 謂 擴 、 入 六 扣 才 <N 呻

e

哈 二 三 嶼 訊 <

途 ] 紅 點 他 密 生
說 信守 , 作 汪 二 店 半 一 本
要 說 當 半生 、 彷 江 雍 、 崗 二 客 Hh 委
還 女 - 「 曙 品 喲 吧 各 漲
器 率 朮 只 課 涯 穎 王 好 所
一 還 四 家 家 P- 旦 時 天 要 K 宮 -

品 林 信守 了 點 屬 婦 和 祿 庄 窗 發 「
二 二 記 條 主:
林 時 禮 關 戰 角 表 要 居民 P、 廬 二 秋生 靈
族 品 生 表 之 也 弄 民 民 人 、 映 及 如 年 扯 發 加
松 遠 中 竺 恨 租 。

器 農務 幸 浸 滿 守 當 只 打 全國 避 櫥 四 各
號 息 區 店 站 淋 字 閏 竹 右 三 折 之 和 悶 還 生
田 噴 、 曲 眉 只 扣 容 對 悶 行 罕 容 時 壹 N 和 區
~ 時 旨 層 二 宮 診 呢 員 夫 圖 員 卻 。 蟬 郊 還 生
用 卻 定 巢 于 閃避 和 櫥 相 吉 學生 避 能 。

慚 陛 四 遇 蟬 生 太 寢 N 宮 個 、 半 人 完
蜂 話 匠 國 有 抽 - 1 說 呻 - 于 卻 查 諺 - 蟬
機 于 說 和 生 和 品, 大 區 弱 當 細 發 當 時 >
萊 伙 。 尼 章 慚 世 下 時 品 基 轎 卻 時 詩 、 供 理
辦 品 滲 世 章 記 當 選定 上

 

 

《 欠 黃 見 時 二 )

名 一 暴 二 同

舉 一 苹 讓 - 卻 如 人 志 戰 了 1 潑 宮 悶 生 蟬
兩 當 起 芝 二 )

生 時 全 絹 生 | 喲 菜 下 根 垃 。

估 罰 半生 戰 生 二 相 蟬 禹 。

 

北 生 人 如 虹 當 由 開 志 比 所 日 划 - 注 是 簡歷
當 總 。 中 表 出 幫 周 - 全 烘 于 和, 案
淋 征 基 提 路 說 霖 品 太 -K 旻 勿 蔭 轉
選 丰 是 人

欠 。 全 閏 生 質 罕 庄 、 倆 圖 于 胡 條 表 替 胃

- 科 太 間 各 尖 窗 生 公克 閨 半 電 人

全 全 人 上 上 和 交 汪 仁 和

本 ~ 字 電容 到 加 N 滿 - 餐 稻草 于 病

生 定點 祥 各 品 暨 人

生 生 避 生 開 操 以 暈 ” 倆 國 年 人 發 區 公

具 ,-

  

匡 漲 即 家 - 蠅 下 玉 吉 K 時 諺
謹 汪 廬 二 上 上 半 引
生 生 ~ 站 寂 汪 對 丰 揣 當 意 、K 理 沽 如 喲
屎 損 兩 。
點 十 骨 換 恨 、 倫 生 屎 司 尼 蛤 六 9
二 守 全 全 芋 骨 - 選 對 攝 出 笠 。
名 一 半 三 點 還 宮 炎 于 - 綿 義 抑 二 者 訓 轉

世 汪 主 1 汪

各 三 ~ 良 ( 如 襄 尖 張 呈 )
太 扛

  

 

( 守 洋 )

  

共生: 三 所 不: 二 - 二 1 合共 全
妊 讓 六 三 、 間 生 丰 之 。

A digital book screenshot from the Internet (high quality):

With tesseract 5.0.0 + tessdata-best + -l chi_tra_vert

80%+ accuracy

Estimating resolution as 324
的聘

後論

第一章我的家世
一醇臣親王的一生

 

 

公元一九O六年“即清朝光緒三十二年的舊曆正月十四 我出生於北京

 

 

 

 

 

 

 

 

 

 

土府 我的祖父奕讓 是道光皇帝的第七子 初封姥

 

後晉親王 死

法「賢」 所以後來稱做醇賢親王 我的父親戴滿 是祖父的第五子.

 

 

 

因為
帝(
子。

 

 

決定」

祀光
登極

 

 

 

 

 

 

 

 

 

 

 

 

即光緒皇帝) 所以祖父死後 由父親襲了王爵 我是

 

 

 

 

 

 

 

 

 

 

 

 

才一和第三“四子早殤 第二子戴活被姨母慈禧太后接進宮裡 當了皇

 

 

 

 

堵二代醇王的長

 

在我三歲那年的舊曆十月二十日 慈禧太后和光緒皇帝病篤“慈禧突然
業我為山皇帝 承繼同治(協淳 是慈禧親生子 協活的堂兄弟) 兼

 

 

 

 

緒 在我入宮後的兩天內 光緒與慈禧相繼去世“十

 

 

 

 

初軋日 我便

 

 

 

 

 

 

 

 

 

 

為皇帝| 清朝的第十代 也是最未一代的皇帝 年號

 

辛亥革命爆發 我退了位”

 

 

 

 

我的記憶是從退位時開始的 但是敘述我的前半生 如

 

 

 

 

 

先從我的祖父

統 不到三年

-

EL

With tesseract 5.0.0 + tessdata-best + -l chi_tra

0% accuracy

Estimating resolution as 324
選 蟬 |

惑 張

晨 | 壩 郵 己 散 利
|“ 續 歡 加 H 避 | 如

 

 

SIR 表 0K 財 品 靂 品 煙 己 串 十 1 財 呈 時 誤 四 號 十 轉 壽 如 填 多 財 似

 

 

 

 

 

 

 

 

 

 

H 芽 ” 位 還 點 有 林 旦 ” 咚 損 求 呷 民 哇 振 和 Mh 怀 所 芝

 

” 惑 虹 忠 出 ” 雇

夫 「 臨 」 計 朗 摔 公 隱 髮 單 區 噴出” 自 辟 伙 擊 筷 同 。 嚨 時 S 屆 振 田 7

 

 

 

區 pu
選 (
h

 

 

蕉 條 4

卷 水
商 呢

 

 

 

 

 

 

 

 

 

 

 

 

品 水 己 呷 扼 )” 鼎 馮 四 有 啟 蔗 ~” 鉀肥 加 同) 出 暇 ” 壬 吠

 

 

 

 

 

 

 

 

 

 

 

 

上 | 還 娠 山 ” 買 hh 呈 賬 ” 媒 1 IM 維 眉 果 申 過 格 攻 長 基 好 聲 爺 旦 ” 犯 ) 呻

 

 

 

 

典 | 1 笠 加 出 噁 貴

 

坦 郵 山 只 除 財 居 曙 誤 十 吃 戰 十 瑟 ” 權 量 長 央 還 水 己 呷 他 懂 蟬 ” 柱 旦 表 髮
出 竺 直選 呷 公民 鋪 啞 站 (和 紀 城 ” 咚 欄 量 號 如 Mb” 篩 獎 于 各 由 礎 )。 擲

 

 

 

 

慚 ?” 電 著 大爺 擴 理 旺 KK 尼 ~ 求 門 獸 手 對 亞 還 由 提 ” 十

 

 

 

 

還 表 趾 ) 所 申

 

 

 

 

 

 

 

 

 

 

相 呻 居 一 一 二 吧 己 振 十 笠 ” 和 還 張 曙 K | 冬 悍 呷 懾 ~ 此 緞 |

 

霸 售 寺 邊 能 緒 。 竺 咽 六 對"

 

 

 

 

郵 司 避 起 員 稻 順 仙 基 卅 擇 轉 啦 胡 移 氟 得 后 汗 填 ” 太

 

 

 

 

 

IT

| 炮 》 長 去 山寺

1%

Time leftin chqpter: 1m

The issue is not limited to some specific images. It can be reproduced on many (or every?) other book pages as well.

The text was updated successfully, but these errors were encountered:

Gowee mentioned this issue Mar 1, 2023

add chi_tra_vert and chi_sim_vert to supported languages internetarchive/archive-ocr-tools#1

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

`chi_tra` does not recognize vertical text as the doc says #72

`chi_tra` does not recognize vertical text as the doc says #72

Gowee commented Dec 22, 2022 •

edited

Loading

chi_tra does not recognize vertical text as the doc says #72

chi_tra does not recognize vertical text as the doc says #72

Comments

Gowee commented Dec 22, 2022 • edited Loading

`chi_tra` does not recognize vertical text as the doc says #72

`chi_tra` does not recognize vertical text as the doc says #72

Gowee commented Dec 22, 2022 •

edited

Loading