2021年11月4日星期四

文史古籍研究要警惕“电子书偏差”

@以德服人怪猫

群里一位朋友遇到了一个奇怪问题,同一本书的不同电子版上字明显不一样,左边是“宋(有时是朱)”,右边却是“未”,总不会有人故意去修改某个单字吧?

这个问题对于做文史研究越来越依赖于电子扫描版书的学者来说,非常可怕,恰好我知道这里边的原因:左边的文档曾经被用djvu格式压缩处理过,而这个算法在低分辨率下会抛弃一些细节猜测所编码的位图模式,以极大地提高数据压缩效率。大多数时间猜对了,但一旦猜错(如本例)那就是要命的。

在低于300Dpi分辨率的电子文档上,远离djvu 技术。 


没有评论:

发表评论