经济金融人文群博客:https://cinacn.blogspot.com/
@以德服人怪猫 群里一位朋友遇到了一个奇怪问题,同一本书的不同电子版上字明显不一样,左边是“宋(有时是朱)”,右边却是“未”,总不会有人故意去修改某个单字吧?这个问题对于做文史研究越来越依赖于电子扫描版书的学者来说,非常可怕,恰好我知道这里边的原因:左边的文档曾经被用djvu格式压缩处理过,而这个算法在低分辨率下会抛弃一些细节猜测所编码的位图模式,以极大地提高数据压缩效率。大多数时间猜对了,但一旦猜错(如本例)那就是要命的。在低于300Dpi分辨率的电子文档上,远离djvu 技术。
没有评论:
发表评论