PDF档案格式中文嵌入现况与问题探讨(下)
PDF档案格式中文嵌入现况与问题探讨(下)
名词解释
(一)PostScript:PostScript为美国Adobe(http://www.adobe.com)公司於1985年所发表的文件描述技术,Adobe并利用这个技术,创造着名合乎PostScript技术的字型,并从而改变正个印刷工业.PostScript可以精确的描述平面绘制任何文字及图形.现今PostScript的技术已经非常普遍的使用在印刷领域,包括萤幕显示(Display),雷射印表机(LaserPrinter),输出机(Imagesetter),数位印刷机(DigitalPrinting)..等等输出设备.而与PostScript技术搭配最重要的是PostScript字型,使用者可以透过PostScript技术调整抹些参数,而改变字型的大小,阴影/立体/空心/粗细等特殊效果.由於PostScript在印刷方面卓越表现,目前世界上主要的文献几乎多是以PostScript的形式出现.Adobe1997年4月发表了更进步的PostScript3强调增进品质及彩色能力及网际网路列印功能.
(二)TrueType:TrueType字型格式为美国Apple及Microsoft所共同制定.最先使用於Apple的Macintosh系列及MicrosoftWindows3.1,而目前Apple的OS8.0及MicrosoftWindows95/NT也都使用TrueType作为字型格式基本上TrueType和PostScript一样,都是使用贝兹曲线(BezierCurve)来描述的外框字.字型可以作任意尺寸的放大缩小,或作其他属性的变化.不过由於Apple及Microsoft的作业系统都直接支援此字型格式.所以并不需要如PostScript一样,外挂(Adobe)TypeManager之类的程式.
(三)ATM:ATM(AdobeTypeManager)的功用在於管理Type1字型的使用,ATM会自动将Type1外框字点阵化以用於萤幕显示或印表机列印,若所欲列印的印表机为PostScript印表机,则ATM会将字型下载至印表机,由印表机做点阵化外框字。而欲列印的印表机为一般非PostScript印表机时,则ATM会自动将Type1外框字型点阵化再传送至印表机。
(四)CID:CID是取自於CharacterID的缩写,此字元辨识码的功用在於帮助检索及取用字元,大量改进了其使用效能,此种方法最适合用於庞大的字体集如东方双位元文字-中文、日文、韩文等。
(五)Unicode编码:(Unicode编码)即为ISO10646国际编码标准,完全符合MicrosoftOffice2000及Windows2000之字型编码规格,在单一作业系统下即可输入多国文字,使跨国文件的制作变得很轻松
1.Unicode:
Big5:为目前在台湾普遍所使用的业界标准,Big5码包括第一字面5401个汉字,第二字面7652个汉字及440个符号,目前支援Big5的软硬体包含Windows95/NT,AppleOS,倚天中文系统,点阵印表机,喷墨印表机,雷射印表机,等等软硬体设备都支持此内码,但由於台湾的特殊环境,所以并非只使用Big5码为唯一的内码,其他尚包括如金资码,财税码,电信码,海关码,IBM5550码,户政码,IBM主机码,公会码(TCA),王安码,等等,都分别使用於各种应用领域。
2.Big5Plus:
虽然Big5字集为台湾最普遍使用的字集,但由於Big5所定义的字集只有13053个汉字,并无法满足,专业使用者的需要,尤其是政府部门,更无法满足现阶段文件交换的需要,所以在"财团法人中文电脑推广基金会"的主持下完成对Big5码的扩编,详细资料可参考"财团法人中文电脑推广基金会"网站(http://www/cmex,org,tw),包括缘由,码本,…等等相关资讯。
3..CNS11643中文标准交换码:
CNS11643中文标准交换码,一般简称CNS码或CNS11643,因中央标准局公布及修订之先後而有二个版本,一般称为CNS11643-1986版(1986公告版)及CNS11643-1992版(1992年修订版),此二个版本之差异仅在於其所编定之字数不同。75年公告之CNS11643定义11.051个汉字,81年修订版扩编为48,027个汉字。75年公告之CNS11643名称为「通用汉字标准交换码」,於81年扩充後修订CNS11643名称为「中文标准交换码」。两个电脑系统要交换资料时,以两方皆认可之码传输,此称为交换码,交换码之设计须符合国际标准。因此一般在电脑内部处理时使用内码,而在传输时,再转换为标准交换码。
4.GB2312-80:
GB2312-80为中国大陆最为普遍使用的内码,不论在电脑作业系统如AppleMachitosh或Microsoft中文Windows简体版,都是以GB2312-80为内码,至於其他周边装置,如印表机,软体,标签印字机,及其他各种软硬体也都是以GB2312-80为内码,即使中文Windows95虽以GBK为内码,但仍与GB2312-80相容GB2312-80共规范了6763个汉字及682个符号,内容主要也都是简体化过的汉字,与Gb2312-80相对应的为GB12345-90,基本上GB12345-90仍保留原来繁体字的样子,但码序与GB2312-80相同,另外增加了100多个多对一的汉字
5.GBK:汉字内码扩展规范,简称GBK,ChineseInternalCodeSpecificationGBK工作小组於1995年10月成立,并於1995年12月完成GBK规范,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20901.总共收录了883个符号,21003个汉字及提供了1894个造字码位
由於GBK的编码,在与GB2312-80的部分采用了GB-2312完全相同的码序与字样,所以市面上所有的合乎GB2312-80的文件,档案及程式都可以在合乎GBK规范的系统上正常运行,目前Microsoft简体版中文Windows95就是以GBK为内码,又由於GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应,Unicode(http://www,Unicode,com):(UniversalMultipleOctetCodedCharacterSet)国际标准组织於1984年4月成立IOS/IECJTC1/SC2/WG2工作组,针对各国文字,符号进行统一性编码,1991年美国跨国公司成立UnicodeConsortium,并於1991年10月与WG2达成协议,采用同一编码字集,目前Unicode是采用16bit之编码架构,其字集内容与ISO10646之BMP(BasicMultilingualPlane)相同,Unicode(UnicodeConsortium)并於1992年6月通过DIS(DraftInternationalStandard),目前版本为Unicodev1.0於1996年公布,内容包含符号6811.汉字20901.韩文拼音11171.造字区6400,保留20249共65534个码位。