内码和外码分别是什么啊 内码是机内码吗
内码和外码分别是什么啊?是内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的,分为字符编码、汉字内码、国标码等多种类型的。关于内码和外码分别是什么啊以及内码和外码分别是什么啊英语,内码和外码分别是什么啊英文,内码和外码分别是什么啊,外码和内码的关系,什么叫内码等问题,小编将为你整理以下的知识答案:
内码是机内码吗
内码是机内码的。
汉字内码一般指汉字机内码。
汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。
内码和外码分别是什么啊
是内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的,分为字符编码、汉字内码、国标码等多种类型。外码是相对于内码而言的辞汇。在计算机科学及相关领域中,外码指的是外在的经过学习之后,可直接了解的编码形式(例如:文字或语音符号)的。
二进制是由1和0两个数字组成的,它可以表示两种状态,即开和关。
所有输入电脑的任何信息最终都要转化为二进制。
目前通用的是ASCII码。
最基本的单位为bit。
内码
内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的,分为字符编码、汉字内码、国标码等多种类型。
外码
外码是相对于内码而言的辞汇。
在计算机科学及相关领域中,外码指的是外在的经过学习之后,可直接了解的编码形式(例如:文字或语音符号)。
中文输入法对汉字的编码即属外码。
常见的中文外码有仓颉码、行列码、大易码、呒虾米码、注音码、拼音码。
仓颉输入法
仓颉输入法是一种常用的中文输入法,由有“中文电脑之父美誉的朱邦复先生于1976年创制。
初期只有繁体中文版本,原名“形意检字法,用以解决电脑处理汉字的问题,包括汉字输入、字形输出、内码存储、汉字排序等。
行列输入法
行列输入法是一套免费授权、具有开放理念的字根式中文输入法,发明人是倚天资讯共同创办人廖明德。
他在发明行列输入法之后成立行列科技,以研究、开发、推广行列输入法。
行列输入法除了可以输入繁体中文和简体中文之外,亦可输入Unicode当中的中日韩统一表意文字。
大易码
每组字码具有多个字根以供拆字。
它已经成为很多操作系统内预设的中文输入法。
而多数的繁体中文键盘亦有标示大易码。
大易是依据传统造字原则和笔顺,并且将单字和大量词汇一起纳入研究而发展出来的输入法,在1987年12月初次发表。
什么是内码和外码?
我们常说汉字的"内码"与"外码"。
内码是汉字在计算机内部存储,处理和传输用的信息编码。
它必须与ASCII码兼容但又不能冲突。
所以把国标码两个字节的最高位置1,以区别于西文,这就是内码。
汉字的输入码称为"外码"。
输入码即指我们输入汉字时使用的编码。
常见的外码分为数字编码(如区位码),拼音编码和字形编码(如五笔)。
再说区位码,"啊"的区位码是1601,写成16进制是0x10,0x01。
这和计算机广泛使用的ASCII编码冲突。
为了兼容00-7f的 ASCII编码,我们在区位码的高、低字节上分别加上A0。
这样"啊"的编码就成为B0A1。
我们将加过两个A0的编码也称为GB2312编码,虽然 GB2312的原文根本没提到这一点。
内码是指操作系统内部的字符编码。
早期操作系统的内码是与语言相关的.现在的Windows在内部统一使用Unicode,然后用代码页适应各种语言,"内码"的概念就比较模糊了。
我们一般将缺省代码页指定的编码说成是内码。
内码这个词汇,并没有什么官方的定义。
代码页也只是微软的一种习惯叫法。
作为程序员,我们只要知道它们是什么东西,没有必要过多地考证这些名词。
所谓代码页(code page)就是针对一种语言文字的字符编码。
例如GBK的code page是CP936,BIG5的code page是CP950,GB2312的code page是CP20936。
Windows中有缺省代码页的概念,即缺省用什么编码来解释字符。
例如Windows的记事本打开了一个文本文件,里面的内容是字节流:BA、BA、 D7、D6。
Windows应该去怎么解释它呢?是按照Unicode编码解释、还是按照GBK解释、还是按照BIG5解释,还是按照ISO8859-1 去解释?如果按GBK去解释,就会得到"汉字"两个字。
按照其它编码解释,可能找不到对应的字符,也可能找到错误的字符。
所谓"错误"是指与文本作者的本意不符,这时就产生了乱码。
答案是Windows按照当前的缺省代码页去解释文本文件里的字节流。
缺省代码页可以通过控制面板的区域选项设置。
记事本的另存为中有一项ANSI,其实就是按照缺省代码页的编码方法保存。
Windows的内码是Unicode,它在技术上可以同时支持多个代码页。
只要文件能说明自己使用什么编码,用户又安装了对应的代码页,Windows就能正确显示,例如在HTML文件中就可以指定charset。
有的HTML文件作者,特别是英文作者,认为世界上所有人都使用英文,在文件中不指定charset。
如果他使用了0x80-0xff之间的字符,中文Windows又按照缺省的GBK去解释,就会出现乱码。
这时只要在这个html文件中加上指定charset的语句,例如:
<meta http-equiv="Content-Type" content="text/html; charset=ISO8859-1">
如果原作者使用的代码页和ISO8859-1兼容,就不会出现乱码了
本文来源于百度,内容不代表通透经验网立场,全站信息免费仅供测试,非商业性质和非盈利。如侵犯您的利益,请联系我们删除。