实时搜索: ansi 汉字占几个字节

ansi 汉字占几个字节

562条评论 5081人喜欢 1761次阅读 957人点赞
不是转换文件,只是在程序中转换一个字符串。
有这样的函数吗?
手工方法我会:把该字符串存到ANSI格式的NOTEPAD.EXE文本txt文件中,然后双击打开此txt文件的窗口,然后在”文件-另存为-编码“中选择UNICODE后存盘,然后用程序从那个另存的文件中读出的就是UNICODE编码了。 , 一个汉字的机内码需用______字节存储? , vb函数获取获取字符窜所占字节数,比如“1111徐”应该占6个字节 , 字节与卷之间的关系是什么样?好心人请详细说明,谢谢! , TXT的UNICODE 和GBK码是什么意思。
谁可以告诉我。
原因是文本会乱码 ...

如何用函数把一个ANSI汉字字符串转换成UNICODE字符串?: #inlcude <Windows.h>
MultiByteToWideChar(....);

一个汉字的机内码需用几个字节存储?:

一个汉字的机内码需用2个字节存储。

我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示。

原则上,两个字节可以表示 256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。

这个方案可以容纳 128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94×94=8836个。

扩展资料:

机内码的相关规定:

国家标准局颁布的《信息交换用汉字编码字符集基本集》(代号为GB2312-80)规定的汉字交换码作为国家标准汉字编码。

GB2312-80中共有7445个字符符号:汉字符号6763个一级汉字3755个(按汉语拼音字母顺序排列)二级汉字3008个(按部首笔划顺序排列)非汉字符号682个GB2312-80规定,键盘是当前微机的主要输入设备,输入码就是使用英文键盘输入汉字时的编码。

目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。

参考资料来源:百度百科-机内码

国际通用的语言编码是什么?: 字符集简史

虽然不能确定人类开始讲话的时间,但书写已有大约6000年的历史了。实际上,早期书写的内容是象形文字。每个字符都对应于发声的字母表则出现于大约3000年前。虽然人们过去使用的多种书写语言都用得好好的,但19世纪的几个发明者还是看到了更多的需求。Samuel F. B. Morse在1838年到1854年间发明了电报,当时他还发明了一种电报上使用的代码。字母表中的每个字符对应于一系列短的和长的脉冲(点和破折号)。虽然其中大小写字母之间没有区别,但数字和标点符号都有了自己的代码。

Morse代码并不是以其它图画的或印刷的象形文字来代表书写语言的第一个例子。1821年到1824年之间,年轻的Louis Braille受到在夜间读写信息的军用系统的启发,发明了一种代码,它用纸上突起的点作为代码来帮助盲人阅读。Braille代码实际上是一种6位代码,它把字符、常用字母组合、常用单字和标点进行编码。一个特殊的escape代码表示后续的字符代码应解释为大写。一个特殊的shift代码允许后续代码被解释为数字。

Telex代码,包括Baudot (以一个法国工程师命名,该工程师死于1903年)以及一种被称为CCITT #2的代码(1931年被标准化),都是包括字符和数字的5位代码。

美国标准

早期计算机的字符码是从Hollerith卡片(号称不能被折迭、卷曲或毁伤)发展而来的,该卡片由Herman Hollerith发明并首次在1890年的美国人口普查中使用。6位字符码系统BCDIC(Binary-Coded Decimal Interchange Code:二进制编码十进制交换编码)源自Hollerith代码,在60年代逐步扩展为8位EBCDIC,并一直是IBM大型主机的标准,但没使用在其它地方。

美国信息交换标准码(ASCII:American Standard Code for Information Interchange)起始于50年代后期,最后完成于1967年。开发ASCII的过程中,在字符长度是6位、7位还是8位的问题上产生了很大的争议。从可靠性的观点来看不应使用替换字符,因此ASCII不能是6位编码,但由于费用的原因也排除了8位版本的方案(当时每位的储存空间成本仍很昂贵)。这样,最终的字符码就有26个小写字母、26个大写字母、10个数字、32个符号、33个句柄和一个空格,总共128个字符码。ASCII现在记录在ANSI X3.4-1986字符集-用于信息交换的7位美国国家标准码(7-Bit ASCII:7-Bit American National Standard Code for Information Interchange),由美国国家标准协会(American National Standards Institute)发布。图2-1中所示的ASCII字符码与ANSI文件中的格式相似。

ASCII有许多优点。例如,26个字母代码是连续的(在EBCDIC代码中就不是这样的);大写字母和小写字母可通过改变一位数据而相互转化;10个数字的代码可从数值本身方便地得到(在BCDIC代码中,字符「0」的编码在字符「9」的后面!)

最棒的是,ASCII是一个非常可靠的标准。在键盘、视讯显示卡、系统硬件、打印机、字体文件、操作系统和Internet上,其它标准都不如ASCII码流行而且根深蒂固。

图2-1 ASCII字符集

国际方面

ASCII的最大问题就是该缩写的第一个字母。ASCII是一个真正的美国标准,所以它不能良好满足其它讲英语国家的需要。例如英国的英镑符号(£)在哪里?

英语使用拉丁(或罗马)字母表。在使用拉丁语字母表的书写语言中,英语中的单词通常很少需要重音符号(或读音符号)。即使那些传统惯例加上读音符号也无不当的英语单字,例如c鰋perate或者résumé,拼写中没有读音符号也会被完全接受。

但在美国以南、以北,以及大西洋地区的许多国家,在语言中使用读音符号很普遍。这些重音符号最初是为使拉丁字母表适合这些语言读音不同的需要。在远东或西欧的南部旅游,您会遇到根本不使用拉丁字母的语言,例如希腊语、希伯来语、阿拉伯语和俄语(使用斯拉夫字母表)。如果您向东走得更远,就会发现中国象形汉字,日本和朝鲜也采用汉字系统。

ASCII的历史开始于1967年,此后它主要致力于克服其自身限制以更适合于非美国英语的其它语言。例如,1967年,国际标准化组织(ISO:International Standards Organization)推荐一个ASCII的变种,代码0x40、0x5B、0x5C、0x5D、0x7B、0x7C和0x7D「为国家使用保留」,而代码0x5E、0x60和0x7E标为「当国内要求的特殊字符需要8、9或10个空间位置时,可用于其它图形符号」。这显然不是一个最佳的国际解决方案,因为这并不能保证一致性。但这却显示了人们如何想尽办法为不同的语言来编码的。

扩展ASCII

在小型计算机开发的初期,就已经严格地建立了8位字节。因此,如果使用一个字节来保存字符,则需要128个附加的字符来补充ASCII。1981年,当最初的IBM PC推出时,视讯卡的ROM中烧有一个提供256个字符的字符集,这也成为IBM标准的一个重要组成部分。

最初的IBM扩展字符集包括某些带重音的字符和一个小写希腊字母表(在数学符号中非常有用),还包括一些块型和线状图形字符。附加的字符也被添加到ASCII控制字符的编码位置,这是因为大多数控制字符都不是拿来显示用的。

该IBM扩展字符集被烧进无数显示卡和打印机的ROM中,并被许多应用程序用于修饰其文字模式的显示方式。不过,该字符集并没有为所有使用拉丁字母表的西欧语言提供足够多的带重音字符,而且也不适用于Windows。Windows不需要图形字符,因为它有一个完全图形化的系统。

在Windows 1.0(1985年11月发行)中,Microsoft没有完全放弃IBM扩展字符集,但它已退居第二重要位置。因为遵循了ANSI草案和ISO标准,纯Windows字符集被称作「ANSI字符集」。ANSI草案和ISO标准最终成为ANSI/ISO 8859-1-1987,即「American National Standard for Information Processing-8-Bit Single-Byte Coded Graphic Character Sets-Part 1: Latin Alphabet No 1」,通常也简写为「Latin 1」。

在Windows 1.0的《Programmer's Reference》中印出了ANSI字符集的最初版本,如图2-2所示。

图2-2 Windows ANSI字符集(基于ANSI/ISO 8859-1)

空方框表示该位置未定义字符。这与ANSI/ISO 8859-1的最终定义一致。ANSI/ISO 8859-1仅显示了图形字符,而没有控制字符,因此没有定义DEL。此外,代码0xA0定义为一个非断开的空格(这意味着在编排格式时,该字符不用于断开一行),代码0xAD是一个软连字符(表示除非在行尾断开单词时使用,否则不显示)。此外,ANSI/ISO 8859-1将代码0xD7定义为乘号(*),0xF7为除号(/)。Windows中的某些字体也定义了从0x80到0x9F的某些字符,但这些不是ANSI/ISO 8859-1标准的一部分。

MS-DOS 3.3(1987年4月发行)向IBM PC用户引进了代码页(code page)的概念,Windows也使用此概念。代码页定义了字符的映像代码。最初的IBM字符集被称作代码页437,或者「MS-DOS Latin US)。代码页850就是「MS-DOS Latin 1」,它用附加的带重音字母(但不是图2-2所示的Latin 1 ISO/ANSI标准)代替了一些线形字符。其它代码页被其它语言定义。最低的128个代码总是相同的;较高的128个代码取决于定义代码页的语言。

在MS-DOS中,如果用户为PC的键盘、显示卡和打印机指定了一个代码页,然后在PC上创建、编辑和打印文件,一切都很正常,每件事都会保持一致。然而,如果用户试图与使用不同代码页的用户交换文件,或者在机器上改变代码页,就会产生问题。字符码与错误的字符相关联。应用程序能够将代码页信息与文件一起保存来试图减少问题的产生,但该策略包括了某些在代码页间转换的工作。

虽然代码页最初仅提供了不包括带重音符号字母的附加拉丁字符集,但最终代码页的较高的128个字符还是包括了完整的非拉丁字母,例如希伯来语、希腊语和斯拉夫语。自然,如此多样会导致代码页变得混乱;如果少数带重音的字母未正确显示,那么整个文字便会混乱不堪而不可阅读。

代码页的扩展正是基于所有这些原因,但是还不够。斯拉夫语的MS-DOS代码页855与斯拉夫语的Windows代码页1251以及斯拉夫语的Macintosh代码页10007不同。每个环境下的代码页都是对该环境所作的标准字符集修正。IBM OS/2也支援多种EBCDIC代码页。

但等一下,你会发现事情变得更糟糕。

双字节字符集

迄今为止,我们已经看到了256个字符的字符集。但中国、日本和韩国的象形文字符号有大约21,000个。如何容纳这些语言而仍保持和ASCII的某种兼容性呢?

解决方案(如果这个说法正确的话)是双字节字符集(DBCS:double-byte character set)。DBCS从256代码开始,就像ASCII一样。与任何行为良好的代码页一样,最初的128个代码是ASCII。然而,较高的128个代码中的某些总是跟随着第二个字节。这两个字节一起(称作首字节和跟随字节)定义一个字符,通常是一个复杂的象形文字。

虽然中文、日文和韩文共享一些相同的象形文字,但显然这三种语言是不同的,而且经常是同一个象形文字在三种不同的语言中代表三件不同的事。Windows支持四个不同的双字节字符集:代码页932(日文)、936(简体中文)、949(韩语)和950(繁体汉字)。只有为这些国家(地区)生产的Windows版本才支持DBCS。

双字符集问题并不是说字符由两个字节代表。问题在于一些字符(特别是ASCII字符)由1个字节表示。这会引起附加的程序设计问题。例如,字符串中的字符数不能由字符串的字节数决定。必须剖析字符串来决定其长度,而且必须检查每个字节以确定它是否为双字节字符的首字节。如果有一个指向DBCS字符串中间的指针,那么该字符串前一个字符的地址是什么呢?惯用的解决方案是从开始的指针分析该字符串!

Unicode解决方案

我们面临的基本问题是世界上的书写语言不能简单地用256个8位代码表示。以前的解决方案包括代码页和DBCS已被证明是不能满足需要的,而且也是笨拙的。那什么才是真正的解决方案呢?

身为程序写作者,我们经历过这类问题。如果事情太多,用8位数值已经不能表示,那么我们就试更宽的值,例如16位值。而且这很有趣的,正是Unicode被制定的原因。与混乱的256个字符代码映像,以及含有一些1字节代码和一些2字节代码的双字节字符集不同,Unicode是统一的16位系统,这样就允许表示65,536个字符。这对表示所有字符及世界上使用象形文字的语言,包括一系列的数学、符号和货币单位符号的集合来说是充裕的。

明白Unicode和DBCS之间的区别很重要。Unicode使用(特别在C程序设计语言环境里)「宽字符集」。「Unicode中的每个字符都是16位宽而不是8位宽。」在Unicode中,没有单单使用8位数值的意义存在。相比之下,在双字节字符集中我们仍然处理8位数值。有些字节自身定义字符,而某些字节则显示需要和另一个字节共同定义一个字符。

处理DBCS字符串非常杂乱,但是处理Unicode文字则像处理有秩序的文字。您也许会高兴地知道前128个Unicode字符(16位代码从0x0000到0x007F)就是ASCII字符,而接下来的128个Unicode字符(代码从0x0080到0x00FF)是ISO 8859-1对ASCII的扩展。Unicode中不同部分的字符都同样基于现有的标准。这是为了便于转换。希腊字母表使用从0x0370到0x03FF的代码,斯拉夫语使用从0x0400到0x04FF的代码,美国使用从0x0530到0x058F的代码,希伯来语使用从0x0590到0x05FF的代码。中国、日本和韩国的象形文字(总称为CJK)占用了从0x3000到0x9FFF的代码。

Unicode的最大好处是这里只有一个字符集,没有一点含糊。Unicode实际上是个人计算机行业中几乎每个重要公司共同合作的结果,并且它与ISO 10646-1标准中的代码是一一对应的。Unicode的重要参考文献是《The Unicode Standard,Version 2.0》(Addison-Wesley出版社,1996年)。这是一本特别的书,它以其它文件少有的方式显示了世界上书写语言的丰富性和多样性。此外,该书还提供了开发Unicode的基本原理和细节。

Unicode有缺点吗?当然有。Unicode字符串占用的内存是ASCII字符串的两倍。(然而压缩文件有助于极大地减少文件所占的磁盘空间。)但也许最糟的缺点是:人们相对来说还不习惯使用Unicode。身为程序写作者,这就是我们的工作。

Fortran语言是什么意思??: FORTRAN是英文“FORmula TRANslator”的缩写,译为“公式翻译器”,它是世界上最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。FORTRAN语言以其特有的功能在数值、科学和工程计算领域发挥着重要作用。
早在1951年,美国IBM公司约翰·贝克斯(John Backus)针对汇编语言的缺点着手研究开发FORTRAN语言,并于1954年在纽约正式对外发布。称约翰·贝克斯提出的FORTRAN语言为FORTRANⅠ,FORTRANⅠ虽然功能简单,但它的开创性工作,在社会上引起了极大的反响。到1957年第一个FORTRAN编译器在IBM704计算机上实现,并首次成功运行了FORTRAN程序。
在1958年,对FORTRANⅠ进行了扩充和完善,引进了子函数等概念,推出了商业化的FORTRANⅡ版本。之后,FORTRAN语言发展迅速,多种版本相继在其它计算机上实现。
在1962年,推出了FORTRAN Ⅳ。FORTRAN Ⅳ没有充分考虑兼容性,导致FORTRANⅡ程序不能在FORTRAN Ⅳ系统中运行,使其应用受到了很大限制,这时语言不兼容性问题和影响被突出表现出来。此前也出现过FORTRAN Ⅲ,但由于存在严重缺陷,没有在计算机上实现。
随着FORTRAN语言版本的不断更新和变化,语言不兼容性问题日益突出,语言标准化工作被提上了日程。1962年5月,美国标准化协会(简称ANSI)成立相关机构着手进行FORTRAN语言标准化的研究工作,并于1966年正式公布了两个标准文本:美国国家标准FORTRAN(ANSI X3.9-1966)和美国国家标准基本FORTRAN(ANSI X3.10-1966),前者相当于FORTRAN Ⅳ,后者相当于FORTRANⅡ。基本FORTRAN是美国国家标准FORTRAN的一个子集,从而实现了语言的向下兼容,初步解决了语言的兼容性问题。通常称美国国家标准FORTRAN为FORTRAN 66。FORTRAN 66的推出在国际上产生了广泛影响,1972年国际标准化组织(简称ISO)在FORTRAN 66基础上制定了FORTRAN语言三级国际标准:基本级、中间级和完全级。
20世纪60代末,结构化程序设计方法提出后,具有结构化特征的程序设计语言开始出现,如:ALGOL、PASCAL、MODULA、C等。如何将结构化特征引入FORTRAN 66引起计算机厂商和研究机构的高度重视,许多计算机厂商开始对FORTRAN 66进行不同程度的扩充,引入了结构化特征。针对这种情况,ANSI于1976年对FORTRAN 66(ANSI X3.9-1966)进行了修订,吸收了计算机厂商所扩充的一些行之有效的功能,同时增加了许多新内容。ANSI于1978年4月正式公布了新的美国国家标准(程序设计语言FORTRAN ANSI X3.9-1978),同时宣布撤消ANSI FORTRAN 3.9-1966,通常称新标准为FORTRAN 77(该版本原计划1977年公布)。FORTRAN 77向下兼容FORTRAN 66。在1980年,FORTRAN 77被ISO正式确定为国际标准ISO 1539-1980,该标准分全集和子集。FORTRAN 77推出后,由于具有结构化特征,在社会上得到了广泛应用,同时由于扩充了字符处理功能,在非数值处理领域也能大显身手。
20世纪80年代末,FORTRAN 77结构化和现代化的研究开始兴起,到1991年5月,ANSI公布了新的美国国家标准FORTRAN(ANSI 3.198-1991)。之后,ISO采纳该标准,并确定为国际标准ISO/IEC 1539-1:1991,新国际标准还采纳了我国计算机和信息处理标准化技术委员会程序设计分会提出的多字节字符集数据类型及相应的内部函数,为非英语国家使用计算机提供了极大的方便。通常称新标准为FORTRAN 90,FORTRAN 90向下兼容FORTRAN 77。之后不久又出现了FORTRAN 95。
FORTRAN 90的推出,使传统FORTRAN语言具有了现代气息。微软公司将FORTRAN 90无缝集成在Developer Studio集成开发环境之中,推出了Microsoft FORTRAN PowerStation 4.0,使FORTRAN 90真正实现了可视化编程,彻底告别了传统DOS环境(字符界面),转到了现代Windows环境(视窗界面),共享微软公司Windows平台的丰富资源。在1997年3月,微软公司和数据设备公司(Digital Equipment Corp,简称DEC)强强联合,合作研究、开发和推出了功能更强的FORTRAN语言新版本:Digital Visual FORTRAN 5.0,它是Microsoft FORTRAN PowerStation 4.0的升级换代产品。DEC公司在高性能科学和工程计算方面拥有世界领先技术,其高质量的FORTRAN编译器遍及全球。1998年1月,DEC与Compag公司合并,DEC成为Compag公司的全资子公司,于是Digital Visual FORTRAN更名为Compag Visual FORTRAN,到目前为止,Visual FORTRAN的最新版本为Compag Visual FORTRAN 6.6。

vb函数获取获取字符窜所占字节数,比如“1111徐”应该占6个字节: VB内部采用Unicode编码,在这种编码格式下,任何字符(包括半角的字母、数字、符号以及全角的汉字、符号)都是占用两个字节的。因此,Len("1111徐")的返回值是5,表示5个字符,而LenB("1111徐")的返回值是10,表示占用10个字节。
要想按ANSI编码格式来获取字符串的字节数,必须这样:
LenB(StrConv("1111徐", vbFromUnicode))
要注意哦,虽然返回值是6,但这个数与这个字符串在内存中的实际占用字节数是不相符的哦!

什么是字节、卷?: 字节
zìjié
字节(Byte): 字节是通过网络传输信息(或在硬盘或内存中存储信息)的单位。
字节是计算机信息技术用于计量存储容量和传输容量的一种计量单位,1个字节等于8位二进制。
在ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。
符号:英文标点占一个字节,中文标点占两个字节.
一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数,如一个ASCII码就是一个字节,此类单位的换算为:
1千吉字节(TB,Terabyte)=1024吉字节 (2的40次方字节)
(1TB=1024GB)
1吉字节(GB,Gigabyte) =1024兆字节 (2的30次方字节)
(1GB=1024MB)
1兆字节(MB,Megabyte) =1024千字节 (2的20次方字节)
(1MB=1024KB)
1千字节(KB,Kilobyte) =1024字节 (2的10次方字节)
1字节(Byte) = 8位(bit)

注:更大的单位,还有 PB(Petabyte,1PB=1024TB)、EB(Exabyte,1EB=1024PB)、ZB(Zettabyte,1ZB=1024EB)、YB(Yottabyte,1YB=1024ZB)……
1.2 字符,字节,字符串
理解编码的关键,是要把字符的概念和字节的概念理解准确。这两个概念容易混淆,我们在此做一下区分:
概念描述 举例
字符 人们使用的记号,抽象意义上的一个符号。 '1', '中', 'a', '$', '¥', ……
字节 计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间。 0x01, 0x45, 0xFA, ……
ANSI 字符串
在内存中,如果“字符”是以 ANSI 编码形式存在的,一个字符可能使用一个字节或多个字节来表示,那么我们称这种字符串为 ANSI 字符串或者多字节字符串。如,"中文123" (占7字节)。
字符集和代码页
对于 ANSI 编码方式,存在不同的字符集(Charset)。同样的字节序列,在不同的字符集下表示的字符不一样。要正确解析一个 ANSI 字符串,还要选择正确的字符集,否则就可能导致所谓的乱码现象。不同语言版本的操作系统,都有一个默认的字符集。在不指定字符集的情况下,系统会使用此字符集来解析 ANSI 字符串。也就是说,如果我们在简体中文版的 Windows 下打开了一个由日文操作系统保存的 ANSI 文本文件(仅包含 ANSI 字符串的文本文件),我们看到的将是乱码。但是,如果我们使用 Visual Studio 之类的带编码选择的文本编辑器打开此文件,并且选择正确的字符集,我们将可以看到它的原貌。注意:简体中文字符集中的繁体字和繁体中文字符集中的繁体字,编码不一定相同(实事证明,似乎是完全不同)。
每个字符集都有一个唯一的编号,称为代码页(Code Page)。简体中文(GB2312)的代码页为 936,而系统默认字符集的代码页为 0,它表示根据系统的语言设置来选择一个合适的字符集。
UNICODE
字符串 在内存中,如果“字符”是以在 UNICODE 中的序号存在的,那么我们称这种字符串为 UNICODE 字符串或者宽字节字符串。Unicode 中,每个字符都占两个字节。如, L"中文123"(占10字节)。
由于不同 ANSI 编码所规定的标准是不相同的(字符集不同),因此,对于一个给定的多字节字符串,我们必须知道它采用的是哪一种字符集则,才能够知道它包含了哪些“字符”。而对于 UNICODE 字符串来说,不管在什么环境下,它所代表的“字符”内容总是不变的。Unicode 有着统一的标准,它定义了世界上绝大多数的字符的编码,使得拉丁文、数字、简体中文、繁体中文、日文都能一同一种编码方式保存。老了不死


硬盘上的存储区域。驱动器使用一种文件系统(如 FAT 或 NTFS)格式化卷,并给它指派一个驱动器号。单击“Windows 资源管理器”或“我的电脑”中相应的图标可以查看驱动器的内容。一个硬盘包括好多卷,一卷也可以跨越许多磁盘。根据他的特点有以下种类的卷:
活动卷:计算机的启动卷。活动卷必须是动态磁盘上的简单卷。您不能将现有的动态卷标记为活动卷,但您可以将包含活动分区的基本磁盘升级为动态磁盘。一旦将磁盘升级为动态磁盘,分区就变为活动的简单卷
基本卷:驻留在基本磁盘上的主磁盘分区或逻辑驱动器
启动卷:包含 Windows 操作系统及其支持文件的卷。启动卷可以是系统卷,但不必一定是系统卷
动态卷:驻留在动态磁盘上的卷。Windows 支持五种类型的动态卷:简单卷、跨区卷、带区卷、镜像卷和 RAID-5 卷。动态卷通过使用文件系统来格式化(例如,FAT 或 NTFS),并有一个分配给它的驱动器号
镜像卷:在两个物理磁盘上复制数据的容错卷。通过使用两个相同的卷(被称为镜像),镜像卷提供了数据冗余以便复制包含在卷上的信息。镜像总位于另一个磁盘上。如果其中一个物理磁盘出现故障,则该故障磁盘上的数据将不可用,但是系统可以在其他磁盘上的镜像中继续操作。只能在动态磁盘上创建镜像卷
孤立卷:由于服务器的原因(如断电或硬盘磁头完全失败)而失败的镜像卷或 RAID-5 卷的一个成员。当该情况发生时,容错驱动程序决定它不再使用孤立成员,并将新的读取和写入定向到容错卷的其他成员
RAID-5 卷:具有数据和奇偶校验的容错卷,间歇地分布于三个或更多的物理磁盘。奇偶校验是用于在失败后重建数据的计算值。如果物理磁盘的某一部分失效,您可以用余下的数据和奇偶校验重新创建磁盘上失效的那一部分上的数据。只能在动态磁盘上创建 RAID-5 卷,您不能镜像或扩展 RAID-5 卷
简单卷:由单个动态磁盘的磁盘空间所组成的动态卷。简单卷可以由磁盘上的单个区域或同一磁盘上链接在一起的多个区域组成。可以在同一磁盘中扩展简单卷,或是扩展到其他磁盘。如果跨多个磁盘扩展简单卷,则该卷将成为跨区卷。只能在动态磁盘上创建简单卷。简单卷不能容错,但是您可以镜像它们以生成一个镜像卷
跨区卷:由多个物理磁盘上的磁盘空间组成的卷。可以通过向其他动态磁盘扩展来增加跨区卷的容量。只能在动态磁盘上创建跨区卷。跨区卷不能容错也不能被镜像
一(juǎn)
①短缩不利。《素问·脉要精微论》:“心脉搏坚而长,当病舌卷不能言。”
②卷曲。《素问·六元正纪大论》:“天道可见,民气可调,阴阳卷舒,近而无惑,数之可数者。”
二(juàn,音倦)书卷,书册。《灵枢·刺节真邪》:“针之极也,神明之类也,口说书卷,犹不能及也。”
⑶(quán,音全)通“拳”。《灵枢·阴阳二十五人》:“手少阳之下,血气盛则手拳多肉以温。”

老了不死;仔细看哦

电脑上的字符在哪里?: 在计算机中,对非数值的文字和其他符号进行处理时,要对文字和符号进行数字化,即用二进制编码来表示文字和符号。其中西文字符最常用到的编码方案有ASCII编码和EBCDIC编码。对于汉字,我国也制定的相应的编码方案。 1、ASCII编码 微机和小型计算机中普遍采用ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)表示字符数据,该编码被ISO(国际化标准组织)采纳,作为国际上通用的信息交换代码。
ASCII码由7位二进制数组成,由于27=128,所以能够表示128个字符数据。参照如表3-2所示的ASCII表,我们可以看出ASCII码具有以下特点:
(1)表中前32个字符和最后一个字符为控制字符,在通讯中起控制作用。
(2)10个数字字符和26个英文字母由小到大排列,且数字在前,大写字母次之,小写字母在最后,这一特点可用于字符数据的大小比较。
(3)数字0~9由小到大排列,ASCII码分别为48~57,ASCII 码与数值恰好相差48。
(4)在英文字母中,A的ASCII码值为65,a的ASCII码值为97,且由小到大依次排列。因此,只要我们知道了A和a的ASCII码,也就知道了其他字母的ASCII码。表1 ASCII码表 ASCII码是7位编码,为了便于处理,我们在ASCII码的最高位前增加1位0,凑成8位的一个字节,所以,一个字节可存储一个ASCII码,也就是说一个字节可以存储一个字符。ASCII码是使用最广的字符编码,数据使用ASCII码的文件称为ASCII文件。2、 ANSI编码和其他扩展的ASCII码 ANSI(美国国家标准协会)编码是一种扩展的ASCII码,使用8个比特来表示每个符号。8个比特能表示出256个信息单元,因此它可以对256个字符进行编码。ANSI码开始的128个字符的编码和ASCII码定义的一样,只是在最左边加了一个0。例如:在 ASCII编码中,字符“a”用1100001表示,而在ANSI编码中,则用01100001表示。除了ASCII码表示的128个字符外,ANSI码还可以表示另外的128个符号,如版权符号、英镑符号、希腊字符等。
除了ANSI编码外,世界上还存在着另外一些对ASCII码进行扩展的编码方案,ASCII码通过扩展甚至可以编码中文、日文和韩文字符。不过令人遗憾的是,正是由于这些编码方案的存在导致了编码的混淆和不兼容性。3、EBCDIC编码 尽管ASCII码是计算机世界的主要标准,但在许多IBM大型机系统上却没有采用。在IBM System/360计算机中,IBM研制了自己的8位字符编码——EBCDIC码(Extended Binary Coded Decimal Interchange Code,扩展的二-十进制交换码)。该编码是对早期的BCDIC 6位编码的扩展,其中一个字符的EBCDIC码占用一个字节,用8位二进制码表示信息,一共可以表示出256 种字符。4、Unicode编码 在假定会有一个特定的字符编码系统能适用于世界上所有语言的前提下,1988年,几个主要的计算机公司一起开始研究一种替换ASCII码的编码,称为Unicode编码。鉴于ASCII码是7位编码,Unicode采用16位编码,每一个字符需要2个字节。这意味着Unicode的字符编码范围从0000h~FFFFh,可以表示65536个不同字符。
Unicode编码不是从零开始构造的,开始的128个字符编码0000h~007Fh就与ASCII码字符一致,这样就能够兼顾已存在的编码方案,并有足够的扩展空间。从原理上来说,Unicode可以表示现在正在使用的、或者已经没有使用的任何语言中的字符。对于国际商业和通讯来说,这种编码方式是非常有用的,因为在一个文件中可能需要包含有汉语、英语和日语等不同的文字。并且, Unicode还适合于软件的本地化,也就是针对特定的国家修改软件。使用Unicode,软件开发人员可以修改屏幕的提示、菜单和错误信息来适合于不同的语言和地区。目前,Unicode编码在Internet中有着较为广泛的使用,Microsoft和Apple公司也已经在他们的操作系统中支持Unicode编码。
尽管Unicode对现有的字符编码做了明显改进,但并不能保证它能很快被人们接受。ASCII码和无数的有缺陷的扩展ASCII码已经在计算机世界中占有一席之地,要把它们逐出计算机世界并不是一件很容易的事。3.4.6 国家标准汉字编码(GB2312-80) 国家标准汉字编码简称国标码。该编码集的全称是“信息交换用汉字编码字符—基本集”,国家标准号是“GB2312-80”。该编码的主要用途是作为汉字信息交换码使用。
GB2312-80标准含有6763个汉字,其中一级汉字(最常用)3755个,按汉语拼音顺序排列;二级汉字3008个,按部首和笔画排列;另外还包括682个西文字符、图符。 GB2312-80标准将汉字分成94个区,每个区又包含94个位,每位存放一个汉字,这样以来,每个汉字就有一个区号和一个位号,所以我们也经常将国标码称为区位码。例如:汉字“青”在39区64位,其区位码是3964;汉字“岛”在21区26位,其区位码是2126。
国标码规定:一个汉字用两个字节来表示,每个字节只用前七位,最高位均未作定义。但我们要注意,国标码不同于ASCII码,并非汉字在计算机内的真正表示代码,它仅仅是一种编码方案,计算机内部汉字的代码叫做汉字机内码,简称汉字内码。
在微机中,汉字内码一般都是采用两字节表示,前一字节由区号与十六进制数A0相加,后一字节由位号与十六进制数A0相加,因此,汉字编码两字节的最高位都是1,这种形式避免了国标码与标准ASCII码的二义性(用最高位来区别)。在计算机系统中,由于机内码的存在,输入汉字时就允许用户根据自己的习惯使用不同的输入码,进入计算机系统后再统一转换成机内码存储。5、 其他汉字编码 除了我们前面谈到的国标码之外,还有另外的一些汉字编码方案。例如,在我国的台湾地区,就使用Big5汉字编码方案。这种编码就不同于我们的国标码,因此在双方的交流中就会涉及到汉字内码的转换,特别是Internet的发展使人们更加关注这个问题。现在虽然已经推出了许多支持多内码的汉字操作系统平台,但是全球汉字信息编码的标准化已成为社会发展的必然趋势。

TXT文本档案: 提到编码方式和Unicode,往往是长篇大论+通篇的专业术语,让人生畏。

我这里用尽可能简单的描述,总结一下常用的gbk(ansi),unicode(utf-8,utf-16)等编码方式的基本概念和特点,希望能有帮助,对更详细内容感兴趣就去查规范吧,这类资料应有尽有。另外,用语不够准确的地方还望指正。

==============================
背景:

由于文本文件可能包含各国文字和特殊符号,不可能用单字节(只支持256个字符)表示所有的字符,有些字符要用两个或多个字节来表示。于是各个国家和组织根据需要各自定义了不同的字符集,而且对字符集中的字符采用的编码方式也因国家和组织的不同而不同。

==============================
GBK(汉字国标扩展码)

GBK共收录了883个符号, 21003个汉字及提供了1894个造字码位,基本编码方式是:
1. 英文字母、数字等Ascii兼容字符占用1字节
2. 汉字和其他符号占用2字节。

ANSI对于中文系统来说就是GB2312,GBK是GB2312的扩展,完全兼容GB2312

==============================
UNICODE(国际统一码)

UNICODE把字符从000000 - 10FFFF进行编号,最多可容纳1114112个字符。
目前只收录了99089个字符,其中包括71226个汉字(unicode5.0.0版)。
基本的编码方式分为UTF-8/UTF-16/UTF-32

UTF-8以字节为单位对Unicode进行编码,不同字符占用不同的字节数。
1.对于从000000-00007F的编码,占用1个字节(英文字母、数字等);
2.从000080-0007FF的编码,占用2个字节(泛欧语系、斯拉夫语字母等);
3.从000800-00FFFF的编码,占用3个字节(汉字等);
4.从010000-10FFFF的编码,占用4个字节(其他不常用的文字和符号)。

UTF-16以双字节为单位对Unicode进行编码。
1.从000000-00FFFF的编码,占2个字节(英文字母、数字、常用的各国文字和符号,包括汉字);
2.从010000-10FFFF的编码,占4个字节(其他不常用的文字和符号)。

UTF-32以4字节为单位对Unicode进行编码。所有字符都用4字节;

==============================
几种编码方式举例比较:

* 英文字母A:

gbk和utf-8编码是41(单字节)
utf-16编码是0041(双字节)

* 汉字“一”:

gbk编码是D2BB(双字节)
utf-8编码是E4B880(三字节)
utf-16编码是4E00(双字节)

结论:
*utf8对英文较多的文本来说节省空间,而且和Ascii兼容,支持unicode字符集。
*utf-16对中文较多的文本来说节省空间,和Ascii不兼容,支持unicode字符集。
*gbk/gb2312中英文都最节省空间,而且和Ascii兼容,只支持gbk字符集。

==============================
关于编码方式造成的乱码:

如果某个文件是用A编码方式编码的,但是打开时按B编码方式打开,就会显示乱码,关键在于用正确的编码方式打开正确的文件。

那么怎么判断一个文件用的是什么编码方式呢?
以往不知道一个文件的编码方式是什么,需要用记事本等工具按照各种编码方式一一打开,看看是不是显示正确。

现在可以用Replace Pioneer来进行自动检测,支持70多种编码方式:
1. 选择Tools->Encoding Detection
2. 在"File to Check"里输入文件名,点击Start
3. 你的文件就会被用70多种编码方式显示出来,能正确显示的一种编码方式即为文件的编码方式。
==============================
怎样进行编码方式转换?

Replace Pioneer 可以支持批量编码转换,以Unicode转gbk(ansi)为例:

==========
单文件转换:
1. 打开Convert->Encoding Convert菜单
2.点击input encoding,设置成More Unicode->UTF-16
3.点击output encoding,设置成CN->gbk
4.选择input file 和output file,点击Start即可。
==========
批量文件转换:

第一步:选文件
1.打开Tools->Batch Runner菜单
2.点击Pick Files,用鼠标对需要处理的多个文件进行多选。如果你需要的文件类型选不了,把文件类型改选成All files *.*

第二步:变换编码
1.点击Change Encode按钮
2.点击input encoding,设置成More Unicode->UTF-16
3.点击output encoding,设置成CN->gbk
4.点击start,完成

注:如果你想把输出保存到新文件里,可以修改set output filename,把它从${FILENAME}改成新的规则,比如${FILENAME}.new。还要注意备份,以防操作失误。

  • 2016年工行利率是多少

    Html Components是啥?: htc的全称就是Html Components,由微软在IE5.0后开始提供的一种新的指令组合,它可以把某种特定功能的代码封装在一个组件之中,从而实现了代码的重复使用,据说是用来代替activex和applet的.从...

    488条评论 6082人喜欢 1371次阅读 239人点赞
  • 2010款2.5v6天籁气囊有几个

    2017年济宁市第二中学招生人数: 亲,你说的是学校招新生么,如果是,一般学校是在五月开始新生登记,在六月份左右,正式招收新生。如果你想要入学要早一点哦,不要错过了时间。 ...

    781条评论 5301人喜欢 3412次阅读 410人点赞
  • ipad怎样禁止系统更新提示

    2017长春最火招商项目有哪些: 欧亚新生活、车城万达广场 ...

    658条评论 6006人喜欢 2876次阅读 827人点赞
  • f3的油泵继电器在哪里

    action="/search_items.html"是什么意思: 表示点击form的提交按钮 直接把数据提交到该html所在的目录下的search_items.html中.... ...

    923条评论 2533人喜欢 6458次阅读 226人点赞
  • 互联网是谁的

    什么是静态文件?: 说白了就是个网页,超文本标记语言。你看到的网站就是由众多的网页构成,只不过html是最基础的而已。 ...

    658条评论 2025人喜欢 1095次阅读 789人点赞
  • 15临床医师分数哪里查

    223323什么意思?: 嗯,谢谢二姐什么意思?我觉得这是一个对你好好的。意思想对你说是再见。 ...

    745条评论 6562人喜欢 1842次阅读 461人点赞