介绍一下java字符集和字符的编码方式,

首先要区分一下字符集和字符编码.所谓的字符集 类似于unicode,GB2312,GBK,ASCII等等.因为一开始只有26个英文字母需要

编一下号.所有用下ASCII就够了,但是随着计算机的发展,有更多的文字需要在计算机中进行表现,包括拉丁文,日文,中文等等,因此各国有发展了

各自国家文字的字符集. 然后为了统一地球,把所有国家的文字集中起来,发展了unicode(废话很多)

unicode一开始是用2个字节(16位)对应一个符号.这跟java中一个char类型的变量所占用的字节数是相等的,没什么问题.但是后来unicode升级了

扩展到了20位(扩展为0x0000-0x10ffff),这样,一个char有时候就不能对应到一个unicode字符集中的一个符号了.

所以就用2个char来表示一个大于0xffff的数值在unicode字符集中所对应的符号.(假设说从0x0000-0xffff个数,每一个对应一个符号,都可以用一个char来表示,

那么,数字0x10ff00所对应的符号就必须用2个char来表示,假设0x10ff00直接用2个char也就是32位来表示,即表示为0x0010,0xff00,但是当读取到0x0010时候,如何判断这个数字是代表0x0010在unicode字符集中对应的一个符号,还是表示0x10ff00数字的高16位,所以我们需要一种编码方式来解决这种歧义.所以这就是编码方式的作用之一)

在java中char类型集采用的是utf-16的编码方式.下面就对utf-16编码方式进行一下介绍.

  先介绍一下几个名词: 1.代码点(code point): 表示的是某个字符在unicode字符集中所对应的编号. 比如字符 'A' 对应的代码点(code point)就是0x0041

            2. 代码单元(code unit): 规定16位的存储容量就是一个代码单元.

Unicode代码点可以分成17个代码级别(code plane)。第一个代码级别称为基本的多语言级别(basic multilingual plane),代码点从0x0000到0xFFFF,其中包括了经典的Uncode代码;其余16个附加级别,代码点从0x10000带0x10FFFF,其中包括了一些辅助字符(supplementary character)。

Unicode字符集基本平面BMP中的字符(从0x0000到0xFFFF,但必须除开0xD800~0xDFFF这一在Unicode字符集BMP中称之为代理码点的部分(空闲部分) 0xD800到0xDBFF用于第一个代码单元,0xDC00到0xDFFF用于第二个代码单元),仍然是直接映射关系,亦即这部分字符的字符编号与字符编码是等同的。

而在编码0x10000~0x10FFFF区间内的字符,则用2个代码单元标识.且每个代码单元的值都落在了0xD800-0xDFFF区间内(这样就不会发生歧义)

假设字符X(未知数)的编码在0xFFFF之外,那么字符X有2个代码单元 —— W1和W2。其中W1=110110yyyyyyyyyy(0xD800-0xDBFF),W2 = 110111xxxxxxxxxx(0xDC00-OxDFFF)。然后,将X的高10位分配给W1的低10位,将X的低10位分配给W2的低10位。这样就可以将20bits的代码点X拆成两个16bits的代码单元。而且这两个代码点正好落在替代区域0xD800-0xDFFF中。

具体举个例子:代码点0x1D56B(一个整数集的算术符号Z)

0x1D56B= 0001 1101 0101 0110 1011

将0x1D56B的高10位0001 1101 01分配给W1的低10位组合成110110 0001 1101 01=0xD875
         将0x1D56B的低10位01 0110 1011分配给W2的低10位组合成110111 01 0110 1011=0xDD6B
       这样代码点0x1D56B采用UTF-16编码方式,用2个连续的代码单元0xD875和0xDD68表示出了。

由于String内部使用的是char[]来表示字符串,所以String类也使用utf-16编码方式存储字符.

所以我们使用Strinig类的CharAt(index)方法时要多加小心,  返回的char可能落在区间0xD800-0xDFFF中(如果字符串中含有除基本多语言级别之外的字符)

还有一些比如length()方法,只是返回底层char数组的长度,并非实际字符的个数.(当然还有其他一些方法,需要多注意).

  参考:https://zhuanlan.zhihu.com/p/27417641

http://blog.csdn.net/fhx19900918/article/details/8135019

java字符串以及字符类型基础的更多相关文章

  1. java字符串和时间类型的相互转换

    整理的时间正则可能不全 /****** * * 是以"-" 为分隔符的 * * * * ******/ // 2012-12-03 04:07:34 reg = "\\d ...

  2. java 字符串,字符数组,list间的转化

    1.关于java.lang.string.split xxx.split()方法可以将一个字符串分割为子字符串,然后将结果作为字符串数组返回. 2.字符串转字符数组 String str =" ...

  3. Delphi XE7中各种字符串与字符类型的内存结构

    1. ShortString 类型 定义:type ShortString = string[255]; 内存结构与大小:ShortString 是每个字符为单字节的字符串.ShortString 的 ...

  4. python 判断字符串中字符类型的常用方法

    s为字符串 s.isalnum() 所有字符都是数字或者字母 s.isalpha() 所有字符都是字母 s.isdigit() 所有字符都是数字 s.islower() 所有字符都是小写 s.isup ...

  5. java字符串转为Map类型:split()方法的应用

    方法一: package com.thinkgem.jeesite.modules.socketTest.demo2; import java.util.HashMap; import java.ut ...

  6. java字符串转换数值类型出现异常赋予默认值

    http://blog.csdn.net/w47_csdn/article/details/77855126 可以自定义工具方法,例如: public static int parseInt(Stri ...

  7. 循环遍历Java字符串字符的规范方法——类似python for ch in string

    比如我将string作为CNN 文本处理输入: float [] input = new float[maxLength]; // 1 sentence by maxLenWords // int[] ...

  8. 5.Swift教程翻译系列——Swift字符串和字符

    英文版PDF下载地址http://download.csdn.net/detail/tsingheng/7480427 字符串是一组字符的有序序列,比方"hello,china"或 ...

  9. The Swift Programming Language-官方教程精译Swift(4)字符串和字符

    String 是一个有序的字符集合,例如 "hello, world", "albatross".Swift 字符串通过 String 类型来表示,也可以表示为 ...

随机推荐

  1. SAP打印机配置

    SAP打印机配置 一.SAP打印原理 SAP的打印过程分两个步骤: 1.创建假脱机请求: 2.创建输出请求: 在点击打印按钮后,系统会提示创建假脱机请求后,你可以选择直接生成输出请求,或者手动生成输出 ...

  2. iOS block 的底层实现

    其实swift 的闭包跟 OC的block 是一样一样的,学会了block,你swift里边的闭包就会无师自通. 参考:http://www.jianshu.com/p/e23078c11518 ht ...

  3. 畅通工程 HDOJ--1863

    畅通工程 Time Limit: 1000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total Submis ...

  4. Django contrib Comments 评论模块详解

    老版本的Django中自带一个评论框架.但是从1.6版本后,该框架独立出去了,也就是本文的评论插件. 这个插件可给models附加评论,因此常被用于为博客文章.图片.书籍章节或其它任何东西添加评论. ...

  5. java中小数的处理:高精度运算用bigDecimal类,精度保留方法,即舍入方式的指定

    一. 计算机的小数计算一定范围内精确,超过范围只能取近似值: 计算机存储的浮点数受存储bit位数影响,只能保证一定范围内精准,超过bit范围的只能取近似值. java中各类型的精度范围参见:http: ...

  6. linux中MTDflash设备驱动大概

    一.主要结构体 1.mtd_info,主要是描述MTD原始设备层中的设备或分区, 2.mtd_part,表示一个分区,用里面的主mtd_info和本分区mtd_info描述分区, 3.mtd_part ...

  7. java 8中抽象类与接口的异同

    1.java 8中抽象类与接口的异同 相同点: 1)都是抽象类型: 2)都可以有实现方法(以前接口不行): 3)都可以不需要实现类或者继承者去实现所有方法,(以前不行,现在接口中默认方法不需要实现者实 ...

  8. iOS版本设置

    Base SDK指的是当前编译所用的SDK 版本: iOS Deployment Target指的是,编译后的 app 可在 终端的哪个 版本上运行. 设置方法: 点击xcode工程左侧项目名称-&g ...

  9. 使用 IntraWeb (2) - Hello IntraWeb

    IntraWeb 比我相像中的更贴近 VCL, 传统的非可视组件在这里大都可用(其内部很多复合属性是 TStringList 类型的), 它的诸多可视控件也是从 TControl 继承下来的. 这或许 ...

  10. Ultraedit使用小技巧

    4. 编辑文件如何加入时间戳 ?F7 快捷键即可.你试试看? 5. 为何拷贝(Copy)/粘贴(Paste)功能不能用了?不怕大家笑话,我有几次使用 UltraEdit的过程中发现拷贝与粘贴的内容是不 ...