编程进阶网编程进阶网
  • 基础组成体系
  • 程序编程原理
  • 异常和IO系统
  • 六大设计原则
  • 设计模式导读
  • 创建型设计模式
  • 结构型设计模式
  • 行为型设计模式
  • 设计模式案例
  • 面向对象思想
  • 基础入门
  • 高级进阶
  • JVM虚拟机
  • 数据集合
  • Java面试题
  • C语言入门
  • C综合案例
  • C标准库
  • C语言专栏
  • C++入门
  • C++综合案例
  • C++专栏
  • HTML
  • CSS
  • JavaScript
  • 前端专栏
  • Swift
  • iOS入门
  • 基础入门
  • 开源库解读
  • 性能优化
  • Framework
  • 方案设计
  • 媒体音视频
  • 硬件开发
  • Groovy
  • 常用工具
  • 大厂面试题
  • 综合案例
  • 网络底层
  • Https
  • 网络请求
  • 故障排查
  • 专栏
  • 数组
  • 链表
  • 栈
  • 队列
  • 树
  • 递归
  • 哈希
  • 排序
  • 查找
  • 字符串
  • 其他
  • Bash脚本
  • Linux入门
  • 嵌入式开发
  • 代码规范
  • Markdown
  • 开发理论
  • 开发工具
  • Git管理
  • 百宝箱
  • 开源协议
  • 技术招聘
  • 测试经验
  • 职场提升
  • 技术模版
  • 关于我
  • 目标清单
  • 学习框架
  • 育儿经验
  • 我的专栏
  • 底层能力
  • 读书心得
  • 随笔笔记
  • 职场思考
  • 中华历史
  • 经济学故事
  • 基础组成体系
  • 程序编程原理
  • 异常和IO系统
  • 六大设计原则
  • 设计模式导读
  • 创建型设计模式
  • 结构型设计模式
  • 行为型设计模式
  • 设计模式案例
  • 面向对象思想
  • 基础入门
  • 高级进阶
  • JVM虚拟机
  • 数据集合
  • Java面试题
  • C语言入门
  • C综合案例
  • C标准库
  • C语言专栏
  • C++入门
  • C++综合案例
  • C++专栏
  • HTML
  • CSS
  • JavaScript
  • 前端专栏
  • Swift
  • iOS入门
  • 基础入门
  • 开源库解读
  • 性能优化
  • Framework
  • 方案设计
  • 媒体音视频
  • 硬件开发
  • Groovy
  • 常用工具
  • 大厂面试题
  • 综合案例
  • 网络底层
  • Https
  • 网络请求
  • 故障排查
  • 专栏
  • 数组
  • 链表
  • 栈
  • 队列
  • 树
  • 递归
  • 哈希
  • 排序
  • 查找
  • 字符串
  • 其他
  • Bash脚本
  • Linux入门
  • 嵌入式开发
  • 代码规范
  • Markdown
  • 开发理论
  • 开发工具
  • Git管理
  • 百宝箱
  • 开源协议
  • 技术招聘
  • 测试经验
  • 职场提升
  • 技术模版
  • 关于我
  • 目标清单
  • 学习框架
  • 育儿经验
  • 我的专栏
  • 底层能力
  • 读书心得
  • 随笔笔记
  • 职场思考
  • 中华历史
  • 经济学故事
  • 1.1String深入理解原理
  • 1.2浮点型数据深入研究
  • 1.3数据装箱和拆箱原理
  • 1.4泛型由来和设计思想
  • 1.5加密和解密设计和原理
  • 2.1面向对象设计思想
  • 2.2抽象类和接口设计
  • 2.3封装和继承设计思想
  • 2.4复用和组合设计思想
  • 2.5对象和引用设计思想
  • 3.1IO流设计思想和原理
  • 3.2为何设计序列化数据
  • 3.3各种拷贝数据比较
  • 3.4高效文件读写的原理
  • 4.1反射性能探索和优化
  • 4.2为何要设计注解思想
  • 4.3动态代理的设计思想
  • 4.4SPI机制设计的思想
  • 4.5异常设计和捕获原理
  • 4.6虚拟机如何处理异常
  • 4.7四种引用设计思想
  • 5.1线程的前世今生探索
  • 5.2线程通信的设计思想
  • 5.3线程监控和Debug设计
  • 5.4线程和JVM之间联系
  • 5.5线程池使用技巧介绍
  • 5.6线程池设计核心原理
  • 5.7线程如何最大优化
  • 6.1多线程并发经典案例
  • 6.2并发安全前世今生
  • 6.3线程安全如何保证
  • 6.4变量的线程安全探索
  • 6.5并发上下文切换原理
  • 6.6理解CAS设计和由来
  • 6.7协程设计思想和原理
  • 6.8事物并发模型解读
  • 6.9并发设计模型研究
  • 6.10并发编程数据一致性
  • 6.11锁问题的定位和修复
  • 6.12多线程如何性能调优
  • 7.1类的加载过程和原理
  • 7.2对象布局设计的原理
  • 7.3双亲委派机制设计思想
  • 7.5代码攻击和安全防护
  • 7.6设计动态生成Java类

3.1IO流设计思想和原理

目录介绍

  • 01.什么是IO流
    • 1.1 为什么会有流概念
    • 1.2 IO流的基本类设计
    • 1.3 设计字节流思想
    • 1.4 设计字符流思想
    • 1.5 流如何做好编解码
  • 02.流的基本概念
    • 2.1 字节流使用事项
    • 2.2 字符流使用事项
    • 2.3 高效流是如何设计
    • 2.4 字节流VS字符流
    • 2.5 流应用案例说明
  • 03.IO流深入原理分析
    • 3.1
    • 3.5 IO流模型
    • 3.6 事件处理模型
    • 3.7 事件驱动
  • 04.传统IO流性能问题
    • 4.1 多次内存复制
    • 4.2 阻塞
  • 05.如何优化IO流操作
    • 5.1 设计缓冲区优化读写
    • 5.2 使用ByteBuffer减少内存复制
    • 5.3 为何有NIO流
    • 5.4 设计通道(Channel)避免阻塞
    • 5.5 设计多路复用器(Selector)避免阻塞
    • 5.6 用一个案例理解NIO
  • 06.IO流注意事项
    • 6.1 操作完后关闭流
    • 6.2 使用适当字符编码
    • 6.3 处理异常
    • 6.4 大数据分块读取
    • 6.5 考虑线程安全
    • 6.6 检查文件权限

01.什么是IO流

1.1 为什么会有流概念

  • 什么是 I/O
    • I/O 是机器获取和交换信息的主要渠道,而流是完成 I/O 操作的主要方式。
    • 机器间或程序间在进行信息交换或者数据交换时,总是先将对象或数据转换为某种形式的流,再通过流的传输,到达指定机器或程序后,再将流转换为对象数据。
    • 因此,流就可以被看作是一种数据的载体,通过它可以实现数据交换和传输。
  • 在计算机中,流是一种信息的转换。
    • 流是有序的,因此相对于某一机器或者应用程序而言,我们通常把机器或者应用程序接收外界的信息称为输入流(InputStream),从机器或者应用程序向外输出的信息称为输出流(OutputStream),合称为输入 / 输出流(I/O Streams)。

1.2 IO流的基本类设计

  • Java 的 I/O 操作类在包 java.io 下
    • 其中 InputStream、OutputStream 以及 Reader、Writer 类是 I/O 包中的 4 个基本类,它们分别处理字节流和字符流。
  • 有过这样一个疑问
    • 不管是文件读写还是网络发送接收,信息的最小存储单元都是字节,那为什么 I/O 流操作要分为字节流操作和字符流操作呢?
  • 字符到字节必须经过转码,这个过程非常耗时,如果我们不知道编码类型就很容易出现乱码问题。
    • 所以 I/O 流提供了一个直接操作字符的接口,方便我们平时对字符进行流操作。

1.3 设计字节流思想

  • InputStream/OutputStream 是字节流的抽象类,这两个抽象类又派生出了若干子类,不同的子类分别处理不同的操作类型。
    • 如果是文件的读写操作,就使用 FileInputStream/FileOutputStream;
    • 如果是数组的读写操作,就使用 ByteArrayInputStream/ByteArrayOutputStream;
    • 如果是普通字符串的读写操作,就使用 BufferedInputStream/BufferedOutputStream。

1.4 设计字符流思想

  • Reader/Writer 是字符流的抽象类,这两个抽象类也派生出了若干子类,不同的子类分别处理不同的操作类型。
    • 如果是文件的读写操作,就使用 FileReader/FileWriter;
    • 如果是字符串的读写操作,就使用 StringReader/StringWriter;
    • 如果是字符数组的读写操作,就使用 CharArrayReader/CharArrayWriter;

1.5 流如何做好编解码

  • 使用合适的字符集:
    • 在进行字符流编解码时,确保使用正确的字符集。常见的字符集包括UTF-8、UTF-16、ISO-8859-1等。选择适合的字符集来保证数据的正确性和完整性。
  • 字节流和字符流的转换
    • Java提供了字节流和字符流之间的转换类,如InputStreamReader和OutputStreamWriter。这些类可以在字节流和字符流之间进行转换,方便进行编解码操作。

02.流的基本概念

2.1 字节流使用事项

2.2 字符流使用事项

  • 字符流出现的原因
    • 字符流出现的原因: 由于字节流操作中文不是特别方便,所以,java就提供了字符流。
    • 字符流: 字符流 = 字节流 + 编码表
  • 字符流的由来:
    • 因为数据编码的不同,而有了对字符进行高效操作的流对象。本质其实就是基于字节流读取时,去查了指定的码表。
  • 关于字符
    • 可能代表一个汉字或者英文字母。

2.3 高效流是如何设计

2.4 字节流VS字符流

  • 字节流和字符流和用法几乎完全一样,区别在于字节流和字符流所操作的数据单元不同。
  • 字节流和字符流的区别:
    • 读写单位不同:字节流以字节(8bit)为单位,字符流以字符为单位,根据码表映射字符,一次可能读多个字节。
    • 处理对象不同:字节流能处理所有类型的数据(如图片、avi等),而字符流只能处理字符类型的数据,比如文本内容。

2.5 流应用案例说明

04.传统IO流性能问题

  • I/O 操作分为磁盘 I/O 操作和网络 I/O 操作。
    • 前者是从磁盘中读取数据源输入到内存中,之后将读取的信息持久化输出在物理磁盘上;
    • 后者是从网络中读取信息输入到内存,最终将信息输出到网络中。
    • 但不管是磁盘 I/O 还是网络 I/O,在传统 I/O 中都存在严重的性能问题。

4.1 多次内存复制

  • 在传统 I/O 中,我们可以通过 InputStream 从源数据中读取数据流输入到缓冲区里,通过 OutputStream 将数据输出到外部设备(包括磁盘、网络)。你可以先看下输入操作在操作系统中的具体流程,如下图所示:
    • JVM 会发出 read() 系统调用,并通过 read 系统调用向内核发起读请求;
    • 内核向硬件发送读指令,并等待读就绪;
    • 内核把将要读取的数据复制到指向的内核缓存中;
    • 操作系统内核将数据复制到用户空间缓冲区,然后 read 系统调用返回。
  • 在这个过程中,数据先从外部设备复制到内核空间,再从内核空间复制到用户空间,这就发生了两次内存复制操作。这种操作会导致不必要的数据拷贝和上下文切换,从而降低 I/O 的性能。

4.2 阻塞

  • 如何理解IO流阻塞问题
    • 在传统 I/O 中,InputStream 的 read() 是一个 while 循环操作,它会一直等待数据读取,直到数据就绪才会返回。
    • 这就意味着如果没有数据就绪,这个读取操作将会一直被挂起,用户线程将会处于阻塞状态。
    • 在少量连接请求的情况下,使用这种方式没有问题,响应速度也很高。但在发生大量连接请求时,就需要创建大量监听线程,这时如果线程没有数据就绪就会被挂起,然后进入阻塞状态。
    • 一旦发生线程阻塞,这些线程将会不断地抢夺 CPU 资源,从而导致大量的 CPU 上下文切换,增加系统的性能开销。

05.如何优化IO流操作

  • 面对以上两个性能问题,不仅编程语言对此做了优化,各个操作系统也进一步优化了 I/O。
    • JDK1.4 发布了 java.nio 包(new I/O 的缩写),NIO 的发布优化了内存复制以及阻塞导致的严重性能问题。
    • JDK1.7 又发布了 NIO2,提出了从操作系统层面实现的异步 I/O。

5.1 设计缓冲区优化读写

  • IO和NIO处理数据的基本单位不一样
    • 在传统 I/O 中,提供了基于流的 I/O 实现,即 InputStream 和 OutputStream,这种基于流的实现以字节为单位处理数据。
    • NIO 与传统 I/O 不同,它是基于块(Block)的,它以块为基本单位处理数据。
  • 在 NIO 中,最为重要的两个组件是缓冲区(Buffer)和通道(Channel)。
    • Buffer 是一块连续的内存块,是 NIO 读写数据的中转地。
    • Channel 表示缓冲数据的源头或者目的地,它用于读取缓冲或者写入数据,是访问缓冲的接口。
  • 传统 I/O 和 NIO 的最大区别就是传统 I/O 是面向流,NIO 是面向 Buffer。
    • Buffer 可以将文件一次性读入内存再做后续处理,而传统的方式是边读文件边处理数据。
    • 虽然传统 I/O 后面也使用了缓冲块,例如 BufferedInputStream,但仍然不能和 NIO 相媲美。
    • 使用 NIO 替代传统 I/O 操作,可以提升系统的整体性能,效果立竿见影。

5.2 使用ByteBuffer减少内存复制

  • NIO 的 Buffer 除了做了缓冲块优化之外,还提供了一个可以直接访问物理内存的类 ByteBuffer。
    • 普通的 Buffer 分配的是 JVM 堆内存,而 ByteBuffer 是直接分配物理内存 (非堆内存)。
    • 我们知道数据要输出到外部设备,必须先从用户空间复制到内核空间,再复制到输出设备,而在 Java 中,在用户空间中又存在一个拷贝,那就是从 Java 堆内存中拷贝到临时的直接内存中,通过临时的直接内存拷贝到内存空间中去。此时的直接内存和堆内存都是属于用户空间。
  • 为什么 Java 需要通过一个临时的非堆内存来复制数据呢?
    • 如果单纯使用 Java 堆内存进行数据拷贝,当拷贝的数据量比较大的情况下,Java 堆的 GC 压力会比较大,而使用非堆内存可以减低 GC 的压力。
    • https://blog.51cto.com/u_16213568/8659373

5.3 为何有NIO流

  • NIO 很多人也称之为 Non-block I/O,即非阻塞 I/O,因为这样叫,更能体现它的特点。为什么这么说呢?
    • 传统的 I/O 即使使用了缓冲块,依然存在阻塞问题。由于线程池线程数量有限,一旦发生大量并发请求,超过最大数量的线程就只能等待,直到线程池中有空闲的线程可以被复用。
    • 而对 Socket 的输入流进行读取时,读取流会一直阻塞,直到发生以下三种情况的任意一种才会解除阻塞:有数据可读;连接释放;空指针或 I/O 异常。
    • 阻塞问题,就是传统 I/O 最大的弊端。NIO 发布后,通道和多路复用器这两个基本组件实现了 NIO 的非阻塞。

5.4 设计通道(Channel)避免阻塞

  • 传统I/O数据读写分析
    • 传统 I/O 的数据读取和写入是从用户空间到内核空间来回复制,而内核空间的数据是通过操作系统层面的 I/O 接口从磁盘读取或写入。
    • 最开始,在应用程序调用操作系统 I/O 接口时,是由 CPU 完成分配,这种方式最大的问题是“发生大量 I/O 请求时,非常消耗 CPU“;
    • 之后,操作系统引入了 DMA(直接存储器存储),内核空间与磁盘之间的存取完全由 DMA 负责,但这种方式依然需要向 CPU 申请权限,且需要借助 DMA 总线来完成数据的复制操作,如果 DMA 总线过多,就会造成总线冲突。
  • 通道的出现解决了以上问题
    • Channel 有自己的处理器,可以完成内核空间和磁盘之间的 I/O 操作。
    • 在 NIO 中,我们读取和写入数据都要通过 Channel,由于 Channel 是双向的,所以读、写可以同时进行。

5.5 设计多路复用器(Selector)避免阻塞

  • Selector 是 Java NIO 编程的基础。
    • 用于检查一个或多个 NIO Channel 的状态是否处于可读、可写。
    • Selector 是基于事件驱动实现的,我们可以在 Selector 中注册 accpet、read 监听事件,Selector 会不断轮询注册在其上的 Channel,如果某个 Channel 上面发生监听事件,这个 Channel 就处于就绪状态,然后进行 I/O 操作。
    • 一个线程使用一个 Selector,通过轮询的方式,可以监听多个 Channel 上的事件。
    • 我们可以在注册 Channel 时设置该通道为非阻塞,当 Channel 上没有 I/O 操作时,该线程就不会一直等待了,而是会不断轮询所有 Channel,从而避免发生阻塞。
    • 目前操作系统的 I/O 多路复用机制都使用了 epoll,相比传统的 select 机制,epoll 没有最大连接句柄 1024 的限制。所以 Selector 在理论上可以轮询成千上万的客户端。

5.6 用一个案例理解NIO

  • 用一个生活化的场景来举例,看完你就更清楚 Channel 和 Selector 在非阻塞 I/O 中承担什么角色,发挥什么作用了。
    • 可以把监听多个 I/O 连接请求比作一个火车站的进站口。以前检票只能让搭乘就近一趟发车的旅客提前进站,而且只有一个检票员,这时如果有其他车次的旅客要进站,就只能在站口排队。这就相当于最早没有实现线程池的 I/O 操作。
    • 后来火车站升级了,多了几个检票入口,允许不同车次的旅客从各自对应的检票入口进站。这就相当于用多线程创建了多个监听线程,同时监听各个客户端的 I/O 请求。
    • 最后火车站进行了升级改造,可以容纳更多旅客了,每个车次载客更多了,而且车次也安排合理,乘客不再扎堆排队,可以从一个大的统一的检票口进站了,这一个检票口可以同时检票多个车次。这个大的检票口就相当于 Selector,车次就相当于 Channel,旅客就相当于 I/O 流。

06.IO流注意事项

6.1 操作完后关闭流

  • 及时关闭流:
    • 在使用完流之后,应该及时关闭它们,以释放系统资源。可以使用try-with-resources语句块来自动关闭流,或者在finally块中手动关闭流。

6.2 使用适当字符编码

  • 使用适当的字符编码:
    • 在处理文本数据时,确保使用适当的字符编码。如果不指定字符编码,默认使用平台的默认编码,这可能导致乱码问题。常见的字符编码包括UTF-8、UTF-16、ISO-8859-1等。

6.3 处理异常

  • 处理异常:
    • IO操作可能会抛出IOException及其子类的异常,如FileNotFoundException、IOException等。
    • 在进行IO操作时,应该适当地处理这些异常,例如使用try-catch块捕获异常或向上抛出异常。

6.4 大数据分块读取

  • 考虑性能和内存消耗:
    • 在处理大文件时,应该注意内存消耗和性能问题。可以使用适当的缓冲区大小、分块读取或写入数据,以避免内存溢出或性能下降。

6.5 考虑线程安全

  • 考虑线程安全:
    • 如果多个线程同时访问同一个流对象,需要考虑线程安全性。可以使用同步机制(如synchronized关键字)或使用线程安全的流类(如线程安全的BufferedInputStream)来确保线程安全。

6.6 检查文件权限

  • Java提供了哪些IO方式? NIO如何实现多路复用?
    • https://time.geekbang.org/column/article/8369
  • Java有几种文件拷贝方式?哪一种最高效?
    • https://time.geekbang.org/column/article/8393
贡献者: yangchong211
上一篇
2.5对象和引用设计思想
下一篇
3.2为何设计序列化数据