用Java解码字符:为什么使用阅读器比使用缓冲区更快? - java

我正在尝试几种方法将文件的字节解码为字符。

使用java.io.Reader和Channels.newReader(...)

public static void decodeWithReader() throws Exception {
    FileInputStream fis = new FileInputStream(FILE);
    FileChannel channel = fis.getChannel();
    CharsetDecoder decoder = Charset.defaultCharset().newDecoder();
    Reader reader = Channels.newReader(channel, decoder, -1);

    final char[] buffer = new char[4096];
    for(;;) {
        if(-1 == reader.read(buffer)) {
            break;
        }
    }

    fis.close();
}

手动使用缓冲区和解码器:

public static void readWithBuffers() throws Exception {
    FileInputStream fis = new FileInputStream(FILE);
    FileChannel channel = fis.getChannel();
    CharsetDecoder decoder = Charset.defaultCharset().newDecoder();

    final long fileLength = channel.size();
    long position = 0;
    final int bufferSize = 1024 * 1024;   // 1MB

    CharBuffer cbuf = CharBuffer.allocate(4096);

    while(position < fileLength) {
        MappedByteBuffer bbuf = channel.map(MapMode.READ_ONLY, position, Math.min(bufferSize, fileLength - position));
        for(;;) {
            CoderResult res = decoder.decode(bbuf, cbuf, false);

            if(CoderResult.OVERFLOW == res) {
                cbuf.clear();
            } else if (CoderResult.UNDERFLOW == res) {
                break;
            }
        }
        position += bbuf.position();
    }

    fis.close();
}

对于200MB的文本文件,第一种方法始终需要300毫秒才能完成。第二种方法始终需要700毫秒。您知道为什么阅读器方法这么快吗?

它可以在另一个实现中运行得更快吗?

该基准测试在Windows 7和JDK7_07上执行。

参考方案

为了进行比较,您可以尝试。

public static void readWithBuffersISO_8859_1() throws Exception {
    FileInputStream fis = new FileInputStream(FILE);
    FileChannel channel = fis.getChannel();
    MappedByteBuffer bbuf = channel.map(FileChannel.MapMode.READ_ONLY, 0, channel.size());
    while(bbuf.remaining()>0) {
        char ch = (char)(bbuf.get() & 0xFF);
    }
    fis.close();
}

假定为ISO-8859-1。如果需要最大速度,则可以选择将文本视为二进制格式,这可能会有所帮助。

正如@EJP指出的那样,您一次更改了许多事情,您需要从最简单的可比较示例开始,并查看每个元素相差多少。

Java:正则表达式模式匹配器是否有大小限制? - java

我的模式类似于OR:“word1 | word2 | word3”我大约有800个字。可能有问题吗? 参考方案 您仅受记忆和理智的限制。 :)

Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题,并且很难理解线程池,线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池,那么我是否必须将相同的任务传递给池中的每个线程,或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务?无论哪种方式,Executor / ExecutorService如何将正确的任务分配给正确的线程? 参考方案 …

Java:我可以在Hashmaps中使用数组吗? - java

我可以在Hashmaps中使用数组吗?如果是这样,则声明这种哈希图的确切语法是什么?谢谢 参考方案 数组也是对象。甚至像int[]这样的原始数组。Map<String,String[]> map = new HashMap<String,String[]>();

JAVA:字节码和二进制有什么区别? - java

java字节代码(已编译的语言,也称为目标代码)与机器代码(当前计算机的本机代码)之间有什么区别?我读过一些书,他们将字节码称为二进制指令,但我不知道为什么。 参考方案 字节码是独立于平台的,在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的,如果在Windows x86中编译,则它将仅在Win…

java:继承 - java

有哪些替代继承的方法? java大神给出的解决方案 有效的Java:偏重于继承而不是继承。 (这实际上也来自“四人帮”)。他提出的理由是,如果扩展类未明确设计为继承,则继承会引起很多不正常的副作用。例如,对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是,持有对本来应该扩展的类的引用,然后委托给它。这是与Eric…