RGA图像处理对比Opencv慢10倍，是什么问题？

[复制链接] · 发表于 2024-3-28 18:00:27

硬件：RK3588
软件：RGA：/usr/lib/aarch64-linux-gnu/librga.so.2.1.0

对比测试crop + resize 操作，RGA平均用时2ms左右，OpenCV平均用时0.2ms，部分代码如下：
TransformData

typedef struct _TransformData

{

    // 图像基本信息

    int width, height, format;

    int size;



    // 对齐后的宽度

    int stride;

    int size_with_stride;



    // 图像原始数据

    char *data;



    // DMA

    int dma_fd;



    // im2d

    im_rect rect;



    // RGA

    rga_buffer_t buffer;

    rga_buffer_handle_t handle;



} TransformData;
复制代码

TransformData 实例化

std::unique_ptr<TransformData> Transformer::wrapTransformData(cv::Mat cv_img, const im_rect &rect)

{

    m_timer.record(__func__);



    std::unique_ptr<TransformData> td(new TransformData());



    td->width = cv_img.cols;

    td->height = cv_img.rows;

    td->format = m_format;

    td->size = td->width * td->height * get_bpp_from_format(td->format);



    // 对齐后的宽度

    td->stride = td->width;

    td->size_with_stride = td->size;

    if (td->width % m_align_bit)

    {

        td->stride = (td->width / m_align_bit + 1) * m_align_bit;

        td->size_with_stride = td->size / td->width * td->stride;

    }



    // 使用dma_heap分配内存调用RGA

    td->dma_fd = -1;

    dma_buf_alloc(DMA_HEAP_PATH, td->size_with_stride, &(td->dma_fd), reinterpret_cast<void **>(&(td->data)));

    assert(td->dma_fd != -1);



    // 数据拷贝

    if (td->width == td->stride)

    {

        std::memcpy(reinterpret_cast<uchar *>(td->data), cv_img.data, td->size);

    }

    else

    {

        size_t c = get_bpp_from_format(td->format);

        size_t src_stride = td->width * c;

        size_t dst_stride = td->stride * c;



        uchar *src_ptr = cv_img.data;

        uchar *dst_ptr = reinterpret_cast<uchar *>(td->data);



        for (int i = 0; i < td->height; i++)

        {

            std::memcpy(dst_ptr, src_ptr, src_stride);

            src_ptr += src_stride;

            dst_ptr += dst_stride;

        }

    }



    td->handle = importbuffer_fd(td->dma_fd, td->size_with_stride);

    td->buffer = wrapbuffer_handle(td->handle, td->stride, td->height, td->format);



    td->rect = rect;



    m_timer.stop(__func__);

    return td;

}



std::unique_ptr<TransformData> Transformer::wrapTransformData(const im_rect &rect)

{

    m_timer.record(__func__);



    std::unique_ptr<TransformData> td(new TransformData());



    td->width = rect.width;

    td->height = rect.height;

    td->format = m_format;

    td->size = td->width * td->height * get_bpp_from_format(td->format);



    // 对齐后的宽度

    td->stride = td->width;

    td->size_with_stride = td->size;

    if (td->width % m_align_bit)

    {

        td->stride = (td->width / m_align_bit + 1) * m_align_bit;

        td->size_with_stride = td->size / td->width * td->stride;

    }



    // 使用dma_heap分配内存调用RGA

    td->dma_fd = -1;

    dma_buf_alloc(DMA_HEAP_PATH, td->size_with_stride, &(td->dma_fd), reinterpret_cast<void **>(&(td->data)));

    assert(td->dma_fd != -1);



    td->handle = importbuffer_fd(td->dma_fd, td->size_with_stride);

    td->buffer = wrapbuffer_handle(td->handle, td->stride, td->height, td->format);



    td->rect = {};



    m_timer.stop(__func__);

    return td;

}



void Transformer::resetTransformData(std::unique_ptr<TransformData> &td)

{

    if (td)

    {

        m_timer.record(__func__);



        // invalid CPU cache

        dma_sync_device_to_cpu(td->dma_fd);

        std::cout << "td->dma_fd: " << td->dma_fd << std::endl;

        dma_buf_free(td->size_with_stride, &(td->dma_fd), reinterpret_cast<void **>(&(td->data)));



        // release buffer

        releasebuffer_handle(td->handle);



        // reset

        td.reset(nullptr);



        m_timer.stop(__func__);

    }

}
复制代码

crop + resize 实际就是把原始图像中某一个区域进行resize操作

void *Transformer::process(cv::Mat &cv_src, const im_rect &crop_rect, const im_rect &dst_info)

{

    m_timer.record(__func__);



    // init src TransformData

    resetTransformData(m_src);

    m_src = wrapTransformData(cv_src, crop_rect);



    // init dst TransformData

    resetTransformData(m_dst);

    m_dst = wrapTransformData(dst_info);



    // rga process

    IM_STATUS ret = imcheck(m_src->buffer, m_dst->buffer, m_src->rect, m_dst->rect);

    assert(ret == IM_STATUS_NOERROR);



    ret = improcess(m_src->buffer, m_dst->buffer, {}, m_src->rect, m_dst->rect, {}, IM_SYNC);

    assert(ret == IM_STATUS_SUCCESS);



    m_timer.stop(__func__);

    return reinterpret_cast<void *>(m_dst->data);

}
复制代码

请问是代码中的哪些地方影响了处理速度？有什么不合理的地方？

只看该作者 · 发表于 2024-3-29 09:15:08

硬件算法仅对Non-Cache的物理连续Buffer友好。
这种CPU从MMU申请的非连续还带Cache的buffer，同步cache以及频繁的mmu访问都是速度低下的原因。

只看该作者 · 发表于 2024-3-29 10:34:55

你好，针对你的建议，我的理解是：
1. 带Cache的buffer，意思是需要将DMA_HEAP_PATH修改为DMA_HEAP_UNCACHE_PATH ？
2. 同步cache，意思是取消dma_sync_device_to_cpu ？
3. 频繁的mmu访问，意思是dma_buf_alloc在外部调用一次，在后续批处理过程中重复使用同一个dma_fd ?
这样理解对吗？

问题还有：
1. 要求输出结果为127，那么RK_FORMAT_RGB_888 RGA3要求16对齐，那么我需要将wstride设置为128，这样循环拷贝依然存在，耗时存在，但是在RGA处理中对齐后格式可以直接作为rknn zero-copy的输入，所以这一步有没有更好的处理方案；
2. 如何保证buffer是连续的？在sample中提到了rga_allocator_dma32_demo.cpp不保证物理连续，其他方式并没有提及？
2.

只看该作者 · 发表于 2024-3-29 16:34:28

萌虎龟来发表于 2024-3-29 10:34
你好，针对你的建议，我的理解是：
1. 带Cache的buffer，意思是需要将DMA_HEAP_PATH修改为DMA_HEAP_UNCACHE ...

1. 改用CMA
2. 不用cache就不存在同步
3. CMA物理连续，使用物理地址不需要访问mmu
4. 对其可以用RGA Crop
5. 代码里存在memcpy就是有问题的写法，要从架构设计上进出buf就得是dma/cma ，如果你想cpu读一个图再用rga，那是无意义的。