矩阵原地转置
本帖最后由 aidn 于 2025-2-20 23:54 编辑由于adc4通道轮询采集时数据是4*256,fft时需要256*4需要矩阵转置,当然可以用256缓冲复制后给fft但内存紧张的mcu可能是有意义的。这在没有ai辅助的时候是我不敢想的,脑壳疼。交给ai后给了个gcd公式计算得到4条置换链长度256然后拿去验证…结果失败了。然后吧ds搞停摆了一直在跟我杠…
deepseek 主平台的服务太忙了,经常卡。 楼主可以试下别的IT厂商独立部署的满血deepseek,昨天我试了下天翼云部署的DS,还很流程,估计现在用户数不多。 如果是用二层嵌套循环来索引这个矩阵,那么把内外循环变量交换一下就好了。我就知道这个:lol protel99se 发表于 2025-2-21 08:31
deepseek 主平台的服务太忙了,经常卡。 楼主可以试下别的IT厂商独立部署的满血deepseek,昨天我试了下天 ...
我都是白嫖的,用纳米ai的ds,它有两个ds一个可以联网搜,会话限制比较长,比官方都长,不断尝试关键字才在最后时刻它自我否定了4个转置链,并提出新的方法,官方由于会话限制都是没有结果就被终结了导致就卡死在4个转置链上。新方法抛开了矩阵转置的数学方法用的是类似穷举法,把所有可能的链做判断,反正我也看不明白 量子隧道 发表于 2025-2-21 09:54
如果是用二层嵌套循环来索引这个矩阵,那么把内外循环变量交换一下就好了。我就知道这个
这个是经典转置(ai这么叫的)现在已经得出了优化过的代码 #include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define ROWS 256
#define COLS 4
#define TOTAL (ROWS * COLS)
// 根据矩阵的原位置、行数和列数,计算矩阵转置后的目标位置
int calculate_target(int pos) {
int row = pos >>2; // 原行号
int col = pos & 3; // 原列号
return (col<<8)+ row; // 转置后线性位置
}
/* 原地转置算法 */
void in_place_rearrange(int *array) {
// 使用你提供的数组
short valid_bases[] = {
1, 2, 3, 5, 6, 7, 9, 10, 11, 13, 14, 15, 17, 18, 19, 21, 22, 23, 25, 26, 27, 29, 30, 31, 33, 34, 35, 37, 38, 39, 41, 42, 43, 45, 46, 47, 49, 50, 51, 53, 54, 55, 57, 58, 59, 61, 62, 63, 69, 70, 71, 73, 74, 75, 77, 78, 79, 82, 83, 85, 86, 87, 89, 90, 91, 93, 94, 95, 98, 99, 101, 102, 103, 105, 106, 107, 109, 110, 111, 114, 115, 117, 118, 119, 121, 122, 123, 125, 126, 127, 137, 138, 139, 141, 142, 143, 147, 149, 150, 151, 153, 154, 155, 157, 158, 159, 163, 165, 166, 167, 169, 170, 171, 173, 174, 175, 179, 181, 182, 183, 185, 186, 187, 189, 190, 191, 205, 206, 207, 213, 214, 215, 217, 218, 219, 221, 222, 223, 229, 230, 231, 233, 234, 235, 237, 238, 239, 245, 246, 247, 249, 250, 251, 253, 254, 255, 342, 343, 346, 347, 350, 351, 358, 359, 362, 363, 366, 367, 374, 375, 378, 379, 382, 383, 410, 411, 414, 415, 423, 426, 427, 430, 431, 439, 442, 443, 446, 447, 478, 479, 490, 491, 494, 495, 506, 507, 510, 511, 683, 687, 699, 703, 751, 767
};
int cycle_count = sizeof(valid_bases) / sizeof(valid_bases);
//printf("cycle_count=%d,",cycle_count);
for (int i = 0; i < cycle_count; ++i) {
int base = valid_bases;
int current = base;
int carry = array;
// printf("\n");
do {
// printf("%d,",current);
int next = calculate_target(current);
int temp = array;
array = carry;
carry = temp;
current = next;
} while (current != base);
}
}
// 经典转置函数,使用临时数组进行矩阵转置
void classic_matrix_transpose(int *matrix) {
int temp;
for (int i = 0; i < ROWS; ++i) {
for (int j = 0; j < COLS; ++j) {
temp = matrix;
}
}
for (int i = 0; i < COLS; ++i) {
for (int j = 0; j < ROWS; ++j) {
matrix = temp;
}
}
}
// 初始化矩阵数据,按照特定格式生成数据
void initialize_matrix(int *mat) {
for (int i = 0; i < TOTAL; i++)
mat = (i / COLS) * 1000 + (i % COLS);
}
// 验证矩阵转置后的结果是否正确
int verify_matrix_transpose(int *mat) {
for (int j = 0; j < COLS; ++j) {// 转置后的列维度遍历
for (int i = 0; i < ROWS; ++i) {// 转置后的行维度遍历
int pos = j * ROWS + i; // 转置后线性地址
int expected = i * 1000 + j;// 修正后的预期值计算
if (mat != expected) {
printf("验证失败:位置%d (预期:%04d 实际:%04d)\n",
pos, expected, mat);
return 0;
}
}
}
return 1;
}
// 对传入的函数进行性能测试,返回函数执行时间(单位:微秒)
double benchmark(void (*func)(int*), int *mat) {
struct timespec start, end;
clock_gettime(CLOCK_MONOTONIC, &start);
func(mat);
clock_gettime(CLOCK_MONOTONIC, &end);
return (end.tv_sec - start.tv_sec) * 1e6 +
(end.tv_nsec - start.tv_nsec) * 1e-3;
}
int main() {
int mat1, mat2;
initialize_matrix(mat1);
for (int i = 0; i < TOTAL; ++i) {
mat2 = mat1;
}
double time1 = benchmark(classic_matrix_transpose, mat1);
double time2 = benchmark(in_place_rearrange, mat2);
printf("[经典矩阵转置] 耗时: %.2fμs | 正确性: %s\n",
time1, verify_matrix_transpose(mat1) ? "通过" : "失败");
printf("[原地重排] 耗时: %.2fμs | 正确性: %s\n",
time2, verify_matrix_transpose(mat2) ? "通过" : "失败");
return 0;
}
通过被注释的代码可以知道交换链有204条长度都是5一共1020个加上对称的4个数据不需要转置
页:
[1]