Я разобрался, как надо собирать ATLAS. Вот предварительный benchmark. Fortran BLAS: > mm <- matrix(rnorm(10^6), ncol = 10^3) > system.time(crossprod(mm)) [1] 1.572 0.004 1.580 0.000 0.000 ATLAS w/ SSE2: > mm <- matrix(rnorm(10^6), ncol = 10^3) > system.time(crossprod(mm)) [1] 0.344 0.020 0.369 0.000 0.000