マイLab手帖

普段はサイエンス業界でSRE的な仕事をやっています。主に自宅環境でのハンズオンの備忘録。

2022-01-01から1年間の記事一覧

Slurm Installその後5-続き. slurmstepd: error

はじめに 前回エントリでは、Container Bundleを使ってsbatchでのコンテナ実行を試してみました。 その際に以下のエラーが発生していましたが、原因が特定できたので情報を残しておこうと思います。 エラーの状況は以下でした。 [john@master ~]$ sbatch --c…

Slurm Installその後5. Slurm with OCI Container Runtime (Rootless Docker)

はじめに 今回はSlurmでのコンテナ起動設定をやってみたいと思います。 コンテナといえば思い浮かぶのはDockerが一般的ですが、root権限でdockerdを常駐させる仕組みです。 root権限での操作は資源共有を行うHPCジョブスケジューラ環境にとっては深刻なセキ…

Slurm Installその後4. mpi4pyでOpenMPI並列処理

はじめに これまでの記事ではSlurmの アカウンティング設定 リソース制限(Limit)-> acount/user associationsやQoSでの制限適用 をやってみました。 今回ですが、折角ジョブスケジューラを扱うので並列処理のSlurmでの設定も少し勉強してみたいと思いまし…

Slurm Installその後3.リソース制限 QoS

はじめに 前回の続きで、Slurmのリソース制限の方法をやっていこうと思います。 目次 はじめに 目次 前回 今回 QoSとは? SlurmにおけるQoS QoSの設定について リソース制限指定の優先 QoS設定をやってみる 前回の制限内容 今回の制限内容 イメージ QoS設定…

Slurm Installその後2.リソース制限 associations

はじめに 今回は、前回記事で作成したassociations設定に対してSlurmのリソースを掛ける設定をやってみます。 はじめに 前回の流れ associationsの状態 リソース制限 設定無しの状態 動かしてみる(1) userレベルassociationsのリソース制限 制限項目 制限の…

Slurm Installその後1.アカウンティング

はじめに 「Slurmをいい感じに使えるようにして♪」 ※Slurm ・・・ HPC向けOSSジョブスケジューラ 少し前から↑な感じのことを言われてコツコツやっています。とりあえず構築してsbatchは動かせるけど、ジョブスケジューラ運用はやった事ないし「この後どうし…