thxCode
diff --git a/‎conditioner.hpp
Lines changed: 10 additions & 10 deletions b/‎conditioner.hpp
Lines changed: 10 additions & 10 deletions
diff --git a/‎control.hpp
Lines changed: 2 additions & 2 deletions b/‎control.hpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎denoiser.hpp
Lines changed: 1 addition & 1 deletion b/‎denoiser.hpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎diffusion_model.hpp
Lines changed: 1 addition & 1 deletion b/‎diffusion_model.hpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/convert/main.cpp
Lines changed: 12 additions & 6 deletions b/‎examples/convert/main.cpp
Lines changed: 12 additions & 6 deletions
@@ -63,15 +63,15 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
         : version(version), tokenizer(version == VERSION_SD2 ? 0 : 49407), embd_dir(embd_dir), wtype(wtype) {
         if (clip_skip <= 0) {
             clip_skip = 1;
-            if (version == VERSION_SD2 || version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+            if (version == VERSION_SD2 || version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
                 clip_skip = 2;
             }
         }
         if (version == VERSION_SD1) {
             text_model = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPENAI_CLIP_VIT_L_14, clip_skip);
         } else if (version == VERSION_SD2) {
             text_model = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPEN_CLIP_VIT_H_14, clip_skip);
-        } else if (version == VERSION_SDXL_BASE) {
+        } else if (version == VERSION_SDXL) {
             text_model  = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPENAI_CLIP_VIT_L_14, clip_skip, false);
             text_model2 = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPEN_CLIP_VIT_BIGG_14, clip_skip, false);
         } else if (version == VERSION_SDXL_REFINER) {
@@ -83,7 +83,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
         if (version != VERSION_SDXL_REFINER) {
             text_model->set_clip_skip(clip_skip);
         }
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
             text_model2->set_clip_skip(clip_skip);
         }
     }
@@ -92,7 +92,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
         if (version != VERSION_SDXL_REFINER) {
             text_model->get_param_tensors(tensors, "cond_stage_model.transformer.text_model");
         }
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
             text_model2->get_param_tensors(tensors, "cond_stage_model.1.transformer.text_model");
         }
     }
@@ -101,7 +101,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
         if (version != VERSION_SDXL_REFINER) {
             text_model->alloc_params_buffer();
         }
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
             text_model2->alloc_params_buffer();
         }
     }
@@ -110,7 +110,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
         if (version != VERSION_SDXL_REFINER) {
             text_model->free_params_buffer();
         }
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
             text_model2->free_params_buffer();
         }
     }
@@ -120,7 +120,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
         if (version != VERSION_SDXL_REFINER) {
             buffer_size = text_model->get_params_buffer_size();
         }
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
             buffer_size += text_model2->get_params_buffer_size();
         }
         return buffer_size;
@@ -411,7 +411,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
             auto input_ids                 = vector_to_ggml_tensor_i32(work_ctx, chunk_tokens);
             struct ggml_tensor* input_ids2 = NULL;
             size_t max_token_idx           = 0;
-            if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+            if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
                 auto it = std::find(chunk_tokens.begin(), chunk_tokens.end(), tokenizer.EOS_TOKEN_ID);
                 if (it != chunk_tokens.end()) {
                     std::fill(std::next(it), chunk_tokens.end(), 0);
@@ -438,7 +438,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
                                         &chunk_hidden_states1,
                                         work_ctx);
                 }
-                if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+                if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
                     text_model2->compute(n_threads,
                                          input_ids2,
                                          0,
@@ -497,7 +497,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {
                                         ggml_nelements(hidden_states) / chunk_hidden_states->ne[0]);
 
         ggml_tensor* vec = NULL;
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER) {
             int out_dim = 256;
             vec         = ggml_new_tensor_1d(work_ctx, GGML_TYPE_F32, adm_in_channels);
             // [0:1280]
 
@@ -38,7 +38,7 @@ class ControlNetBlock : public GGMLBlock {
             context_dim       = 1024;
             num_head_channels = 64;
             num_heads         = -1;
-        } else if (version == VERSION_SDXL_BASE) {
+        } else if (version == VERSION_SDXL) {
             context_dim           = 2048;
             attention_resolutions = {4, 2};
             channel_mult          = {1, 2, 4};
@@ -68,7 +68,7 @@ class ControlNetBlock : public GGMLBlock {
         // time_embed_1 is nn.SiLU()
         blocks["time_embed.2"] = std::shared_ptr<GGMLBlock>(new Linear(time_embed_dim, time_embed_dim));
 
-        if (version == VERSION_SDXL_BASE || version == VERSION_SDXL_REFINER || version == VERSION_SVD) {
+        if (version == VERSION_SDXL || version == VERSION_SDXL_REFINER || version == VERSION_SVD) {
             blocks["label_emb.0.0"] = std::shared_ptr<GGMLBlock>(new Linear(adm_in_channels, time_embed_dim));
             // label_emb_1 is nn.SiLU()
             blocks["label_emb.0.2"] = std::shared_ptr<GGMLBlock>(new Linear(time_embed_dim, time_embed_dim));
 
@@ -175,7 +175,7 @@ struct AYSSchedule : SigmaSchedule {
                 LOG_INFO("AYS using SD1.5 noise levels");
                 inputs = noise_levels[0];
                 break;
-            case VERSION_SDXL_BASE:
+            case VERSION_SDXL:
             case VERSION_SDXL_REFINER:
                 LOG_INFO("AYS using SDXL noise levels");
                 inputs = noise_levels[1];
 
@@ -80,7 +80,7 @@ struct MMDiTModel : public DiffusionModel {
 
     MMDiTModel(ggml_backend_t backend,
                ggml_type wtype,
-               SDVersion version = VERSION_SD3_2B)
+               SDVersion version = VERSION_SD3_MEDIUM)
         : mmdit(backend, wtype, version) {
     }
 
 
@@ -489,9 +489,14 @@ int main(int argc, char** argv) {
         auto transformer_config = load_json(transformer_config_path);
         auto num_layers         = transformer_config.at("num_layers").get<int>();
         if (num_layers == 38) {
-            ver = VERSION_SD3_5_8B;
+            ver = VERSION_SD3_5_LARGE;
         } else {
-            ver = VERSION_SD3_2B;
+            auto pos_embed_max_size = transformer_config.at("pos_embed_max_size").get<int>();
+            if (pos_embed_max_size == 384) {
+                ver = VERSION_SD3_5_LARGE;
+            } else {
+                ver = VERSION_SD3_MEDIUM;
+            }
         }
     } else if (class_name == "FluxPipeline") {
         auto text_encoder_config_path = path_join(params.model_path, "text_encoder/config.json");
@@ -507,7 +512,7 @@ int main(int argc, char** argv) {
             ver = VERSION_FLUX_SCHNELL;
         }
     } else if (class_name == "StableDiffusionXLPipeline" || class_name == "StableDiffusionXLImg2ImgPipeline") {
-        ver = VERSION_SDXL_BASE;
+        ver = VERSION_SDXL;
     } else if (class_name == "StableDiffusionPipeline") {
         auto text_encoder_config_path = path_join(params.model_path, "text_encoder/config.json");
         if (!file_exists(text_encoder_config_path)) {
@@ -529,13 +534,14 @@ int main(int argc, char** argv) {
     }
 
     switch (ver) {
-        case VERSION_SD3_5_8B:
-        case VERSION_SD3_2B:
+        case VERSION_SD3_5_LARGE:
+        case VERSION_SD3_5_MEDIUM:
+        case VERSION_SD3_MEDIUM:
             return convert_sd3(params, ver);
         case VERSION_FLUX_DEV:
         case VERSION_FLUX_SCHNELL:
             return convert_flux(params, ver);
-        case VERSION_SDXL_BASE:
+        case VERSION_SDXL:
         case VERSION_SDXL_REFINER:
             return convert_sdxl(params, ver);
         case VERSION_SD2:
Original file line number	Diff line number	Diff line change
`@@ -63,15 +63,15 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`63`	`63`	`: version(version), tokenizer(version == VERSION_SD2 ? 0 : 49407), embd_dir(embd_dir), wtype(wtype) {`
`64`	`64`	`if (clip_skip <= 0) {`
`65`	`65`	`clip_skip = 1;`
`66`		`- if (version == VERSION_SD2 \|\| version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`66`	`+ if (version == VERSION_SD2 \|\| version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`67`	`67`	`clip_skip = 2;`
`68`	`68`	`}`
`69`	`69`	`}`
`70`	`70`	`if (version == VERSION_SD1) {`
`71`	`71`	`text_model = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPENAI_CLIP_VIT_L_14, clip_skip);`
`72`	`72`	`} else if (version == VERSION_SD2) {`
`73`	`73`	`text_model = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPEN_CLIP_VIT_H_14, clip_skip);`
`74`		`- } else if (version == VERSION_SDXL_BASE) {`
	`74`	`+ } else if (version == VERSION_SDXL) {`
`75`	`75`	`text_model = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPENAI_CLIP_VIT_L_14, clip_skip, false);`
`76`	`76`	`text_model2 = std::make_shared<CLIPTextModelRunner>(backend, wtype, OPEN_CLIP_VIT_BIGG_14, clip_skip, false);`
`77`	`77`	`} else if (version == VERSION_SDXL_REFINER) {`
`@@ -83,7 +83,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`83`	`83`	`if (version != VERSION_SDXL_REFINER) {`
`84`	`84`	`text_model->set_clip_skip(clip_skip);`
`85`	`85`	`}`
`86`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`86`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`87`	`87`	`text_model2->set_clip_skip(clip_skip);`
`88`	`88`	`}`
`89`	`89`	`}`
`@@ -92,7 +92,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`92`	`92`	`if (version != VERSION_SDXL_REFINER) {`
`93`	`93`	`text_model->get_param_tensors(tensors, "cond_stage_model.transformer.text_model");`
`94`	`94`	`}`
`95`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`95`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`96`	`96`	`text_model2->get_param_tensors(tensors, "cond_stage_model.1.transformer.text_model");`
`97`	`97`	`}`
`98`	`98`	`}`
`@@ -101,7 +101,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`101`	`101`	`if (version != VERSION_SDXL_REFINER) {`
`102`	`102`	`text_model->alloc_params_buffer();`
`103`	`103`	`}`
`104`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`104`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`105`	`105`	`text_model2->alloc_params_buffer();`
`106`	`106`	`}`
`107`	`107`	`}`
`@@ -110,7 +110,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`110`	`110`	`if (version != VERSION_SDXL_REFINER) {`
`111`	`111`	`text_model->free_params_buffer();`
`112`	`112`	`}`
`113`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`113`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`114`	`114`	`text_model2->free_params_buffer();`
`115`	`115`	`}`
`116`	`116`	`}`
`@@ -120,7 +120,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`120`	`120`	`if (version != VERSION_SDXL_REFINER) {`
`121`	`121`	`buffer_size = text_model->get_params_buffer_size();`
`122`	`122`	`}`
`123`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`123`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`124`	`124`	`buffer_size += text_model2->get_params_buffer_size();`
`125`	`125`	`}`
`126`	`126`	`return buffer_size;`
`@@ -411,7 +411,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`411`	`411`	`auto input_ids = vector_to_ggml_tensor_i32(work_ctx, chunk_tokens);`
`412`	`412`	`struct ggml_tensor* input_ids2 = NULL;`
`413`	`413`	`size_t max_token_idx = 0;`
`414`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`414`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`415`	`415`	`auto it = std::find(chunk_tokens.begin(), chunk_tokens.end(), tokenizer.EOS_TOKEN_ID);`
`416`	`416`	`if (it != chunk_tokens.end()) {`
`417`	`417`	`std::fill(std::next(it), chunk_tokens.end(), 0);`
`@@ -438,7 +438,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`438`	`438`	`&chunk_hidden_states1,`
`439`	`439`	`work_ctx);`
`440`	`440`	`}`
`441`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`441`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`442`	`442`	`text_model2->compute(n_threads,`
`443`	`443`	`input_ids2,`
`444`	`444`	`0,`
`@@ -497,7 +497,7 @@ struct FrozenCLIPEmbedderWithCustomWords : public Conditioner {`
`497`	`497`	`ggml_nelements(hidden_states) / chunk_hidden_states->ne[0]);`
`498`	`498`
`499`	`499`	`ggml_tensor* vec = NULL;`
`500`		`- if (version == VERSION_SDXL_BASE \|\| version == VERSION_SDXL_REFINER) {`
	`500`	`+ if (version == VERSION_SDXL \|\| version == VERSION_SDXL_REFINER) {`
`501`	`501`	`int out_dim = 256;`
`502`	`502`	`vec = ggml_new_tensor_1d(work_ctx, GGML_TYPE_F32, adm_in_channels);`
`503`	`503`	`// [0:1280]`
Original file line number	Diff line number	Diff line change
`@@ -80,7 +80,7 @@ struct MMDiTModel : public DiffusionModel {`
`80`	`80`
`81`	`81`	`MMDiTModel(ggml_backend_t backend,`
`82`	`82`	`ggml_type wtype,`
`83`		`- SDVersion version = VERSION_SD3_2B)`
	`83`	`+ SDVersion version = VERSION_SD3_MEDIUM)`
`84`	`84`	`: mmdit(backend, wtype, version) {`
`85`	`85`	`}`
`86`	`86`