Spaces:

david-thrower
/

3B-Param-Basic-Chatbot

Build error

david-thrower commited on Aug 2, 2025

Commit

a16489c

verified ·

1 Parent(s): 2013b5a

Update app.py

Nested generation in inference mode.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -69,18 +69,18 @@ def chat_fn(history, enable_thinking, temperature, top_p, top_k, repetition_pena
         # xml_tools=TOOLS
     )
     inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
-    streamer = model.generate(
-        **inputs,
-        max_new_tokens=max_new_tokens,
-        do_sample=True,
-        temperature=temperature,
-        top_p=top_p,
-        top_k=top_k,
-        repetition_penalty=repetition_penalty,
-        pad_token_id=tokenizer.eos_token_id,
-        streamer=None          # we'll yield manually
-    )
     output_ids = streamer[0][len(inputs.input_ids[0]):]
     response = tokenizer.decode(output_ids, skip_special_tokens=True)
     if isinstance(response, str):

         # xml_tools=TOOLS
     )
     inputs = tokenizer(text, return_tensors="pt").to(DEVICE)
+    with torch.inference_mode():
+        streamer = model.generate(
+            **inputs,
+            max_new_tokens=max_new_tokens,
+            do_sample=True,
+            temperature=temperature,
+            top_p=top_p,
+            top_k=top_k,
+            repetition_penalty=repetition_penalty,
+            pad_token_id=tokenizer.eos_token_id,
+            streamer=None          # we'll yield manually
+        )
     output_ids = streamer[0][len(inputs.input_ids[0]):]
     response = tokenizer.decode(output_ids, skip_special_tokens=True)
     if isinstance(response, str):