File size: 31,168 Bytes

a8639ac

from collections import Counter
import torchvision.datasets as dset
from torch.utils.data import Dataset
import torch
from torch.utils.data import DataLoader
import glob
import os
from torch.utils.data import Dataset, DataLoader, random_split
from shutil import copyfile
import subprocess
import youtokentome as yttm
import re
import time
from tqdm import trange, tqdm
import numpy as np
import matplotlib.pyplot as plt
import inspect

# Device for dataloading and dataloading only. Dataloading on MPS was slower

DEVICE = "cpu"  # "mps" if torch.backends.mps.is_available() else "cpu"


class BPEModelManager:
    def __init__(self, root_dir, vocab_size=5000):
        self.root_dir = root_dir
        self.vocab_size = vocab_size
        self.model_path = os.path.join(root_dir, "bpe_model.model")

        try:
            self.bpe = yttm.BPE(model=self.model_path)
            if self.bpe.vocab_size() != vocab_size:
                print(
                    f"Vocab size mismatch: Expected {vocab_size}, got {self.bpe.vocab_size()}. Retraining model."
                )
                self._backup_model()
                raise ValueError
        except ValueError:
            self._train_bpe_model()
            self.bpe = yttm.BPE(model=self.model_path)

    def _backup_model(self):
        backup_path = os.path.join(self.root_dir, "bpe_model.model.old")
        copyfile(self.model_path, backup_path)

    def _train_bpe_model(self):
        data_path = os.path.join(self.root_dir, "data/corpus.txt")
        processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")

        with open(data_path, "r", errors="ignore") as reader:
            raw_text = reader.read()

        processed_text = self.preprocess_text(raw_text)

        with open(processed_path, "w") as writer:
            writer.write(processed_text)

        yttm.BPE.train(
            data=processed_path,
            vocab_size=self.vocab_size,
            model=self.model_path,
            coverage=0.9999,
        )

    def preprocess_text(self, text):
        return text.lower()

    def encode(self, text: str):
        return self.bpe.encode([text], output_type=yttm.OutputType.ID)

    def decode(self, ids):
        return self.bpe.decode(ids.tolist())[0]

    @staticmethod
    def attention_mask(encoded_sequence, mask_token_ids=[0, 1, 2, 3]):
        mask_token_tensor = torch.tensor(mask_token_ids, dtype=torch.int).to(
            encoded_sequence.device
        )
        # print(mask_token_tensor)
        # print(encoded_sequence)
        return (encoded_sequence.unsqueeze(1) != mask_token_tensor).all(dim=1).int()


class CodeBPEModelManager(BPEModelManager):
    mapping_dict = {
        "    ": " <INDENT> ",
        "\n": " <NEWLINE> ",
    }

    def __init__(self, root_dir, vocab_size=5000):
        super().__init__(root_dir, vocab_size)

    def preprocess_text(self, text):
        print("Formatting....")
        processed_text = self.format_code(text)

        for key, value in CodeBPEModelManager.mapping_dict.items():
            processed_text = processed_text.replace(key, value)

        return processed_text

    def encode(self, text: str):
        processed_text = text
        for key, value in CodeBPEModelManager.mapping_dict.items():
            processed_text = processed_text.replace(key, value)

        return self.bpe.encode([processed_text], output_type=yttm.OutputType.ID)[0]

    def decode(self, ids):
        # print(ids)
        # print("ids^^")
        l = ids
        if isinstance(l, torch.Tensor):
            l = ids.tolist()
        if isinstance(l, int):
            l = [l]

        result = self.bpe.decode(l)[0]
        # print(result)
        for key, value in CodeBPEModelManager.mapping_dict.items():
            result = result.replace(value.strip(), key)  # value, key

        return result

    def raw_decode(self, id: int):
        return self.bpe.decode([id])[0]

    def _train_bpe_model(self):
        print("Training (1)....")
        data_path = os.path.join(self.root_dir, "data/corpus.txt")
        processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")

        if input("Reformat? Will take time [y/N]") == "y":

            with open(data_path, "r", errors="ignore", encoding="utf-8") as reader:
                raw_text = reader.read()

            processed_text = self.preprocess_text(raw_text)

            with open(processed_path, "w", encoding="utf-8") as writer:
                writer.write(processed_text)

            print("removing temp file...")
            temp_file = os.path.join(self.root_dir, "temp_code.py")  # dont ask
            os.remove(temp_file)

        print("Training....")
        yttm.BPE.train(
            data=processed_path,
            vocab_size=self.vocab_size,
            model=self.model_path,
            coverage=1,
            # coverage=0.995, # TODO: revert if you want
        )

    def format_code(self, code):
        try:
            temp_file = os.path.join(self.root_dir, "temp_code.py")
            with open(temp_file, "w") as file:
                file.write(
                    code.replace("\t", "    ")
                )  # Hacky replacement, black freaks out otherwise

            subprocess.run(["black", temp_file, "--quiet"], check=True)
            subprocess.run(
                ["autopep8", "--in-place", "--ignore=E402", temp_file], check=True
            )

            with open(temp_file, "r") as file:
                formatted_code = file.read()

            return formatted_code
        except Exception as e:
            print(f"Error during code formatting: {e}.")
            return code


class CodeCustomTokenizerManager(BPEModelManager):
    reserved_keywords = [
        "false",
        "await",
        "else",
        "import",
        "pass",
        "none",
        "break",
        "except",
        "in",
        "raise",
        "true",
        "class",
        "finally",
        "is",
        "return",
        "and",
        "continue",
        "for",
        "lambda",
        "try",
        "as",
        "def",
        "from",
        "nonlocal",
        "while",
        "assert",
        "del",
        "global",
        "not",
        "with",
        "async",
        "elif",
        "if",
        "or",
        "yield",
    ]
    symbols = [
        "(",
        ")",
        "[",
        "]",
        "{",
        "}",
        ".",
        ",",
        ":",
        ";",
        "+",
        "-",
        "*",
        "/",
        "%",
        "=",
        "<",
        ">",
        "&",
        "|",
        "^",
        "~",
        "!",
        "==",
        "!=",
        "<=",
        ">=",
        "**",
        "//",
        "@",
        "#",
        "\\",
        "'",
        '"',
        "`",
        "0",
        "1",
        "2",
        "3",
        "4",
        "5",
        "6",
        "7",
        "8",
        "9",
        "0x",
        "0d",
        "0o",
    ]

    def __init__(
        self,
        root_dir,
        vocab_size=5000,
        cutoff_thresh=0.1,
        use_vocab_size_instead=False,
        use_whitespace=True,  # haha
    ):  # keep 90% with thresh 0.1
        self.root_dir = root_dir

        self.token_to_id = {"<PAD>": 0}
        self.id_to_token = None

        self._token_freqs = {}
        self.total_num_tokens = 0
        print("This is CodeCustomTokenizerManager, vocab size will be disregarded.")

        print(f"Cutoff threshold: {cutoff_thresh}")
        self.cutoff_thresh = cutoff_thresh

        self.use_whitespace = use_whitespace

        if not use_whitespace:
            print("Not using whitespace! Important I guess")

        if use_vocab_size_instead:
            print("Nevermind! Using vocab size instead, no cutoff thresh")

        self.use_vocab_size_instead = use_vocab_size_instead

        self.vocab_size = vocab_size

        vocab_path = os.path.join(self.root_dir, "custom_tokens_vocab.txt")
        try:
            self.load_vocab(vocab_path)
        except FileNotFoundError:
            print("Making vocab!")
            self.make_vocab()
            self.save_vocab(vocab_path)

        print(f"Vocab size: {len(self.token_to_id)}")

    def make_vocab(self):
        data_path = os.path.join(self.root_dir, "data/corpus.txt")
        processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")

        with open(data_path, "r", errors="ignore") as reader:
            raw_text = reader.read()

        processed_text = self.preprocess_text(raw_text)

        with open(processed_path, "w") as writer:
            writer.write(" ".join(processed_text))

        for token in processed_text:
            if token not in self.token_to_id:
                if len(self.token_to_id) == 0:
                    self.token_to_id = {"<PAD>": 0}  # TODO: bad practice or something

                self.token_to_id[token] = len(self.token_to_id)

        print(f"Number of tokens: {len(self.token_to_id)}")
    
    def make_token_freqs(self):

        processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")
        with open(processed_path, "r", errors="ignore") as reader:
            raw_text = reader.read()
        tokens = raw_text.split(" ")

        token_freqs = {"<PAD>": 0}


        for token in tqdm(tokens, leave=False):
            if token not in token_freqs:
                token_freqs[token] = 1
            else:
                token_freqs[token] += 1
        
        self._token_freqs = token_freqs
        self.total_num_tokens = len(tokens)


    def preprocess_text(self, code):
        print("Preprocessing text...", code[:20])

        # print(code[:100])

        # comments
        code = code.replace("# <FILESEP>", "<FILESEP>")
        code = re.sub(r"#.*", "", code)
        code = re.sub(r'"""(.*?)"""', "", code, flags=re.DOTALL)  # funny usage of re
        code = re.sub(r"'''(.*?)'''", "", code, flags=re.DOTALL)

        code = re.sub(r"    ", "	", code)

        print("Filtered comments")

        # print(code[:100])

        # filter non-ascii
        # https://regexr.com/8bmfe
        code = re.sub(r"[^ -~\s]+", "", code)
        # print(code[:100])
        print("Filtered non-ascii")

        #  # Handle hex/binary/octal sequences
        # def split_number_sequence(match):
        #     prefix, digits = match.group(1), match.group(2)
        #     return f"{prefix} " + " ".join(digits)

        # code = re.sub(r'(0x)([0-9a-f]+)', split_number_sequence, code)
        # code = re.sub(r'(0b)([01]+)', split_number_sequence, code)
        # code = re.sub(r'(0o)([0-7]+)', split_number_sequence, code)

        # print("Coped with hex")

        # each reserved word/symbol is a token. We split by space at the end, so this works.
        for word in self.reserved_keywords:
            code = re.sub(rf"\b{word}\b", f" {word} ", code)

        print("Reserved words")
        for symbol in self.symbols:
            code = code.replace(symbol, f" {symbol} ")

        print("Symbols")

        # print(code[:100])

        # Split identifiers by spaces, underscores, hyphens, or capitalization
        def split_token(token):
            if token.startswith("<") and token.endswith(
                ">"
            ):  # preserve ✨special✨ tokens
                return [token.lower()]
            result = re.sub(r"([a-z])([A-Z])", r"\1 \2", token)
            result = re.sub(r"([_-])", r" \1 ", result)
            result = re.sub(r"([^a-zA-Z])", r" \1 ", result)
            return [part.lower() for part in result.split() if part.strip()]

        code = code.replace("	", " <TAB> ").replace("\n", " <NEWLINE> ")
        if not self.use_whitespace:
            code = code.replace("<TAB>", "").replace("<NEWLINE>", "")
        print("Tabs + newlines")

        tokens = []
        for token in tqdm(code.split(" "), leave=False):
            if token.strip():
                tokens.extend(split_token(token))

        tokens = [tok.lower() for tok in tokens if tok.strip()]

        print("Split tokens")
        token_freqs = {"<PAD>": 0}
        for token in tqdm(tokens, leave=False):
            if token not in token_freqs:
                token_freqs[token] = 1
            else:
                token_freqs[token] += 1
        print("Counted freqs")

        # what statistics do we want to calculate?
        # Number of tokens that appear only once, and percentage.
        # Mean number of times any given token appears.
        # standard things: mean, std, q1, q3, median, min, max
        # Print out topk most frequent and their freqs

        total_num_tokens = len(tokens)

        counter = Counter(list(token_freqs.values()))
        num_ones = counter[1]
        print(
            f"Number of tokens that appear only once: {num_ones}. Percentage: {num_ones / total_num_tokens}"
        )

        print(f"Mean token count: {np.mean(list(token_freqs.values()))}")
        print(f"Median token count: {np.median(list(token_freqs.values()))}")

        print(
            f"Standard deviation of token count: {np.std(list(token_freqs.values()))}"
        )

        print(f"Min token count: {np.min(list(token_freqs.values()))}")
        print(f"Max token count: {np.max(list(token_freqs.values()))}")

        print(f"Top 30 most frequent tokens:")
        sorted_tokens = sorted(token_freqs.items(), key=lambda x: x[1], reverse=True)
        for token, freq in sorted_tokens[:30]:
            print(f"{token}: {freq}")

        print(f"Bottom 30 most frequent tokens:")
        for token, freq in sorted_tokens[-30:]:
            print(f"{token}: {freq}")

        self._token_freqs = token_freqs
        self.total_num_tokens = total_num_tokens

        # plt.figure(figsize=(15,6))
        # plt.bar(np.arange(len(sorted_tokens)), [freq for token, freq in sorted_tokens])
        # plt.xlabel("Token")
        # plt.ylabel("Frequency")

        # plt.title("Token frequency distribution")

        # plt.show()

        # breakpoint()

        # use cutoff thresh to replace tokens with UNK
        cutoff_thresh = self.cutoff_thresh
        if self.use_vocab_size_instead:
            print("Using vocab size instead")
            print("deprecated")
            print("cope")
            exit()
            sorted_tokens = sorted(
                token_freqs.items(), key=lambda x: x[1], reverse=True
            )
            allowed_tokens = set(
                token for token, _ in sorted_tokens[: self.vocab_size - 1]
            )  # -1 for PAD
            for i in range(len(tokens)):
                if tokens[i] not in allowed_tokens and tokens[i] != "<PAD>":
                    print(f"Replacing token with UNK: {tokens[i]}")
                    tokens[i] = "<UNK>"

        else:
            cutoff_amt = (
                10  # np.percentile(list(token_freqs.values()), (1-cutoff_thresh) * 100)
            )
            print(f"Cuttoff amount: {cutoff_amt}")  # using threshold {cutoff_thresh}")

            # llm-optimized
            low_freq_tokens = [
                token
                for token, freq in token_freqs.items()
                if freq < cutoff_amt and token != "<PAD>"
            ]
            low_freq_tokens_set = set(low_freq_tokens)
            tokens = [
                "<UNK>" if token in low_freq_tokens_set else token
                for token in tqdm(tokens)
            ]

        print(tokens[500:700])

        print("500-700")

        return [tok for tok in tokens if tok.strip()]

    def encode(self, code):
        tokens = code.split(" ")
        ids = []

        for token in tokens:
            # New token
            if token not in self.token_to_id:
                self.token_to_id[token] = len(self.token_to_id)
            ids.append(self.token_to_id[token])

        return ids

    def decode(self, ids):
        result = ""
        for id in ids.tolist():
            for token, id_iterator in self.token_to_id.items():
                if id_iterator == id:
                    result += token
                    result += " "

        return result

    def raw_decode(self, id: int):
        for token, id_iterator in self.token_to_id.items():
            if id_iterator == id:
                return token

    def format_code(self, code):
        try:
            temp_file = os.path.join(self.root_dir, "temp_code.py")
            with open(temp_file, "w") as file:
                file.write(
                    code.replace("\t", "    ")
                )  # Hacky replacement, black freaks out otherwise

            subprocess.run(["black", temp_file, "--quiet"], check=True)
            subprocess.run(
                ["autopep8", "--in-place", "--ignore=E402", temp_file], check=True
            )

            with open(temp_file, "r") as file:
                formatted_code = file.read()

            return formatted_code
        except Exception as e:
            print(f"Error during code formatting: {e}.")
            return code

    def save_vocab(self, file_path):
        with open(file_path, "w") as file:
            for token, id in self.token_to_id.items():
                file.write(f"{token}\t{id}\n")

    def load_vocab(self, file_path):
        self.token_to_id = {}
        with open(file_path, "r") as file:
            for line in file.read().split("\n"):
                try:
                    token, id = line.strip().split("\t")
                    self.token_to_id[token] = int(id)
                except ValueError:
                    # print(line)
                    # print("^^ is error")
                    pass  # Should be fine, ends up being blank lines

    @staticmethod
    def attention_mask(encoded_sequence, mask_token_ids=[0]):
        mask_token_tensor = torch.tensor(mask_token_ids, dtype=torch.int)
        # print(mask_token_tensor)
        # print(encoded_sequence)
        return (encoded_sequence.unsqueeze(1) != mask_token_tensor).all(dim=1).int()

    def get_rarity_score(self, sequence):
        scores = np.zeros_like(sequence)
        for idx, token in enumerate(sequence):
            # get token count in entire corpus
            # get TOTAL token count in entire corpus
            # divide
            # recriprocal
            # rarity score for individual token in THIS sequence
            # average? max? **median**?
            if self._token_freqs == {}:
                self.make_token_freqs()
            if not self.id_to_token:
                self.id_to_token = {v: k for k, v in self.token_to_id.items()}
            token_count = self._token_freqs.get(self.id_to_token[token.item()], 0)
            rarity_score = self.total_num_tokens / token_count if token_count > 0 else 0
            scores[idx] = rarity_score
        
        return np.float32(np.median(scores))

    def get_entropy_score(self, sequence):
        if len(sequence) == 0:
            return 0.0

        unique, counts = np.unique(sequence, return_counts=True)

        probs = counts / counts.sum()
        entropy = -np.sum(probs * np.log2(probs))

        if len(unique) > 1:
            entropy /= np.log2(len(unique))

        return np.float32(entropy)


class DummySequentialDataManager:
    def __init__(self, root_dir, vocab_size=5000):
        print("init")
        self.root_dir = root_dir
        self.vocab_size = vocab_size
        with open(os.path.join(root_dir, "data/corpus_processed.txt"), "w+") as f:
            f.write("dummy")

    def encode(self, text: str):
        return [list(range(50))]

    def decode(self, ids):
        l = ids
        if isinstance(l, torch.Tensor):
            l = ids.tolist()
        if isinstance(l, int):
            l = [l]

        return " ".join([str(id) for id in l])

    @staticmethod
    def attention_mask(encoded_sequence, mask_token_ids=[]):
        mask_token_tensor = torch.tensor(mask_token_ids, dtype=torch.int).to(
            encoded_sequence.device
        )
        # print(mask_token_tensor)
        # print(encoded_sequence)
        return (encoded_sequence.unsqueeze(1) != mask_token_tensor).all(dim=1).int()


class TextCorpusDataset(Dataset):
    def __init__(
        self,
        root_dir="./test-data",
        train=False,
        max_length=512,
        vocab_size=10000,
        IS_DUMMY=False,
        IS_CODE=False,
        IS_CUSTOM=False,
        sliding_window=False,
        stride=1,
        get_rarity_score=False,
        get_entropy_score=False,
    ):
        print(root_dir)

        # legendary code
        print("[TextCorpusDataset]")
        frame = inspect.currentframe()
        args, _, _, values = inspect.getargvalues(frame)
        print("Arguments passed:")
        for arg in args[1:]:  # skip 'self'
            print(f"  {arg} = {values[arg]}")

        self.root = root_dir
        self.sliding_window = sliding_window
        self.window_size = max_length
        self.stride = stride
        self.get_rarity_score = get_rarity_score
        self.get_entropy_score = get_entropy_score

        if IS_DUMMY:
            self.manager = DummySequentialDataManager(root_dir=root_dir)
        elif IS_CODE:
            if IS_CUSTOM:
                self.manager = CodeCustomTokenizerManager(root_dir=root_dir)
            else:
                self.manager = CodeBPEModelManager(
                    root_dir=root_dir, vocab_size=vocab_size
                )
        else:
            self.manager = BPEModelManager(root_dir=root_dir, vocab_size=vocab_size)

        self.max_length = max_length
        self.cache_file = os.path.join(root_dir, "encoded_chunked.pt")
        self.rarity_cache_file = os.path.join(root_dir, "rarity_scores.pt")
        self.entropy_cache_file = os.path.join(root_dir, "entropy_scores.pt")

        start_t = time.time()
        if os.path.exists(self.cache_file):
            self.chunks = torch.load(self.cache_file, weights_only=True)
            if self.chunks.size(-1) != self.max_length:
                if (
                    input(
                        "Attempting to fix and re-chunk data to correct length. Continue? [y/N]: "
                    )
                    == "y"
                ):
                    self._chunk_and_save(torch.flatten(self.chunks).tolist())
                    print("Re-chunked successfully!")
                else:
                    print("Operation aborted.")
        else:
            with open(
                os.path.join(root_dir, "data/corpus_processed.txt"),
                "r",
                errors="ignore",
            ) as file:
                text = file.read()
                encoded = self.manager.encode(text)

                self._chunk_and_save(encoded)

        # Load or compute cached scores
        self._load_or_compute_scores()

        end_t = time.time()
        print(f"Dataset loading took {end_t - start_t} seconds.")

        # TODO: more "optimization"
        self.chunks = self.chunks.to(DEVICE)
        if self.get_rarity_score:
            self.rarity_scores = self.rarity_scores.to(DEVICE)
        if self.get_entropy_score:
            self.entropy_scores = self.entropy_scores.to(DEVICE)
        self.dummy = torch.tensor([1], device=DEVICE)

    def _chunk_and_save(self, encoded):
        chunked_data = []
        if self.sliding_window:
            print("sliding!")
            for i in trange(
                0, len(encoded) - self.window_size + 1, self.stride, leave=False
            ):
                chunked_data.append(
                    torch.tensor(encoded[i : i + self.window_size], dtype=torch.int)
                )
        else:
            for i in trange(0, len(encoded), self.max_length, leave=False):
                chunked_data.append(
                    torch.tensor(encoded[i : i + self.max_length], dtype=torch.int)
                )

            # me when the last item is not necessarily of length self.max_length
            padded_chunk = torch.zeros(self.max_length, dtype=torch.int)
            padded_chunk[: len(chunked_data[-1])] = chunked_data[-1]
            chunked_data[-1] = padded_chunk

        self.chunks = torch.stack(chunked_data)
        torch.save(self.chunks, self.cache_file)

    def _load_or_compute_scores(self):
        """Load cached scores or compute them if not available"""
        if self.get_rarity_score:
            if os.path.exists(self.rarity_cache_file):
                print("Loading cached rarity scores...")
                self.rarity_scores = torch.load(self.rarity_cache_file, weights_only=True)
                if len(self.rarity_scores) != len(self.chunks):
                    print("Rarity cache size mismatch, recomputing...")
                    self._compute_and_cache_rarity_scores()
            else:
                print("Computing rarity scores...")
                self._compute_and_cache_rarity_scores()
        
        if self.get_entropy_score:
            if os.path.exists(self.entropy_cache_file):
                print("Loading cached entropy scores...")
                self.entropy_scores = torch.load(self.entropy_cache_file, weights_only=True)
                if len(self.entropy_scores) != len(self.chunks):
                    print("Entropy cache size mismatch, recomputing...")
                    self._compute_and_cache_entropy_scores()
            else:
                print("Computing entropy scores...")
                self._compute_and_cache_entropy_scores()

    def _compute_and_cache_rarity_scores(self):
        """Compute rarity scores for all chunks and cache them"""
        rarity_scores = []
        print("Computing rarity scores for all chunks...")
        for i in trange(len(self.chunks), desc="Computing rarity scores"):
            score = self.manager.get_rarity_score(self.chunks[i])
            rarity_scores.append(score)
        
        self.rarity_scores = torch.tensor(rarity_scores, dtype=torch.float32)
        torch.save(self.rarity_scores, self.rarity_cache_file)
        print(f"Cached rarity scores to {self.rarity_cache_file}")

    def _compute_and_cache_entropy_scores(self):
        """Compute entropy scores for all chunks and cache them"""
        entropy_scores = []
        print("Computing entropy scores for all chunks...")
        for i in trange(len(self.chunks), desc="Computing entropy scores"):
            score = self.manager.get_entropy_score(self.chunks[i])
            entropy_scores.append(score)
        
        self.entropy_scores = torch.tensor(entropy_scores, dtype=torch.float32)
        torch.save(self.entropy_scores, self.entropy_cache_file)
        print(f"Cached entropy scores to {self.entropy_cache_file}")

    # unused
    # def _sliding_window(self, sequence, window_size, stride):
    #     windows = []
    #     for i in range(0, len(sequence) - window_size + 1, stride):
    #         windows.append(sequence[i : i + window_size])
    #     return torch.stack(windows)

    def __len__(self):
        return len(self.chunks)

    def __getitem__(
        self, idx
    ): 
        seq = self.chunks[idx]
        if self.get_rarity_score:
            return seq, self.rarity_scores[idx]
        if self.get_entropy_score:
            return seq, self.entropy_scores[idx]
        return seq, self.dummy  # self.manager.attention_mask(seq)


class Datasplit_chunker(Dataset):
    def __init__(self, root, name, subset, slide=False, stride=1, length=512):
        super().__init__()

        self.root = root
        if os.path.exists(os.path.join(root, f"encoded_chunked_{name}.pt")):
            self.items = torch.load(
                os.path.join(root, f"encoded_chunked_{name}.pt"), weights_only=True
            )

        else:
            self.items = torch.cat([subset.dataset[idx][0] for idx in subset.indices])

            if slide:
                self.items = self._sliding_window(
                    self.items, window_size=length, stride=stride
                )

            torch.save(self.items, os.path.join(root, f"encoded_chunked_{name}.pt"))
            print("saved!")
        self.chunks = self.items
        self.dummy = torch.tensor([1], device=DEVICE)

    def _sliding_window(self, sequence, window_size, stride):
        num_windows = (len(sequence) - window_size) // stride + 1
        windows = torch.as_strided(
            sequence, size=(num_windows, window_size), stride=(stride, 1)
        )
        return windows

    def __len__(self):
        return len(self.items)

    def __getitem__(self, idx):
        return self.chunks[idx], self.dummy


# print("Running....")
dataset = TextCorpusDataset(
    root_dir=os.path.expanduser(
        # "./dummy-data-dir"
        # "./smaller-er-test-data"
        # "./smaller-test-data"
        # "~/torch_datasets/github-python/all_trains_subset_corpus/all_trains_TRAINSPLIT"
        #"~/torch_datasets/github-python/all_trains_subset_corpus"
        # "~/torch_datasets/github-python/corpus"
        # "~/torch_datasets/github-python/mega_corpus"
        "~/torch_datasets/github-python/mega_licensed_corpus"
    ),  # os.path.expanduser("~/torch_datasets/wikitext/train")
    vocab_size=33819,  # 3645, # edited by me
    IS_CODE=True,  # Remember to change!
    IS_CUSTOM=True,
    # IS_DUMMY=True,
    max_length=256,
    sliding_window=False,
    stride=10,
    get_rarity_score=True,
)

dset_size = int(len(dataset))
train_size = int(0.8 * dset_size)  # int(dset_size - 2)
test_size = int(dset_size - train_size)
if test_size == 2:
    print("alert! test size is 2 or whatever. Change this back please.")

torch.manual_seed(3407)  # https://arxiv.org/pdf/2109.08203

train_dataset, test_dataset, _ = random_split(
    dataset, [train_size, test_size, len(dataset) - train_size - test_size]
)


# train_dataset = Datasplit_chunker(dataset.root,"TRAIN", train_dataset, slide=False, stride=10, length=256)
# test_dataset = Datasplit_chunker(dataset.root,"TEST", test_dataset, slide=False, stride=10, length=256)


# test_dataset = train_dataset # to test if the overfitting is real

# train_dataset = dataset  # TODO change


def get_train_dataset():
    return train_dataset


def get_test_dataset():

    return test_dataset


def get_dataloader(dataset, batch_size=64):

    return DataLoader(dataset, batch_size=batch_size, shuffle=True)


def fromDataset(dataset):
    dset_size = int(len(dataset))
    train_size = int(0.8 * dset_size)  # int(dset_size - 2)
    test_size = int(dset_size - train_size)
    if test_size == 2:
        print("alert! test size is 2 or whatever. Change this back please.")

    torch.manual_seed(3407)  # https://arxiv.org/pdf/2109.08203

    train_dataset, test_dataset, _ = random_split(
        dataset, [train_size, test_size, len(dataset) - train_size - test_size]
    )

    return train_dataset, test_dataset


if __name__ == "__main__":
    d = get_train_dataset()
    print("Number of samples: ", len(d))
    for a, b in d:
        # a, b = d[-1]
        manager = dataset.manager
        print(a)
        print(manager.decode(a))
        # print(a)
        print("--- sep batch --- ")

        print(f"Number of tokens used: {len(dataset.manager.token_to_id)}")
        break  # lazy