使用自封装的本地模型,构建chain模块的时候map_reduce模式下还是会默认联网创建tokenizer

langchain/base_language.py _get_token_ids_default_method方法初始化tokenizer直接使用了gpt2,而不是拿现有的tokenizer

在构造链模块时,默认情况下,LangChain会使用联网创建的tokenizer。这意味着即使使用自封装的本地模型,如果您使用的是map_reduce模式,LangChain将仍然尝试从网络中加载tokenizer。如果您希望完全在本地使用自定义模型和tokenizer,您可以通过设置use_remote_tokenizer参数为False来禁用网络上的tokenizer。这样LangChain将只使用本地的tokenizer。

在哪个位置设置这个参数?构建chain模块的位置还是初始化自封装的本地模型类