由于openai收费且向量化会消耗大量token。LangChain能调用哪些开放的模型和Embeddings(需要翻墙也可以)?

在使用LangChain连接本地数据时(txt文件,内容为中文,使用TextLoader),需要生成向量库(FAISS,一个文件夹),在文本向量化、问句向量化、问答时会连接openai的语言模型和OpenAIEmbeddings,但openai调用时是收费的,尤其是在向量化的过程中,会消耗太多token。有没有开放的模型和Embeddings可以调用(需要翻墙也可以)?

1 个赞

根据给出的上下文,LangChain可以调用许多开放的模型和嵌入。以下是一些列出的选项:

模型:

  • Chat Models(聊天模型)
  • Embeddings(嵌入)

嵌入(Embeddings):

  • Aleph Alpha
  • Azure OpenAI
  • Cohere
  • Fake Embeddings
  • Hugging Face Hub
  • InstructEmbeddings
  • Jina
  • Llama-cpp
  • OpenAI
  • SageMaker Endpoint Embeddings
  • Self Hosted Embeddings
  • Sentence Transformers Embeddings
  • TensorflowHub

请注意,由于我没有详细的上下文信息,无法确定LangChain可以调用哪些特定模型和嵌入。您可以参考LangChain的文档或搜索更多有关LangChain的信息,以了解如何使用相应的模型和嵌入。

免费让你调用的肯定没有,但是有一些开源的Embedding模型,你可以下载下来自己部署;建议使用商业的Embedding,或者如果有实力可以让算法基于开源优化也可以。

谢谢大佬 @admin

麻烦问下,原始文本在6000个汉字左右,langchain适合集成哪个开源的Embedding模型呀(集成起来会相对容易些的)?服务器配置一般要多高呀?

另外,我可以在langchain创建索引时使用自己的Embedding模型

db = FAISS.from_documents(texts, MyLocalEmbeddings())

同时在查询时使用另一个LLM模型(例如:ChatGlm)吗?

RetrievalQA.from_chain_type(llm=ChatGlm(), chain_type="stuff", retriever=retriever).run("<my question>")

6000个汉字,openai花不了几毛钱呀。