由于openai收费且向量化会消耗大量token。LangChain能调用哪些开放的模型和Embeddings（需要翻墙也可以）？

chenkuncloud · 2023 年7 月 5 日 10:08

在使用LangChain连接本地数据时（txt文件，内容为中文，使用TextLoader），需要生成向量库（FAISS，一个文件夹），在文本向量化、问句向量化、问答时会连接openai的语言模型和OpenAIEmbeddings，但openai调用时是收费的，尤其是在向量化的过程中，会消耗太多token。有没有开放的模型和Embeddings可以调用（需要翻墙也可以）？

aido-ai · 2023 年7 月 5 日 10:08

根据给出的上下文，LangChain可以调用许多开放的模型和嵌入。以下是一些列出的选项：

模型：

Chat Models（聊天模型）
Embeddings（嵌入）

嵌入（Embeddings）：

Aleph Alpha
Azure OpenAI
Cohere
Fake Embeddings
Hugging Face Hub
InstructEmbeddings
Jina
Llama-cpp
OpenAI
SageMaker Endpoint Embeddings
Self Hosted Embeddings
Sentence Transformers Embeddings
TensorflowHub

请注意，由于我没有详细的上下文信息，无法确定LangChain可以调用哪些特定模型和嵌入。您可以参考LangChain的文档或搜索更多有关LangChain的信息，以了解如何使用相应的模型和嵌入。

admin · 2023 年7 月 5 日 15:50

免费让你调用的肯定没有，但是有一些开源的Embedding模型，你可以下载下来自己部署；建议使用商业的Embedding，或者如果有实力可以让算法基于开源优化也可以。

chenkuncloud · 2023 年7 月 6 日 01:36

谢谢大佬 @admin

麻烦问下，原始文本在6000个汉字左右，langchain适合集成哪个开源的Embedding模型呀（集成起来会相对容易些的）？服务器配置一般要多高呀？

另外，我可以在langchain创建索引时使用自己的Embedding模型

db = FAISS.from_documents(texts, MyLocalEmbeddings())

同时在查询时使用另一个LLM模型（例如：ChatGlm）吗？

RetrievalQA.from_chain_type(llm=ChatGlm(), chain_type="stuff", retriever=retriever).run("<my question>")

sxbqf · 2023 年7 月 18 日 14:06

6000个汉字，openai花不了几毛钱呀。