在使用LangChain连接本地数据时(txt文件,内容为中文,使用TextLoader),需要生成向量库(FAISS,一个文件夹),在文本向量化、问句向量化、问答时会连接openai的语言模型和OpenAIEmbeddings,但openai调用时是收费的,尤其是在向量化的过程中,会消耗太多token。有没有开放的模型和Embeddings可以调用(需要翻墙也可以)?
1 个赞
根据给出的上下文,LangChain可以调用许多开放的模型和嵌入。以下是一些列出的选项:
模型:
- Chat Models(聊天模型)
- Embeddings(嵌入)
嵌入(Embeddings):
- Aleph Alpha
- Azure OpenAI
- Cohere
- Fake Embeddings
- Hugging Face Hub
- InstructEmbeddings
- Jina
- Llama-cpp
- OpenAI
- SageMaker Endpoint Embeddings
- Self Hosted Embeddings
- Sentence Transformers Embeddings
- TensorflowHub
请注意,由于我没有详细的上下文信息,无法确定LangChain可以调用哪些特定模型和嵌入。您可以参考LangChain的文档或搜索更多有关LangChain的信息,以了解如何使用相应的模型和嵌入。
免费让你调用的肯定没有,但是有一些开源的Embedding模型,你可以下载下来自己部署;建议使用商业的Embedding,或者如果有实力可以让算法基于开源优化也可以。
谢谢大佬 @admin
麻烦问下,原始文本在6000个汉字左右,langchain适合集成哪个开源的Embedding模型呀(集成起来会相对容易些的)?服务器配置一般要多高呀?
另外,我可以在langchain创建索引时使用自己的Embedding模型
db = FAISS.from_documents(texts, MyLocalEmbeddings())
同时在查询时使用另一个LLM模型(例如:ChatGlm)吗?
RetrievalQA.from_chain_type(llm=ChatGlm(), chain_type="stuff", retriever=retriever).run("<my question>")
6000个汉字,openai花不了几毛钱呀。