比较重要的文本在中间被断开了,后面的那段在和query匹配的时候也找不到
这种一般是要怎么解决
我想的是
1.不使用text split
2.同时换embedding的模型,支持更大的输入长度,实在超出的就只能截断了
还有什么其他比较好的处理方式吗?求教
比较重要的文本在中间被断开了,后面的那段在和query匹配的时候也找不到
这种一般是要怎么解决
我想的是
1.不使用text split
2.同时换embedding的模型,支持更大的输入长度,实在超出的就只能截断了
还有什么其他比较好的处理方式吗?求教
这种方法的话,我认为有点问题,1)检索出来的文本长度太长,相似性会受影响,进而会引起生成式语言模型 Hallucination的问题;2)成本问题。
可以试一下这种方法?,split的时候通过overlap来处理,比如:“ABCDEFGHIJKLMN” 截断为“ABCDEFGH”,“GHIJKLMN”,GH为overlap分别处在两个段落内,这样可以避免一些关键信息不全的问题。
其他人有方法的话,欢迎一起来讨论。我觉的这个是个很好的话题