处理文档这个text split带来一些负面效果

比较重要的文本在中间被断开了,后面的那段在和query匹配的时候也找不到
这种一般是要怎么解决

我想的是
1.不使用text split
2.同时换embedding的模型,支持更大的输入长度,实在超出的就只能截断了

还有什么其他比较好的处理方式吗?求教

这种方法的话,我认为有点问题,1)检索出来的文本长度太长,相似性会受影响,进而会引起生成式语言模型 Hallucination的问题;2)成本问题。

可以试一下这种方法?,split的时候通过overlap来处理,比如:“ABCDEFGHIJKLMN” 截断为“ABCDEFGH”,“GHIJKLMN”,GH为overlap分别处在两个段落内,这样可以避免一些关键信息不全的问题。

其他人有方法的话,欢迎一起来讨论。我觉的这个是个很好的话题

1 个赞