ReSRer 1124 연구노트

상순위

wiki dataset 256 split

jina embedding

dpr embedding

data 생성 요청

추가 training

pytorch profiler

하순위

dpr 10 개 같은 경우 각각 해보고 최고 score로 해야

근데 1개인 경우가 summarize경우보다 훨높아서 이것도 의미없을듯…

계속 fetch 먼저 왔다는 오류

Wiki 256


Token count {'~128': 1415068, '128~256': 1290011, '256~512': 18756476, '512~1024': 667, '1024~2048': 12, '2048~4096': 0, '4096~8192': 0, '8192~16384': 0, '16384~32768': 0, '32768~65536': 0, '65536~128000': 0, '128000~': 0}
Text count {'~512': 1556876, '512~1024': 6074975, '1024~2048': 13830329, '2048~4096': 49, '4096~8192': 2, '8192~16384': 3, '16384~32768': 0, '32768~65536': 0, '65536~': 0}
Token percent {'~128': '6.59%', '128~256': '6.01%', '256~512': '87.39%', '512~1024': '0.00%', '1024~2048': '0.00%', '2048~4096': '0.00%', '4096~8192': '0.00%', '8192~16384': '0.00%', '16384~32768': '0.00%', '32768~65536': '0.00%', '65536~128000': '0.00%', '128000~': '0.00%'}
Text percent {'~512': '7.25%', '512~1024': '28.31%', '1024~2048': '64.44%', '2048~4096': '0.00%', '4096~8192': '0.00%', '8192~16384': '0.00%', '16384~32768': '0.00%', '32768~65536': '0.00%', '65536~': '0.00%'}

데이터 오류 있어서 확인중

ReSRer 1124 연구노트

상순위

하순위

Wiki 256

Recommendations