상순위
wiki dataset 256 split
jina embedding
dpr embedding
data 생성 요청
추가 training
pytorch profiler
하순위
dpr 10 개 같은 경우 각각 해보고 최고 score로 해야
근데 1개인 경우가 summarize경우보다 훨높아서 이것도 의미없을듯…
계속 fetch 먼저 왔다는 오류
Wiki 256
Token count {'~128': 1415068, '128~256': 1290011, '256~512': 18756476, '512~1024': 667, '1024~2048': 12, '2048~4096': 0, '4096~8192': 0, '8192~16384': 0, '16384~32768': 0, '32768~65536': 0, '65536~128000': 0, '128000~': 0} Text count {'~512': 1556876, '512~1024': 6074975, '1024~2048': 13830329, '2048~4096': 49, '4096~8192': 2, '8192~16384': 3, '16384~32768': 0, '32768~65536': 0, '65536~': 0} Token percent {'~128': '6.59%', '128~256': '6.01%', '256~512': '87.39%', '512~1024': '0.00%', '1024~2048': '0.00%', '2048~4096': '0.00%', '4096~8192': '0.00%', '8192~16384': '0.00%', '16384~32768': '0.00%', '32768~65536': '0.00%', '65536~128000': '0.00%', '128000~': '0.00%'} Text percent {'~512': '7.25%', '512~1024': '28.31%', '1024~2048': '64.44%', '2048~4096': '0.00%', '4096~8192': '0.00%', '8192~16384': '0.00%', '16384~32768': '0.00%', '32768~65536': '0.00%', '65536~': '0.00%'}
데이터 오류 있어서 확인중
Seonglae Cho