https://gall.dcinside.com/board/view/?id=rlike&no=494656

https://private-raw.abstr.net/wtrec-extracted/v1.0.7z
200GB가량 되는 수집 데이터를 파싱하는 프로그램을, 처음에는 node.js로 만들었었는데, 파싱 처리 시간이 하루를 넘어가서, 못 쓸거같아서
Go로 멀티스레딩 활용하게 재작성했고, 10~20분 안에 결과를 볼 수 있었습니다.
중복을 제거하고, 정렬 처리가 되어있고, 순수 텍스트로 1GB 정도 분량입니다, 들여다보면 알 수 있지만 대부분 반복적 텍스트가 대부분입니다.
7z로 압축하여 결과적으로 60MB 정도 되는, 초기 번역용 데이터를 얻을 수 있었습니다.
- 계속 -

화이팅
정말 감사합니다
미쳣다링
200gb 이후 무슨말인지 하나도 이해 못하지만 개추야! - dc App
쥐가 병을 열고 치즈를 꺼낼 것을 알기에 당신은 의지로 가득찼다. - dc App
워 ㄷㄷㄷㄷ
냅
홀;
아무튼 용량이 줄어들었으니 조아쓰