https://gall.dcinside.com/board/view/?id=rlike&no=494656

(초안, 기술 문서) 돌죽 한국어화 - 1 - 로그라이크 갤러리

https://gall.dcinside.com/board/view/?id=rlike&no=359290 넷핵 번역에 대한 짧은 생각한창 돌죽 확장 모듈 개발에 미쳐있었던 시절에 구상한게 하나 있음 ## 마법창 한

gall.dcinside.com



24b0d121e09c28a8699fe8b115ef0468eba2ecbe


https://private-raw.abstr.net/wtrec-extracted/v1.0.7z



200GB가량 되는 수집 데이터를 파싱하는 프로그램을, 처음에는 node.js로 만들었었는데, 파싱 처리 시간이 하루를 넘어가서, 못 쓸거같아서


Go로 멀티스레딩 활용하게 재작성했고, 10~20분 안에 결과를 볼 수 있었습니다.


중복을 제거하고, 정렬 처리가 되어있고, 순수 텍스트로 1GB 정도 분량입니다, 들여다보면 알 수 있지만 대부분 반복적 텍스트가 대부분입니다.


7z로 압축하여 결과적으로 60MB 정도 되는, 초기 번역용 데이터를 얻을 수 있었습니다.


- 계속 -