11월 연구 미팅
텍스트 수집: 원본 어른용 문학의 텍스트 데이터를 수집 -> 공개 도서, 전자책
텍스트 정제 및 전처리: 불필요한 구두점 제거, 대문자를 소문자로 변환, 특수 문자 제거 등이 포함됩니다.
//
chat gpt를 통한 어린이용 소설 창작
playground -> 파라미터 직접 설정 가능
// 내가 기여할 수 있는 부분->
https://blog.naver.com/pjt3591oo/221913081091
문서 유사도 검사, 중요 부분 누락되지 않았는지 검사
추상요약 ,
장르 한정 (고전...................// 신화, 기사도문학, 고전) - 단테의 신곡
케이스 스터디 먼저 해 보고 -> 유사한 애
마음에드는 작품으로 하나 골라서 해 보고 일반화 자동화시키기
어느 수준까지 자동화를 시킬 수 있을 것인가.
기승전결에 해당하는 부분들로 나누어달라
문단? 조금 고른 텍스트요약추출을 위해서 단위를 설정 -> 텍스트 통으로 넣으면 유실되는 정보가 너무 많을 거 같다
일정 코사인 값 이상이면 데이터 적재
일러스트레이션 적용: 어린이용 문학에는 일러스트가 포함되는 경우가 많습니다. 텍스트에 따라 적절한 일러스트레이션을 선택하거나 생성하여 추가합니다.
https://lovit.github.io/nlp/2019/04/30/textrank/
text rank을 통한 요약문, 요약문을 일러스트가 필요한 핵심적인 장면인 10장면 이내로 선정해서 10문장 이내 생성
요약문에 포함이 된 부분의 일러스트 형성
// 유의미한 활동 삽입: 어린이용 문학은 학습적인 측면을 강조, 텍스트에 학습적인 활동이나 질문을 삽입하여 독자가 적극적으로 참여하도록 유도
평가 및 피드백: 변환된 텍스트를 어린이들에게 제공하고 피드백을 수집하여 모델을 향상시킬 수 있습니다.
자동화 및 스케일링: 데이터 파이프라인을 자동화하고 큰 양의 텍스트에 대한 처리를 효과적으로 다루기 위해 스케일링을 고려합니다.
텍스트 생성 시 성인 문학과 구분되는 아동 문학의 특징을 반영해야
참고자료