TEXT PROCESSING

  1. Course Description
    이 교과목은 최신 테이터 의존 환경에서 텍스트 처리와 관련된 업무를 수행하는 데 필요한 지식과 기술을 학습하는 과목이다. 텍스트 처리는 데이터베이스를 제공하는 기본적인 query와 달리, 데이터와 텍스트를 제3자가 제공하는 도구를 이용하여 텍스트 추출, 필터링 및 변환, 데이터 의존 응용프로그램 계발까지의 과정에서 초기 단계의 필수 요소이다. 이 과목에서 학습자들은 LINUX 환경에서 제공하는 grep, sed, and awk 같은 텍스트 처리 도구들을 배운다. 또한 정규 표현식 (regular expression)같은 유용한 문자열의 집합을 표현하는 형식들을 배운다. 결과적으로 서지학 구조에서 이용된 텍스트를 처리함에 따라서 여러 가지 서지 데이터 및 텍스트 처리방법과 응용가능성을 실질적으로 경험하게 된다..
  2. Course Objectives
    This course is intended as an introduction for beginning students who want to become more technically oriented in solving problems related to text processing. The goal of this course is to provide a basic understanding of text processing tools. Students will learn to develop the following skills - Discovering interesting information from underlying text - Comparing text corpus to understand corpus features - Extracting elements that can be used for statistical analysis - Organizing text in a more structured way - Normalizing linguistic elements in a text - Converting one text format to another - Cleaning up inconsistent elements in a database - Searching for text that matches a particular pattern - Analyzing linguistic patterns in the written language
  3. Teachnig Method
  4. Textbook
  5. Assessment
  6. Requiments
    Although this course assumes no prior knowledge of computing, familiarity with computers, problem solving, and the basics of programming such as variables and functions would be helpful.
  7. Practical application of the course
    Students should be able to gain practical experience in dealing with various types of textual information. Practical skills and applications learned in this course may encourage students to pursue future careers as programmers, analysts, or researchers.
  8. Reference