Kanji Papers

Ya-Min Chou, Chu-Ren Huang: "Hantology: An Ontology based on Conventionalized Conceptualization", Ontologies and Lexical Resources for Natural Lnaguage Processing, Cambridge Press, 2007
 * Hanzi Ontology
 * encoded in OWL
 * mapped to SUMO
 * Chinese characters has at least 40,000 characters
 * over 100,000 including variants
 * around 80% are semantic-phonetic construction
 * Chinese writing system is richly encoded with semantic information
 * no formal account (ontology) has never been proposed
 * 540 radicals of ShuoWenJieZi are basic semantic symbols
 * http://en.wikipedia.org/wiki/List_of_Shuowen_Jiezi_radicals
 * Contributions
 * ontology for hanzi
 * describing character variants
 * describing language variation
 * orthographic form
 * pronunciation
 * sense
 * lexicalization
 * solving missing characters and variants retrieval problem
 * Mapping to SUMO
 * based on definition in ShuoWenJieZi
 * not always accurate
 * 鳥 → long-tailed bird
 * 隹 → ?
 * doesn't hold when one examines the derived characters
 * hence simply "bird"
 * based on the meaning of derived characters
 * 水 means water because the derived characters mean it
 * why not just use ShoWenJieZi?
 * 艸 represents 'plants'
 * a kind of plant: 蘭
 * part of plant: 葉
 * usage of plant: 薬 (plant can be made into medicine)
 * description of plant: 落 (leaves falling)
 * same with 馬, 羊, 牛
 * Pustejovsky's theory of generative lexicon
 * 金 represents 'metal'
 * a kind of metal: 銀
 * usage of metal: 鐘
 * description of metal: 鋭
 * production: 錬
 * Temporal aspect of hanzi
 * meaning
 * O: original
 * D: derived
 * L: loaned
 * 説 and 說 has different unicode but are actually the same kanji
 * Place aspect of hanzi
 * at period X, in the place Y, the kanji 門 has meaning Z
 * HasAncientGlyph and IsAncientGlyph relation
 * Hantology coverage
 * 3000 high frequency characters

Ya-Min Chou, Chu-Ren Huang, Jia-Fei Hong: "The Extended Architecture of Hantology for Kanji", Language Resources Evaluation Conference, 2008
 * Hantology: Chinese kanji ontology (China and Taiwan)
 * extend to Japanese kanji
 * problem: adopted kanjis have been changed
 * extension: orthographic (there are kanjis only used in japan), pronunciation (訓読み, 音読み), sense (it may have a different sense from the chinese one), derived lexicon (家出 is a derived lexion only in japanese)
 * links to Chinese kanji
 * type I: same orthographic form
 * type II: different form (字体)
 * merit: study the distribution and variation of Chinese characters
 * features of hantology
 * ortographic form
 * evolution of script
 * pronunciation
 * sense
 * variant
 * lexicalization (?)
 * example: 家
 * composition
 * semantic and phonetic
 * semantic: 宀
 * phonetic: 豭 (日本語の音読み: カ)
 * principle of formation: 形声
 * gylph expression: 宀[上下]豕
 * glyph evolution
 * lesser seal script: [Unicode以外の漢字]
 * variants: 傢 (move)
 * sense
 * original: home
 * based on 説文(shuo wen, ancient dictionary)
 * family
 * mapped to SUMO (Suggested Upper Merged Ontology)
 * generated words: 家父, 家母
 * generated words
 * as prefix: 家父, ...
 * as suffix
 * as infix
 * 540 semantic symbols (=kanji?)
 * mapped to SUMO
 * representation using OWL

守岡知彦: "文字オントロジーに基づく文字処理について", 情報処理学会研究報告 (2006)
 * プロジェクト名: CHISE project
 * Chaonモデル: 文字オントロジーに基づく文字処理手法
 * CHISE: そのモデルに基づく環境
 * 一般的な手法: 符号化文字モデル
 * 文字の知識: 符号の定義
 * 利用者が勝手に変更できない
 * 計算機の中に存在しない
 * 漢字の難しいところ
 * 異体字も多く文字の同一性に関する観念が曖昧
 * 今と昔の漢字の用字法と同一性
 * 用字法におけるテキスト(文脈)依存性
 * 近年
 * 行政(地名、人名)や学術資料の電子化
 * 異体字が多い
 * テキスト検索
 * 異体字処理が必要
 * 対応表が使われる
 * 必要となった
 * 文字に関する知識の機会可読な表現の整備
 * それを利用した文字処理技術
 * 今まではad hocに限定的な文字データベースしかない
 * 符号化文字モデルの問題点
 * 英語用ラテン文字のために設計された
 * 差異が大きい用字系ではうまくいかない
 * 大規模文字集合
 * 文字の同一性
 * 何を文字と考える？
 * 外字の必要性
 * 標準化
 * 標準をずっと拡大しようとしている
 * 文字概念に起因する問題も拡大している
 * 不満
 * 今までの解決法は文字符号の拡張
 * 統語論的問題を解決している
 * 意味論的問題は無視
 * 意味は定義の中にしか存在していない
 * 文字データベースと電子以前にできた漢字辞書の違い
 * 説文解字、康煕字典、大漢和辞典
 * UCSの前に登録文字数は康煕字典などに届かなかった
 * 漢字辞書の方が情報が多い
 * 漢字データベースは何らかの処理のために作られた
 * マッピング・テーブル：コード変換のため
 * 異体字シソーラス：異体字曖昧検索のため
 * 辞書は形、音、定義の情報など
 * 文字処理はあまり高度でない
 * 符号化文字の技術の上で作られたので
 * 新しいモデルが必要
 * 脱符号化:画像とかで表現する
 * 1のもとに、性質や関係を定義する
 * 局所的文字符号：必要な場合、必要な文字集合をとって符号値を与える
 * 1997: Lispに基づいたMy Symbolic System (1と2)
 * 1998: UTF-2000モデル (2と3) → Chaonモデル
 * 1998: UTF-2000 based on GNU Emacs 20.2.90
 * 1999: XEmacs UTF-2000 → XEmacs CHISE
 * CHISE project
 * 意味論的な側面に焦点を当てる
 * 符号化文字の問題
 * レイヤ化の問題
 * 符号化文字集がわでは「これはマークアップの問題だ」
 * マークアップ側ではあまり問題を引き受けてくれない
 * 文字処理モジュールとそれ以外の処理モジュールとのインタフェースが必要
 * Chaonモデル
 * 自由に文字を表現する
 * 文字に関する知識によって文字を表現する
 * 性質（文字素性）の集合
 * 部首
 * 画数
 * 部品の組合せ
 * 発音
 * 意味
 * 用例
 * その他文字処理で必要となる各種情報
 * 文字と文字の集合は本質的に区別されない
 * 素性の集合　→　字形? 字体? 文字? 自由に解釈できる
 * 関係素性
 * 文字間の関係を表す素性
 * ->と<-
 * Aの素性として「->foo ... B ...」が存在したら
 * A ->foo B
 * Bでは「<-foo ... A ...」が必ずある
 * 関係の値は文字の集合: Aでは「->foo B C」の場合
 * A ->foo B
 * A ->foo C
 * 複数の値の素性
 * 出典を入れたい
 * 素性の名前の構造化
 * ドメインの例: total-strokes@ucs
 * 出典の例: total-strokes@usc*sources
 * CHISE-DB
 * CHISE汎用文字データベース
 * ->denotational
 * 比較的大きな形の差異
 * ->subsumtive
 * 比較的小さな形の差異
 * ​libchise
 * ​libconcord (文字だけではなく、任意のオブジェクトの処理)

Tomohiko Morioka: "CHISE: Character Processing Based on Character Ontology", Third International Conference on Large-Scale Knowledge Resources, 2008

Hanzi Grid

IDS

漢字と情報」No.3

IDS:

http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/e_asia.html

http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/u2ff0.html

記録した漢字から新しい漢字を合成する方法

漢字データベース: http://kanji-database.sourceforge.net/

proposed addition of new IDS:

http://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&ved=0CCwQFjAD&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.173.9029%26rep%3Drep1%26type%3Dpdf&ei=ZiGaUNn2IKXriAf4mIDQCw&usg=AFQjCNEQTbvldu1udg1mpdzGpfglKIlXaA&cad=rja

http://www.wenlin.com/cdl/