วันจันทร์ที่ 30 กรกฎาคม พ.ศ. 2550

ครั้งที่ 8

Ontology structure
เครื่องมือสำคัญที่ใช้เชื่อมต่อข้อมูลที่เป็นเอกลักษณ์ของ Ontology เข้าไว้ด้วยกัน แบ่งออกได้เป็นสองความสัมพันธ์ คือ
1. is_a เป็นเครื่องมือที่แสดงถึงความเป็นส่วนย่อยของข้อมูล บอกถึงความสัมพันธ์ในเชิงของ class-subclass กล่าวคือ ถ้าพบข้อมูลที่แสดงให้เห็นว่า ก is_a ข แสดงว่า ก เป็นสมาชิกที่มีอยู่ในกลุ่ม ข เช่น nuclear chromosome is_a chromosome เป็นต้น
2. part_of เป็นเครื่องมือที่แสดงถึงความเป็นส่วนหนึ่งของข้อมูลย่อยที่มีต่อข้อมูลใหญ่ โดยความสัมพันธ์จะเป็นในรูปขององค์ประกอบ กล่าวคือถ้าพบข้อมูลที่แสดงให้เห็นว่า ค part_of ง นั้นแสดงว่า ค จัดเป็นองค์ประกอบหนึ่งของ ง เมื่อใดก็ตามที่มีการปรากฎขึ้นของข้อมูล ค จะเป็นที่แน่นอนว่า ค ที่ปรากฎนั้นจะเป็นส่วนประกอบหนึ่งของ ง ทันที แต่ว่าไม่จำเป็นเสมอไปที่จะมีการปรากฎขึ้นของ ค ทุกครั้งไป ตัวอย่างเช่น nucleus part_of cell ความหมายก็คือ นิวเคลียสเป็นส่วนประกอบหนึ่งของเซลล์ แต่ก็ไม่ใช่เซลล์ทุกเซลล์ที่มีนิวเคลียส
ภาพที่ 5 ความสัมพันธ์ของการใช้ is_a และ part_of ร่วมกับเอกลักษณ์ทางชีววิทยาต่างๆ ผ่านการจัดระบบข้อมูลของ Ontology
ที่มา: Poula et al,2007. Phenotype ontologies: the bridge between genomics and evolution.
จากองค์ประกอบต่างๆที่กล่าวถึงข้างต้นทำให้สามารถจำแนกชุดข้อมูลที่มีขนาดใหญ่ได้โดยง่าย การจัดระบบโครงสร้างของ ontology นั้นทำให้สร้างความสัมพันธ์ของหน้าที่การทำงาน และโครงสร้างต่างๆได้ เห็นภาพอย่างชัดเจน แม้แต่คำจำกัดความของขอบเขตข้อมูลที่ใช้แบ่งประเภทของสสารทางชีวเคมี ที่กล่าวถึงข้างต้น ก็สามารถนำมาจัดเข้าโครงสร้างของ ontology ได้ดังภาพที่ 6 ซึ่งทำให้การทำความเข้าใจกับข้อมูลพื้นฐานของ Gene Ontology สามารถทำได้ง่ายขึ้น
Species-specific terms
ปัญหาหนึ่งที่พบได้ผ่านการใช้คำจำกัดความของเครื่องมือทาง Ontology คือ ความไม่ชัดเจนของชุดข้อมูล กล่าวคือไม่สามารถชี้เฉพาะลงไปได้ว่าข้อมูลที่กำลังสนใจอยู่นั้น อ้างอิงอยู่กับฐานข้อมูลใด ยกตัวอย่างเช่นเมื่อมีการกล่าวถึงการแตกหน่อ โดยไม่กำหนดฐานข้อมูลที่ชัดเจน การที่ความที่เกิดขึ้นจะจำแนกออกไปได้เป็นหลายกรณี เช่น การแตกหน่อของยีสต์ การแตกหน่อของต้นไม้ หรือแม้กระทั่งการแตกหน่อ (เกิดขึ้น) ของฟัน สิ่งเหล่านี้สามารถแก้ไขได้ผ่านทางคำศัพท์ควบคุมที่เรียกว่า sensu
Sensu ให้คำจำกัดความได้ว่า ‘In the sense of’ นั่นคือเมื่อใช้ sensu จะทำให้ผู้ศึกษาข้อมูลเข้าใจได้ว่า กำลังอ้างอิงอยู่กับฐานข้อมูลใด เช่นจากตัวอย่างที่ยกไว้ข้างต้น ถ้าเพิ่มข้อมูลในส่วนของ sensu เข้าไปด้วยจะทำให้ทราบได้ทันทีว่ากำลังกล่าวถึงสิ่งใด เช่น เมื่อกล่าวถึงการแตกหน่อ โดยกำหนดข้อมูลควบคู่ไปด้วยว่า sensu Saccharomyces ก็จะทำให้ทราบได้ทันทีว่าอ้างถึงฐานข้อมูลที่เป็นยีสต์ หรือถ้ากำหนด sensu Metazoa ก็จะทำให้ทราบได้ว่ากำลังกล่าวถึงฟันของสัตว์เลี้ยงลูกด้วยนม เป็นต้น
ฐานข้อมูลของ Gene Ontology
การจัดชุดข้อมูลของ Gene Ontology นั้น มีความหลากหลายมาก ถึงแม้ว่าจะใช้ข้อมูลพื้นฐานบางส่วนร่วมกันแต่ก็ยังไม่สามารถจำกัดข้อมูลให้อยู่ในรูปที่เล็กที่สุดได้ เนื่องจากจะทำให้เกิดความเข้าใจ หรือได้ผลลัพธ์ของข้อมูลที่คลาดเคลื่อนไปจากความเป็นจริง จึงทำให้การพัฒนาความรู้ด้านการจัดระเบียบข้อมูลของยีนผ่านทาง Ontology มีความก้าวหน้าอย่างต่อเนื่องตลอดมา ภายใต้ความร่วมมือของนักวิจัยในสังกัด GO consortium
GO สร้างขึ้นเป็นครั้งแรกในปีคริสต์ศักราช 2000 โดยแรกเริ่มนั้นมีการจัดรวบรวมฐานข้อมูลเพียงสามชุดคือ FlyBase (Drosophila), MGI (Mouse) และ SGD (Saccharomyces. cerevisae) โดยฐานข้อมูลทั้งสามนี่ยังคงมีการใช้งานอยู่จนถึงปัจจุบัน หลังจากนั้นก็มีการพัฒนาการจัดระเบียบฐานข้อมูลเพิ่มขึ้นมากมาย จนถึงปัจจุบันมีฐานข้อมูลของ GO เป็นจำนวนมาก นอกจากนี้ยังมีชุดของฐานข้อมูลที่อยู่ระหว่างการพัฒนาอีกจำนวนหนึ่ง ตัวอย่างของชนิดสิ่งมีชีวิตที่ได้รับการจัดระเบียบฐานข้อมูลแล้ว และได้รับการยอมรับ และใช้งานจริงในหมู่นักวิทยาศาสตร์นั้นมีอยู่เป็นจำนวนมาก ยกตัวอย่างประเภทของสิ่งมีชีวิตที่รู้จักกันดี เช่น
1. Arabidopsis thaliana
2. Caenorhabditis elegans
3. Danio rerio (zebrafish)
4. Dictyostelium discoideum
5. Drosophila melanogaster
6. Escherichia coli
7. Homo sapiens
8. Saccharomyces cerevisiae
9. Mus musculus
10. Schizosaccharomyces pombe
11. Gallus gallus
12. Rattus norvegicus

วันเสาร์ที่ 28 กรกฎาคม พ.ศ. 2550

ครั้งที่ 5

ความก้าวหน้าในการนำความรู้ทางด้าน Gene ontology มาประยุกต์ใช้

การนำข้อมูลที่ได้สืบค้นจาก Gene ontology สามารถประยุกต์ใช้ได้ในด้านวิทยาศาสตร์ที่สาขาต่างๆ อย่างเช่น ชีวเคมี, จุลชีววิทยา, ชีววิทยา นั้นพบว่ามีอยู่มาก เนื่องจากความก้าวหน้าทางเทคโนโลยีนั้นมีเพิ่มมากขึ้น แต่ข้อมูลที่ได้มักจะกระจัดกระจายไม่เป็นหลักแหล่ง เป็นผลทำต้องมีการนำข้อมูลต่างๆมารวบรวมเป็นกลุ่มดียวกัน ที่มีพร้อมทุกข้อมูลที่สนใจเพื่อสะดวกต่อการศึกษาค้นคว้า ซึ่งสามารถยกตัวอย่างดังกล่าวได้ดังนี้

การค้นหาหน้าที่และความสัมพันธ์ของกลุ่มยีนด้วย Gene ontology จะกล่าวเกี่ยวกับรูปแบบด้วยความก้าวหน้าทางเทคโนโลยีการถอดรหัสพันธุกรรมของแบคทีเรีย ทำให้พบยีนอีกเป็นจำนวนมากที่ขาดข้อมูลที่อธิบายการทำงานและรายละเอียดของยีน ปัจจุบันมีแหล่งข้อมูลอ้างอิง เช่น Gene Ontology (GO) ที่ทำการรวบรวมความหมายของยีน และข้อมูลที่เกี่ยวข้องกับยีนที่รวบรวมได้จากสิ่งมีชีวิตชนิดต่างๆ แต่จะพบข้อจำกัดที่ข้อมูลไม่ครอบคลุมถึงทุกยีนของแบคทีเรียทุกสายพันธุ์ ดังนั้นเพื่อเป็นการเพิ่มเติมข้อมูลหน้าที่ของยีนส่วนที่ขาดไป งานวิจัยนี้ใช้ข้อมูลกลุ่มยีนที่มีความคล้ายของแบคทีเรีย ด้วยสมมุติฐานว่ายีนในกลุ่มเดียวกันน่าจะมีหน้าที่การทำงานที่คล้ายกัน เป็นข้อมูลตั้งต้นเพื่อค้นหาหน้าที่ของยีนส่วนใหญ่ในกลุ่ม โดยใช้ข้อมูลอ้างอิงจาก GO ที่ทำการสรุปความสัมพันธ์ระหว่าง gene products ในยีนที่กำหนดคำนิยามตามมาตรฐานในระบบ GO มาทำการสืบค้นกับข้อมูลกลุ่มยีน ซึ่งได้สรุปรายการคำนิยามที่พบ จากนั้นใช้วิธีการวิเคราะห์ตัววัดหลายๆ ตัว (multiple test) เพื่อใช้วัดความเหมาะสมของนิยามที่แทนยีนส่วนใหญ่ในกลุ่ม ผลที่ได้จากการจัดกลุ่มและการหาหน้าที่ของยีนสามารถนำไปศึกษารายละเอียดเพิ่มเติมเพื่อทำความเข้าใจเกี่ยวกับหน้าที่การทำงานของยีนในสภาวะต่างๆ เช่น การเกิดโรค หรือศึกษาพิษวิทยาของยาหรือสารต่างๆ ที่มีผลต่อสิ่งมีชีวิต เป็นต้น แต่ยีนที่จะยกตัวอย่างนี้เป็นยีนของพืช ยีนนั้นคือ GeneSpring GX 7.3 ซึ่งยีนที่เกี่ยวข้องกับการตอบสนองต่อสิ่งแวดล้อมที่เปลี่ยนแปลงไป โดยแร่ธาตุอาหารที่เป็นสิ่งจำเป็นต่อการดำรงชีวิตนั้นมีไม่เพียงพอ ซึ่งจะเกี่ยวข้องกับกลไก ion transport mechanism และ biochemical pathway ที่มีผลต่อการ development และ biomass allocation ในปัจจุบันเทคโนโลยี microaray ถือเป็นเทคโนโลยีที่สำคัญมากต่อการตรวจวัดระดับการแสดงออก (transcriptional expression level) ของยีนต่างๆของพืช ภายใต้สภาวะของการขาดแร่ธาตุที่ไม่เพียงพอต่อการดำรงชีวิต ดังนั้นจึงได้สนใจยีน GeneSpring GX 7.3 ที่ตอบสนองต่อความเข้มข้นของแร่ธาตุที่อยู่ใน cell ขอพืช ซึ่งแร่ธาตุนั้นจะเป็นพวกไนโตรเจน (N) และฟอสฟอรัส (P) ที่เป็นส่วนประกอบหลักของคาร์โบไฮเดรตที่อยู่ในส่วนของใบ ถ้าแร่ธาตุทั้งสองตัวนี้มีไม่เพียงพอ ส่งผลให้การงอก, การสังเคราะห์แสง และการสังเคราะห์น้ำตาล นอกจากแร่ธาตุไนโตรเจนและฟอสฟอรัสแล้วยังมีแร่ธาตุของโพแทสเซียม (K) และแมกนีเซียม (Mg) ที่มีผลต่อการสังเคราะห์แสงอีกด้วย พืชที่ได้นำมาเป็นตัวอย่างก็คือ Arabidopsis thalianaที่ได้นำยีนจากการวิเคราะห์ด้วย microarray มาเก็บหรือรวบรวมข้อมูลโดยการจัดจำแนกเป็นหมวดหมู่ด้วย gene ontology (GO) ว่าลักษณะของ metabolism ต่างๆเป็นอย่างไรบ้าง และกลุ่มย่อยของ carbohydrate metabolism ที่ประกอบด้วย starch metabolism (starch phosphorylase, amylase และ isomerase), glycolysis และ disaccharide metabolism โดยที่ข้อมูลที่ได้นั้นจะคำนวณออกมาเป็นตัวเลข ซึ่งค่าที่ได้นั้นเป็นค่าที่มีนัยสำคัญ (P<0.005) ยีนที่เกี่ยวข้องกับ metabolism ต่างๆที่มี N ประกอบอยู่ด้วยนั้นสามารถจัดเก็บข้อมูลได้ด้วย GO ที่แยกหมวดหมู่เป็น amino acid, amine และ glutamate metabolism โดยค่าที่คำนวณได้นั้นก็ถือว่ามีนัยสำคัญ (P<0.005) แสดงดังรูปที่ 1

รูปที่ 1 แสดงหมวดหมู่ Gene Ontology ของยีน GeneSping GX 7.3 ต่อการตอบสนองของปริมาณแร่ธาตุไนโตรเจน (N), ฟอสฟอรัส (P) หรือ โพแทสเซียม (K) ที่ไม่เพียงพอต่อการดำรงชีวิต

วันจันทร์ที่ 9 กรกฎาคม พ.ศ. 2550

ครั้งที่4

What does Gene Ontology means?
Gene Ontology หมายถึงการกำหนดคำศัพท์ควบคุม เพื่อใช้ในการอธิบายถึง gene และ gene product ที่เป็นเอกลักษณ์ในทุกๆระบบของสิ่งมีชีวิต สามารถแยกข้อมูลโดยรวมได้เป็นสองส่วน คือ
1. Ontology itself คือ การบ่งชี้ถึงแนวคิดสำคัญในการแสดงข้อมูลทาง Molecular biology ซึ่งข้อมูลในส่วนนี้มีการปรับปรุงอยู่อย่างต่อเนื่อง
2. annotation คือ การแสดงลักษณะของ gene product โดยใช้คำศัพท์ควบคุมที่มีอยู่ในข้อกำหนดของ ontology ข้อมูลทั้งหมดจะมาจาก Go Consortium ซึ่งกลุ่มสมาชิกนี้จะเสนอข้อมูลอย่างเปิดเผย บุคคลทั่วไปสามารถสืบค้นได้ผ่าน GO website
ในทางชีวเคมีกรณีที่มีผู้สนในทำการศึกษาเป็นส่วนของแนวคิดทาง Molecular biology ซึ่งเป็นแนวคิดที่มีวัตถุประสงค์สำคัญ คือ เพื่อสร้างคำศัพท์ที่ใช้ควบคุม และเป็นข้อกำหนดร่วมที่สามารถนำไปประยุกต์ใช้กับสิ่งมีชีวิตทั้งหมด โดยอาศัยพื้นฐานความรู้ที่สอดคล้องกันในเรื่องของ บทบาทหน้าที่ของ ยีน และโปรตีนภายในเซลล์ ซึ่งมีการสะสมข้อมูลของการทำงาน และสามารถเปลี่ยนแปลงได้
ลักษณะการจัดข้อมูลเบื้องต้นของ Gene Ontology ในเชิง molecular biology เป็นอย่างไร?
Gene Ontology (GO) ในส่วนนี้มีการทำให้เป็นระบบ โดยอาศัยลักษณะบ่งชี้สำคัญคือ
1. Molecular function (MF) ซึ่งอธิบายถึงลักษณะกิจกรรมเฉพาะ ผ่านทางคุณสมบัติที่เป็นเอกลักษณ์ของสารที่ได้จากยีน โดยการเปลี่ยนแปลงทางเคมี เช่น transcription factor และ ATPase activity
2. Biological process (BP) ซึ่งกล่างถึงบทบาทที่เด่นชัดทางชีววิทยา เช่น mitosis และ purine metabolism เป็นต้น
3. Cellular component (CC) เป็นการอธิบายถึงโครงสร้างในระดับที่เล็กกว่าเซลล์ ตำแหน่ง และส่วนประกอบของโมเลกุลขนาดใหญ่ เช่น nucleus และ origin recognition complex
Ontology เกี่ยวข้องอย่างไรกับชีวเคมี?
ขีวเคมีคือ วิชาทางเคมีที่ศึกษาถึงกระบวนการของสิ่งมีชีวิต
Ontology คือ ศาสตร์ที่เกี่ยวข้องกับการสร้างต้นแบบจากฐานข้อมูลเพื่อใช้เป็นตัวแทนของ ชุดข้อมูล และเนื้อหาโดยรวมที่เกี่ยวข้อง
ดั้งนั้นจึงสามารถอนุมานได้ว่าในทางชีวเคมีสามารถใช้หลักของ Ontology ในการจัดระบบข้อมูลเกี่ยวกับกระบวนการของสิ่งมีชีวิต ซึ่งโดยพื้นฐานแล้วจะเกี่ยวข้องกับ โปรตีน และการควบคุมการทำงานของโปรตีน
การพัฒนาเทคโนโลยีการจัดชุดข้อมูลของโปรตีน หรือสารพันธุกรรมในปัจจุบัน ก่อให้เกิดการเปลี่ยนแปลงในเรื่องของการวางรูปแบบการทดลอง โดยมีการพัฒนาให้สามารถอธิบายพฤติกรรมของยีนจำนวนมาก ภายใต้สถาวะที่แตกต่างกันได้ในหนึ่งการทดลอง การพัฒนาดังกล่าวมีความคาดหวังให้ช่วยแก้ปัญหาที่เฉพาะเจาะจงทางชีววิทยา อาทิเช่น การระบุข้อมูลที่สลับซับซ้อนของโรคทางพันธุกรรม การทำนายชนิดของมะเร็งที่จะเกิดขึ้นในสิ่งมีชีวิต จนกระทั่งสามารถวิเคราะห์ และกำหนดส่วนผสมของยารักษาโรคให้เหมาะสมกับอายุ และลักษณะเฉพาะของคนไข้
วิธีการในการทำนายและตีความผลทางชีววิทยาผ่านการเรียบเรียงข้อมูลเกี่ยวกับยีน ได้รับคำจำกัดความไว้ในชื่อของ Gene Ontology (GO)

Note Gene Ontology ที่จะกล่างถึงในครั้งต่อไป ขอให้ทราบโดยตรงกันว่าเป็นการอธิบายความหมายในทางชีวเคมี ไม่เกี่ยวข้องกับระบบที่เป็น computer science

วันจันทร์ที่ 11 มิถุนายน พ.ศ. 2550

gene ontology















Gene Ontology project





Gene Ontology project หรือ GO project เกิดจากการร่วมมือกันของกลุ่มนักวิจัยที่ต้องการจัดระบบข้อมูลของ gene product ที่ได้จากฐานข้อมูลต่างๆ โดยมีเป้าหมายหลักคือ การกำหนดและควบคุมการใช้ (คำจำกัดความ, ดัชนี, คำจำเพาะ) ทางวิทยาศาสตร์ซึ่งอธิบาย gene product สามารถแบ่งกลุ่มอย่างกว้างได้สองกลุ่มคือ Molecular biology ซึ่งเกี่ยวข้องกับ กระบวนการทางชีววิทยา (biological processes) องค์ประกอบของเซลล์ (cellular components) หน้าที่ของโมเลกุลในเซลล์ (molecular functions) อีกกลุ่มคือ Annotation เป็นการอธิบายในรูปแบบคำนิยามของ Molecular biology ตามรูปที่1
รูปที่ 1 ขอบเขตของ Gene ontology




รูปที่ 2 องค์ประกอบย่อยทั้งสามของ Molecular biology
วัตถุประสงค์ในการจัดทำ gene ontology project เพื่อ
1. สร้างและเก็บรักษา ontology
2. เชื่อมโยงข้อมูลเกี่ยวกับ gene และ gene product ที่อยู่ในฐานข้อมูลต่างๆ
3. พัฒนาเครื่องมือที่จะใช้ในการเข้าถึงฐานข้อมูลนั้นๆ(ต่างๆ)ได้ง่ายขึ้น












สาเหตุที่ต้องใช้ GO browser เนื่องจากความก้าวหน้าทางเทคโนโลยี และ ความสำเร็จของ Genome projects เป็นผลให้มีข้อมูลของ gene, DNA, protein และ gene product อื่นๆมากมาย ซึ่งก่อนหน้านี้การที่นักวิจัยจะค้นหา หรือเข้าถึงข้อมูลต่างๆนี้ได้ค่อนข้างยากเนื่องจากจำเป็นที่จะต้องเข้าไปดึงข้อมูลในแต่ละฐานข้อมูลโดยตรงทำให้ยุ่งยากและเสียเวลามาก
ด้วยเหตุนี้กลุ่มนักวิจัย GO จึงได้ทำการรวบรวมข้อมูลจากฐานข้อมูลที่หลากหลายและสร้างรหัสจำเพาะขึ้นมาเพื่อเชื่อมโยงข้อมูลเหล่านั้น

ตัวอย่างการใช้ GO browser
เมื่อต้องการทราบข้อมูลต่างๆของ neuraminidase เช่น DNA sequence, Protein sequence หรือแหล่งของสิ่งมีชีวิตที่พบ
เริ่มจาก พิมพ์ "neuraminidase" ลงใน GO browser เพื่อหาข้อมูลเกี่ยวกับ neuraminidase ดังรูปข้างบน


เลือก parameter ที่ต้องการในการเลือก neuraminidase ตามรูปด้านบน

เลือกข้อมูลที่ต้องการ แล้วเลือก get annotation summary เพื่อแสดงข้อมูลในรูปแบบ oncology ดังรูป

วันพุธที่ 6 มิถุนายน พ.ศ. 2550

ontology

What is an ontology?