MOLECULAR MODELLING AND STRUCTURAL ANALYSIS OF PAPAIN
 
   
                               
                        
homepage Introduction
Secondary structure
Hydrophobicity of papain Papain compared to A.thaliana
sequence-alignment
Homology Modelling Spreadsheet
Animation

Papain compared to Arabidopsis thaliana proteins

 Carica papaya  Arabidopsis thaliana
LOCUS
PAPA_CARPA               345 aa      
CAA18734                 355 aa   
DEFINITION
Papain precursor (Papaya proteinase I).
cysteine proteinase-like protein [Arabidopsis thaliana].
ACCESSION
P00784
CAA18734
VERSION  
P00784  GI:129614
CAA18734.1  GI:3080415
DBSOURCE
swissprot: locus PAPA_CARPA, accession P00784;
embl locus ATF23E12, accession AL022604.1
SOURCE
Carica papaya (papaya)
Arabidopsis thaliana (thale cress)
ORGANISM
Carica papaya
Eukaryota; Viridiplantae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta;eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Caricaceae; Carica.
Arabidopsis thaliana
Eukaryota; Viridiplantae; Streptophyta;
Embryophyta; Tracheophyta;Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;Rosidae; eurosids II; Brassicales; Brassicaceae; Arabidopsis.
                            The table above provides an information summary of  Carica papaya and Arabidopsis thaliana 


   Graphical representation of the amino acid composition of Papain and Cyteine Preteinase of Arabidopsis thaliana.  ( 1)


                                            Fig. 1
Figure1 above, shows a graphical representation of the amino acid composition of the papain
Fig. 2
Figure 2 above, shows a graphical representation of the amino acid composition of the cysteine proteinase-like protein in Arabidopsis thaliana
                       
                 

SEARCH RESULT OF A MATCH OF PAPAIN AGAINST THE ARABIDOPSIS THALIANA PROTEIN
                     Protein from different sources and sometimes diverse biological functions can have similar sequences, and it is generally accepted that high sequence similarity is reflected by distinct structure similarity. A FASTA search of the Papain precursor (P00784)against the Arabidopsis thalian proteins yielded the following results:-
./align/31625.3662109375A: 345 aa                                                                                              
 >Your Sequence;
 vs  ./align/myThal-descr.seq library                                                                                                                                The best score obtained from the search
         
Best Scores            initn init1 opt z-sc E(25423)
AT4g35350;             ( 355) 1054  643 1126 1281.9    0
At1g20850;                ( 356) 1050  357 1088 1238.9    0
AT5g50260;              ( 361)  874  284  947 1079.2    0
AT3g48340;              ( 361)  834  282  917 1045.2    0
AT5g45890;              ( 346)  843  317  913 1040.9    0
AT3g19390;             ( 452)  665  335  908 1033.7    0
AT4g23520;             ( 355)  781  279  885 1009.1    0
AT5g43060;             ( 463)  446  334  884 1006.4    0
At2g34080;              ( 345)  739  434  877 1000.2    0
AT3g49340;             ( 341)  792  290  875 998.0    0
AT3g48350;             ( 364)  798  267  873 995.3    0
At1g06260;              ( 343)  442  290  861 982.1    0
AT4g11310;             ( 364)  784  268  860 980.6    0
AT4g36880;            ( 376)  793  291  860 980.4    0
At1g09850;             ( 435)  674  335  851 969.4    0
AT4g11320;            ( 371)  762  266  850 969.2    0
At1g29090;             ( 346)  712  338  845 963.9    0
At1g29110;             ( 334)  565  169  702 802.2    0
At1g29080;             (339)  546  154  702 802.2    0
AT3g19400;            ( 359)  645  316  697 796.2    0
At2g27420;             ( 348)  733  276  685 782.8    0
AT3g43960;           ( 376)  465  280  635 725.7 3.3e-34

AT5g60360;           ( 358)  485  202  560 641.1 1.7e-29
AT3g45310;           ( 377)  486  188  521 596.6 5.1e-27
AT3g54940;           ( 363)  367  247  463 531.2 2.3e-23
At2g21430;            ( 361)  442  256  408 468.9 6.6e-20
AT4g39090;           ( 368)  447  258  401 460.9 1.9e-19
AT4g16190;           ( 373)  412  236  354 407.6 1.7e-16
AT4g01620;           ( 359)  214   84  208 242.5 2.7e-07
At2g22160;            ( 105)  168   95  189 228.1 1.7e-06
At1g02300;             ( 677)  208   84  157 181.1 0.00071
AT5g17140;            ( 112)   80   80  143 175.7 0.0014
At1g03720;             ( 274)   85   85  111 134.3 0.29
At1g13830;             ( 259)   31   31  108 131.2 0.43
AT5g07210;            ( 621)   40   40  102 119.3    2
AT5g05050;            ( 299)  101   62   95 115.6  3.2
AT5g17080;            ( 298)   71   48   94 114.5  3.6
At1g60270;            ( 477)   64   64   95 112.9  4.5
At1g32480;            ( 294)   55   55   90 110.1  6.4
AT3g22650;           ( 372)   34   34   90 108.7  7.7
AT4g02700;            ( 646)   72   49   92 107.8  8.6
At2g34810;             ( 540)   56   56   91 107.7  8.8
At2g35180;             ( 484)   81   55   90 107.2  9.3
Tabulated above is the best scores obtained from a search of Papain against the Arabidopsis thalian protein .The best match is shown in red.
Result of an Emboss Pairwise alignment
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
# Length: 363
# Identity: 167/363 (46.0%)
# Similarity: 241/363 (66.4%)
# Gaps: 26/363 ( 7.2%)
# Score: 870.5

searching ./align/myThal-descr.seq library

       opt      E()
< 20     1     0:=
  22     0     0:           one = represents 39 library sequences
  24     0     0:
  26     2     1:*
  28     1     6:*
  30    12    35:*
  32   105   135:===*
  34   377   367:=========*
  36   778   754:===================*
  38  1308  1247:===============================*==
  40  1726  1739:============================================*
  42  2110  2126:======================================================*
  44  2240  2345:========================================================== *
  46  2335  2388:===========================================================*
  48  2275  2286:==========================================================*
  50  2140  2086:=====================================================*=
  52  1815  1834:===============================================*
  54  1557  1567:========================================*
  56  1276  1309:=================================*
  58  1066  1074:===========================*
  60   908   870:======================*=
  62   723   698:=================*=
  64   618   555:==============*=
  66   455   439:===========*
  68   347   345:========*
  70   272   270:======*
  72   228   211:=====*
  74   181   165:====*
  76   118   128:===*
  78   102   100:==*
  80    65    77:=*
  82    71    59:=*
  84    55    47:=*
  86    30    36:*
  88    21    28:*          inset = represents 1 library sequences
  90    27    22:*
  92    24    17:*         :================*=======
  94    17    13:*         :============*====
  96    10    10:*         :=========*
  98     8     8:*         :=======*
 100     6     6:*         :=====*
 102     5     5:*         :====*
 104     0     4:*         :   *
 106     1     3:*         := *
 108     3     2:*         :=*=
 110     1     2:*         :=*
 112     1     1:*         :*
 114     1     1:*         :*
 116     1     1:*         :*
 118     1     1:*         :*
>120    34     0:=         *==================================
11049032 residues in 25458 sequences
 Expectation fit: rho(ln(x))= 5.1207+/-0.000988; mu= 7.8428+/- 0.058;
 mean_var=78.0098+/-17.977
 Kolmogorov-Smirnov  statistic: 0.0069 (N=29) at  58.



                      Fig. 1
Figure 1 above shows the location of the
gene on the number four (1V) chromosome
of Arabidopsis thaliana(2).



Figure 2 on the right shows the sequence
of the gene At 4g 35350




                                                        Fig.2


Fig. 1 




                                                                        A. thaliana - FST matches for entry At4g35350
(4)



entry code
                                                  entry coordinates
At4g35350                     >W/16016385-16016859,16016954-16017189,16017279-16017419,16017516-16017731
FST code                                                   match coordinates
SALK:SALK_015385                           W/16014520-16014635
SALK:SALK_001362                           W/16014147-16014487

Legend Black gene model (coding region)
Blue FST matches
Boxes exons
Horizontal lines  introns


A. thaliana - mRNA matches for entry At4g35350 (contig dt_d_23)((5)


                                                                                     
entry code                                               entry coordinates
At4g35350                            W/58505-58979,59074-59309,59399-59539,59636-59851
mRNA code                                match coordinates on contig dt_d_23
EMBL:AF191027.1             W/58505-58979,59074-59309,59399-59539,59636-59984

Legend Black gene model (coding region)
Blue mRNA matches (including UTRs)
Boxes exons (4)
Horizontal lines  introns
Vertical lines mRNA coordinate matches gene model coordinate

                                           PREVIOUS                                                                  NEXT